নির্ভরশীল চলকের স্বাভাবিকতা = অবশিষ্টাংশের স্বাভাবিকতা?


34

এই সমস্যাটি সর্বদা তার কুশল মাথাটিকে পিছনে ফেলেছে বলে মনে হচ্ছে এবং আমি আমার নিজস্ব পরিসংখ্যান (এবং বিবেকহীনতা) বোঝার জন্য এটিকে ছাড়িয়ে দেওয়ার চেষ্টা করছি।

সাধারণ রৈখিক মডেলগুলির অনুমানগুলি (টি-টেস্ট, আনোভা, রিগ্রেশন ইত্যাদি) এর মধ্যে "স্বাভাবিকতার অনুমান" অন্তর্ভুক্ত থাকে তবে আমি খুঁজে পেয়েছি যে এটি খুব কমই পরিষ্কারভাবে বর্ণনা করা হয়েছে।

আমি প্রায়শই পরিসংখ্যান পাঠ্যপুস্তক / ম্যানুয়াল / ইত্যাদি জুড়ে এসেছি যে কেবল উল্লেখ করে যে "স্বাভাবিকতার অনুমান" প্রতিটি গ্রুপের জন্য প্রযোজ্য (যেমন শ্রেণীবদ্ধ এক্স ভেরিয়েবল), এবং আমাদের প্রতিটি গ্রুপের জন্য স্বাভাবিকতা থেকে প্রস্থান পরীক্ষা করা উচিত ।

প্রশ্নসমূহ :

  1. অনুমানটি Y এর মান বা Y এর অবশিষ্টাংশগুলিকে বোঝায় ?

  2. একটি নির্দিষ্ট গোষ্ঠীর জন্য , ওয়াইয়ের অবশিষ্টাংশের আনুমানিক (বা কমপক্ষে আরও সাধারণ) বন্টন করে তবে ওয়াইয়ের মানগুলির (যেমন, স্কিউড) দৃ strongly়ভাবে অ-স্বাভাবিক বিতরণ করা সম্ভব ?

    অন্যান্য উত্স বর্ণনা করে যে অনুমানটি মডেলটির অবশিষ্টাংশের সাথে সম্পর্কিত (যেমন গ্রুপ রয়েছে যেমন, টি-টেস্ট / এনোভা), এবং আমাদের এই অবশিষ্টাংশগুলির স্বাভাবিকতার প্রস্থান পরীক্ষা করা উচিত (যেমন, কেবলমাত্র একটি কিউকিউ প্লট / পরীক্ষার জন্য চালানো)।

  3. জন্য অবশিষ্টাংশ সেই স্বাভাবিকত্বের কারণটি কী মডেল জন্য অবশিষ্টাংশ সেই স্বাভাবিকত্বের কারণটি পরোক্ষভাবে গ্রুপ ? অন্য কথায়, আমরা কি কেবলমাত্র মডেলের অবশিষ্টাংশগুলি পরীক্ষা করব (বহু পাঠের নির্দেশের বিপরীতে)?

    এটি একটি প্রসঙ্গে রাখার জন্য, এই অনুমানের উদাহরণটি বিবেচনা করুন:

    • আমি দুটি জনসংখ্যার (এক্স) এর মধ্যে গাছের উচ্চতা (Y) তুলনা করতে চাই।
    • একটি জনসংখ্যায় Y এর বন্টন দৃ strongly়ভাবে ডান-স্কিউড (যেমন, বেশিরভাগ গাছ সংক্ষিপ্ত, খুব কম লম্বা), অন্যটি কার্যত স্বাভাবিক
    • সাধারণত বিতরণ করা জনগোষ্ঠীতে উচ্চতা সামগ্রিকভাবে উচ্চতর হয় (প্রস্তাবিত সেখানে একটি 'আসল' পার্থক্য থাকতে পারে)।
    • তথ্যের রূপান্তর প্রথম জনসংখ্যার বিতরণকে যথেষ্ট পরিমাণে উন্নতি করে না।
  4. প্রথমত, মূলত বিভিন্ন উচ্চতার বিতরণ দেওয়া দলগুলির তুলনা করা বৈধ?

  5. আমি কীভাবে এখানে "স্বাভাবিকতা অনুমানের" কাছে যেতে পারি? এক জনগোষ্ঠীর পুনরুদ্ধার উচ্চতা সাধারণত বিতরণ করা হয় না। আমি পরীক্ষা করে না অবশিষ্টাংশ উভয়ের জন্য জনগোষ্ঠী আলাদাভাবে বা অবশিষ্টাংশ জন্য মডেল (t-test এর)?


অনুগ্রহ করে উত্তরগুলিতে সংখ্যায় প্রশ্নগুলি দেখুন, অভিজ্ঞতা আমাকে দেখিয়েছে লোকেরা সহজেই হারিয়ে যায় বা বিযুক্ত হয়ে যায় (বিশেষত আমার!)। মনে রাখবেন আমি কোনও পরিসংখ্যানবিদ নই; যদিও আমার কাছে পরিসংখ্যানের যুক্তিসঙ্গত ধারণা আছে (যেমন প্রযুক্তিগত নয়) not

পিএস, আমি সংরক্ষণাগারগুলি সন্ধান করেছি এবং নিম্নলিখিত থ্রেডগুলি পড়েছি যা আমার বোঝার ত্রুটি করে নি:


2
" প্রশ্ন 1) অনুমানটি কি Y এর মান বা Y এর অবশিষ্টাংশগুলিকে বোঝায়? " - কড়া কথা বললে নয় , যদিও দ্বিতীয়টি আপনি যা পরীক্ষা করেন তা নয় । সাধারণ হিসাবে যা ধারণা করা হয় তা হ'ল অলক্ষণীয় ত্রুটি , বা সমানভাবে ভবিষ্যদ্বাণীকারীদের প্রতিটি সংমিশ্রণে ওয়াইয়ের শর্তযুক্ত বিতরণ । ওয়াইয়ের নিঃশর্ত বিতরণ স্বাভাবিক বলে ধরে নেওয়া হয় না।
গ্লেন_বি -রিনস্টেট মনিকা

1
+1 এই সমস্যাটি উদ্ভূত হয়েছে এমন কয়েকটি (অনেক) থ্রেডকে সংগঠিত ও সংহত করার প্রচেষ্টা করার জন্য ধন্যবাদ; এটি অবশ্যই একটি FAQ।
whuber

আমি এই প্রশ্নের জন্য আপনাকে ধন্যবাদ দিতে চাই। উভয়ই বিষয়টিকে সম্বোধন করছে এবং এটি কতটা সুসংহত এবং সংযুক্ত। আমি সচেতন যে আপনি এটি অনেক আগে জিজ্ঞাসা করেছিলেন তবে এটি কেবল খুব ভাল প্রশ্ন!
হুঁ মম

উত্তর:


14

একটি বিষয় যা আপনার বুঝতে সাহায্য করতে পারে:

তাহলে স্বাভাবিকভাবে বিতরণ এবং হয় একটি এবং ধ্রুবক, তারপর হয় Y = এক্স - একটিxab সাধারণত বিতরণ করা হয় (তবে সম্ভবত ভিন্ন ভিন্ন গড় এবং বৈচিত্র সহ)।y=xab

যেহেতু অবশিষ্টাংশগুলি কেবলমাত্র y মানের বিয়োগফল হিসাবে আনুমানিক গড় (মানযুক্ত রেসিডুয়ালগুলি স্ট্যান্ডার্ড ত্রুটির প্রাক্কলন দ্বারা বিভক্ত হয়) তবে যদি y মানগুলি সাধারণত বিতরণ করা হয় তবে অবশিষ্টাংশগুলিও পাশাপাশি এবং অন্যভাবে। সুতরাং আমরা যখন তত্ত্ব বা অনুমানগুলি নিয়ে কথা বলি তখন আমরা কোন বিষয়েই কথা বলি তা বিবেচ্য নয় কারণ একটি অন্যটিকে বোঝায়।

সুতরাং প্রশ্নের জন্য এটি বাড়ে:

  1. হ্যাঁ, উভয়ই
  2. না, (তবে স্বতন্ত্র y- মানগুলি বিভিন্ন উপায় সহ স্বাভাবিক থেকে আসবে যা একত্রে গোষ্ঠীভুক্ত হলে এগুলি স্বাভাবিক অস্বাভাবিক দেখায়)
  3. অবশিষ্টাংশের স্বাভাবিকতা বলতে দলগুলির স্বাভাবিকতা বোঝায়, তবে কিছু ক্ষেত্রে গ্রুপ দ্বারা রেসিডুয়ালগুলি বা ওয়াই-ভ্যালু পরীক্ষা করা ভাল হতে পারে (পুলিং অ-স্বাভাবিকত্বকে একটি গোষ্ঠীতে সুস্পষ্ট যেটি অস্পষ্ট করতে পারে) বা অন্যান্য ক্ষেত্রে সব মিলিয়ে দেখা (পর্যাপ্ত পর্যবেক্ষণ নয়) প্রতি গ্রুপ নির্ধারণ, কিন্তু সব একসাথে আপনি বলতে পারেন)।
  4. এটি তুলনা করে আপনি কী বোঝাতে চেয়েছেন, আপনার নমুনার আকারটি কত বড় এবং "অনুমান" সম্পর্কে আপনার অনুভূতিগুলি নির্ভর করে। স্বাভাবিকতা অনুমিতি কেবলমাত্র পরীক্ষাগুলির / ফলাফলগুলির জন্য অন্তরগুলির জন্য প্রয়োজনীয়, আপনি মডেলটিকে ফিট করতে পারেন এবং স্বাভাবিকতা আছে কি না তা পয়েন্ট আনুমানিক বর্ণনা করতে পারেন। কেন্দ্রীয় সীমাবদ্ধ উপপাদ্যটি বলে যে নমুনার আকারটি যদি যথেষ্ট পরিমাণে বড় হয় তবে অনুমানগুলি প্রায় স্বাভাবিক হবে এমনকি অবশিষ্টাংশগুলি না হলেও।
  5. আপনি কোন প্রশ্নের উত্তর দেওয়ার চেষ্টা করছেন এবং কীভাবে আপনি "আনুমানিক" খুশি তার উপর এটি নির্ভর করে।

আরেকটি বিষয় যা বোঝার জন্য গুরুত্বপূর্ণ (তবে প্রায়শই শিখতে জড়িত) তা হল এখানে 2 প্রকারের অবশিষ্টাংশ রয়েছে: তাত্ত্বিক অবশিষ্টগুলি যা পর্যবেক্ষণকৃত মান এবং সত্য তাত্ত্বিক মডেলের মধ্যে পার্থক্য এবং পর্যবেক্ষণকৃত অবশিষ্টাংশগুলি যা পার্থক্যগুলি পর্যবেক্ষিত মান এবং বর্তমানে লাগানো মডেল থেকে অনুমানের মধ্যে। আমরা ধরে নিই যে তাত্ত্বিক অবশিষ্টগুলি iid স্বাভাবিক। পর্যবেক্ষণকৃত অবশিষ্টাংশগুলি আমি, i, বা বিতরণকৃত সাধারণ নয় (তবে এর গড় 0 হয়)। যাইহোক, ব্যবহারিক উদ্দেশ্যে পর্যবেক্ষিত অবশিষ্টাংশ তাত্ত্বিক অবশিষ্টাংশ অনুমান করে এবং তাই ডায়াগনস্টিকগুলির জন্য এখনও কার্যকর useful


ত্রুটি এবং অবশিষ্টাংশ সম্পর্কে আরো তথ্যের জন্য, আমি মনে করি এটা উইকি এই নিবন্ধটি পড়তে দরকারী en.wikipedia.org/wiki/Errors_and_residuals
Lil'Lobster

1
Y-Y^

YY^-

কিউ 1 তে (যা কিউ 2 এর উত্তরে এক ধরণের জ্ঞানযুক্ত): স্পষ্টতই এটি অবশিষ্টাংশগুলি এবং ওয়াইসগুলি মোটেই নয়। যখন কোভারিয়েটগুলি পর্যবেক্ষণের মধ্যে পৃথক হয়, তখন আপনি সহজেই দ্বি-মডেল প্রান্তিক বিতরণ করতে পারেন যদিও অবশিষ্টগুলি স্বাভাবিক থাকে are অতএব, কেউ কেবল Ys এর দিকে তাকাতে পারে না, কেবল অবশিষ্টাংশগুলিতে।
বিজনান

@ জর্ন, এটি একটি ভাল ব্যাখ্যা ation এক্স এর উপর y ভেরিয়েবলগুলি স্বাভাবিক, শর্তসাপেক্ষ, তাই কাঁচা ওয়াই-ভ্যালুগুলি নরমালগুলির মিশ্রণ এবং কেবল y- মানগুলির প্লটটি এক্সকে সাধারণ শর্তযুক্ত হওয়ার ধারণার সাথে মাপসই করা সত্ত্বেও স্বাভাবিকতা প্রদর্শন করতে পারে না। ডায়াগনস্টিক্সের জন্য আমরা সাধারণত অবশিষ্টাংশগুলি ব্যবহার করি (কারণ শর্তাধীন অংশটি বেশিরভাগ সরানো হয়েছে)। (শর্তাধীন) স্বাভাবিকতার অনুমান তাত্ত্বিক অবশিষ্ট এবং y- মান উভয়কেই বোঝায়।
গ্রেগ স্নো

7

সংক্ষিপ্ত উত্তর:

  1. অবশিষ্টাংশ
  2. না
  3. নির্ভর করে, উভয় পদ্ধতিরই সুবিধা এবং অসুবিধা রয়েছে
  4. কেন না? মাধ্যমের পরিবর্তে মাধ্যমের তুলনায় এটি আরও বোধগম্য হতে পারে।
  5. আপনি আমাদের যা বলেছেন তা থেকে স্বাভাবিক ধারণাটি সম্ভবত লঙ্ঘিত হয়েছে

দীর্ঘ উত্তর:

অনুমানটি হ'ল নির্ভরশীল চলক (y) সাধারণত বিতরণ করা হয় তবে বিভিন্ন গ্রুপের জন্য বিভিন্ন উপায়ে। ফলস্বরূপ, যদি আপনি কেবল y এর বন্টন পরিকল্পনা করেন তবে এটি আপনার স্ট্যান্ডার্ড বেল আকারের স্বাভাবিক বক্ররেখা থেকে খুব সহজেই দেখতে পারে। অবশিষ্টাংশগুলি "ফিল্টার আউট" এর মধ্যে এই পার্থক্যগুলির সাথে y এর বিতরণকে প্রতিনিধিত্ব করে।

বিকল্পভাবে, আপনি পৃথকভাবে প্রতিটি গ্রুপে y এর বিতরণ দেখতে পারেন। এটি বিভিন্ন গ্রুপের মধ্যে পার্থক্যগুলি ফিল্টার করে। সুবিধাটি হ'ল এইভাবে আপনি প্রতিটি গ্রুপের বিতরণ সম্পর্কেও তথ্য পাবেন যা আপনার ক্ষেত্রে প্রাসঙ্গিক বলে মনে হয়। অসুবিধাটি হ'ল প্রতিটি গ্রুপে সম্মিলিত ডেটাসেটের চেয়ে কম পর্যবেক্ষণ রয়েছে যা অবশিষ্টাংশগুলিতে দেখার সময় আপনি পাবেন। তদুপরি, আপনার অনেকগুলি গ্রুপ থাকলে আপনি অর্থসূচকভাবে গ্রুপগুলি তুলনা করতে সক্ষম হবেন না, যেমন আপনি নিজের মডেলটিতে অনেক প্রেডিকটর ভেরিয়েবল প্রবেশ করেছেন বা আপনার মডেলটির জন্য (অর্ধ) অবিরত ভবিষ্যদ্বাণী পরিবর্তনশীল। সুতরাং যদি আপনার মডেলটিতে কেবলমাত্র একটি স্পষ্টিকর ভবিষ্যদ্বাণীকারী পরিবর্তনশীল থাকে এবং প্রতিটি গ্রুপে পর্যবেক্ষণের সংখ্যা যথেষ্ট বড় হয়, তবে প্রতিটি গ্রুপে y এর বিতরণ পৃথকভাবে পরিদর্শন করা অর্থবহ হতে পারে।


7
দৃrict়ভাবে, অবশিষ্টাংশগুলি কেবল অজানা এবং অজানা ত্রুটি বা অস্থিরতার অনুমান, সুতরাং নীতিমালায় যদি স্বাভাবিকতা সঠিক হয় তবে আপনি অনুশীলনে একেবারে স্বাভাবিক অবশিষ্টাংশগুলি পেতে পারেন না। আরও গুরুত্বপূর্ণ, ত্রুটির স্বাভাবিকতা এই পদ্ধতিগুলির মধ্যে সবচেয়ে কম গুরুত্বপূর্ণ অনুমান!
নিক কক্স

@ নিককক্স (+1) উভয় বিবেচনায় সম্মত হয়েছে
মার্টেন

1

YX
XY


eYϵX
YY|XN(Xβ,σ2)
XYY|X


YX

প্রশ্ন 3)
লিনিয়ার মডেলগুলির স্বাভাবিকতার জন্য প্রয়োজনীয় ব্যবহারগুলি হ'ল অবশিষ্টগুলি যেগুলি স্বাভাবিক নয়, সামগ্রিকভাবে এটি একটি গ্রুপে রয়েছে বা না, এটি একটি গুরুত্বপূর্ণ সূচক যা আপনার মডেল আপনার ডেটা মাপসই করতে পারে না।
আপনি যদি আনোভা করছেন, তবে অবশ্যই আপনার সামগ্রিক অবশিষ্টাংশগুলি স্বাভাবিক (বা বরং সমকামী) হওয়া উচিত নয়, এটির কোনও অর্থ হবে না। যদিও কোনও রিগ্রেশনে, আপনার সামগ্রিক স্বাভাবিক অবশিষ্টাংশগুলি সমেত একটি মডেল ভাল। যদি তা না হয় তবে আপনার বিরতি অনুমানকারী এবং পরীক্ষাগুলি ভুল হবে। এটি কিছু স্বতঃসংশোধনের ঘটনা বা কোনও অনুপস্থিত ভেরিয়েবল পক্ষপাতের ঘটনা হতে পারে। যদি মডেলটি 100% সঠিক (সম্ভবত স্ট্রাকচারাল ব্রেক এবং ওজন প্রয়োজন সহ) প্রয়োজন হয় তবে এটি প্রায় 0 টি কেন্দ্রিক এমনকি সাধারণ ত্রুটির শর্তাবলী ধরে নেওয়া খুব বেশি কার্যকর নয়, প্রায়শই প্রশ্নটি হয়ে ওঠে: নমুনা থাকলে আমরা কি এই জিনিসগুলি দিয়ে দূরে যেতে পারি? যথেষ্ট বড়? এর কোনও নির্দিষ্ট উত্তর নেই, তবে 100% সঠিক পদ্ধতির জন্য হ্যাঁ, সমস্ত অবশিষ্টাংশের স্বাভাবিক হওয়া উচিত।

প্রশ্ন 4 এবং 5)
এটি তুলনা করে আপনি কী বোঝাতে চান তার উপর নির্ভর করে। সাধারণ ত্রুটির শর্তাদির অনুমান দেওয়া, আপনি দুটি পৃথক বিতরণের অনুমানের ভিত্তিতে পরীক্ষা করতে পারেন। বিভিন্ন বিতরণ পরামিতিগুলির জন্য অ্যাকাউন্টে নিবন্ধনের জন্য আপনি জিএলএস অনুমানও ব্যবহার করতে পারেন - যদি আপনার কাছে সঠিক মডেল থাকে ... এবং আমি অনুমান করি যে আপনার গ্রুপগুলি নিজেরাই সূচক / বাইনারি পরিবর্তনশীল হিসাবে কাজ করে?
তারপরে অবশেষে বিতরণগুলি স্বাভাবিক হবে - এমন যুক্তিটি সম্ভবত খুব কঠিন হবে - ফলস্বরূপ এটি যখন আপনি আপনার ডেটা দিয়ে স্টাফ করতে পারেন তবে এটি নিয়মিত ওএলএসের ভিত্তিতে হবে না।
তবে আপনি ডেটা দিয়ে কী করতে চান তা নির্ভর করে depends


Y|X

আমি মনে করি ফলাফলের বিতরণকে কেন্দ্র করে নিয়মিত ওএলএসের বীজগণিত সন্ধান করা ভাল উপায় হবে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.