আপনার নিকট দুটি গ্রুপ থাকাকালে অবশিষ্টাংশের প্রদর্শনগুলির বিষয়ে কথা বলার জন্য নিককক্স একটি ভাল কাজ করেছেন। আমাকে এই সুতার পিছনে থাকা কিছু স্পষ্ট প্রশ্ন এবং অন্তর্নিহিত অনুমানগুলি সম্বোধন করতে দিন।
প্রশ্নটি জিজ্ঞাসা করে, "স্বতন্ত্র ভেরিয়েবল বাইনারি হওয়ার সময় আপনি সমকামিতা যেমন লিনিয়ার রিগ্রেশন সম্পর্কিত অনুমানগুলি কীভাবে পরীক্ষা করেন?" আপনার একাধিক রিগ্রেশন মডেল রয়েছে। একটি (একাধিক) রিগ্রেশন মডেল ধরে নেয় কেবলমাত্র একটি ত্রুটি শব্দ রয়েছে, যা সর্বত্র স্থির থাকে। প্রতিটি ভবিষ্যদ্বাণীকের পৃথকভাবে পৃথকভাবে পরীক্ষা করার জন্য এটি মারাত্মক অর্থবহ নয় (এবং আপনার কাছে নেই)। এ কারণেই, যখন আমাদের একাধিক রিগ্রেশন মডেল থাকে, তখন আমরা পূর্বাভাসিত মানগুলি বনামের প্লটগুলি থেকে হেটেরোসেসডাস্টিকটি নির্ণয় করি। সম্ভবত এই উদ্দেশ্যে সর্বাধিক সহায়ক প্লট হ'ল একটি স্কেল-লোকেশন প্লট (এটি 'স্প্রেড-লেভেল' নামেও পরিচিত), যা পূর্বাভাসিত মানগুলির অবশিষ্টাংশগুলির পরম মানের বর্গমূলের একটি প্লট। উদাহরণগুলি দেখতে, কি না থাকার নেই "ধ্রুবক ভ্যারিয়েন্স" একটি রৈখিক রিগ্রেশনের মডেল গড় মধ্যে?
তেমনি, স্বাভাবিকতার জন্য আপনাকে প্রতিটি পূর্বাভাসীর অবশিষ্টাংশগুলি পরীক্ষা করতে হবে না। (আমি সত্যই জানি না যে কীভাবে এটি কার্যকর হবে))
পৃথক ভবিষ্যদ্বাণীকারীদের বিরুদ্ধে প্লট অবশিষ্টাংশের সাথে আপনি কী করতে পারেন তা কার্যকারিতাটি সঠিকভাবে নির্দিষ্ট করা হয়েছে কিনা তা পরীক্ষা করে দেখুন। উদাহরণস্বরূপ, যদি অবশিষ্টাংশগুলি প্যারাবোলা গঠন করে তবে ডেটাতে কিছু বক্রতা থাকে যা আপনি মিস করেছেন। একটি উদাহরণ দেখতে, এখানে @ গ্লেন_ বি এর উত্তরটির দ্বিতীয় প্লটটি দেখুন: লিনিয়ার রিগ্রেশনে মডেলের গুণমান পরীক্ষা করা । তবে, এই সমস্যাগুলি বাইনারি ভবিষ্যদ্বাণী নিয়ে প্রযোজ্য নয়।
এটির জন্য মূল্যবান, যদি আপনার কাছে কেবল শ্রেণিবদ্ধ ভবিষ্যদ্বাণী থাকে তবে আপনি ভিন্নজাতীয়তার জন্য পরীক্ষা করতে পারেন। আপনি কেবল লেভেনের পরীক্ষাটি ব্যবহার করেন। আমি এখানে এটি নিয়ে আলোচনা করছি: কেন লে রেভেনের এফ রেশির চেয়ে বৈকল্পের সমতার পরীক্ষা? আর-এ আপনি গাড়ী প্যাকেজ থেকে leveneTest ব্যবহার করছেন ?
সম্পাদনা করুন: একটি নির্দিষ্ট প্রেডিক্টর ভেরিয়েবল বনাম অবশিষ্টাংশের প্লটটির দিকে তাকানো যখন আপনার একাধিক রিগ্রেশন মডেল রয়েছে তখন এই উদাহরণটি আরও ভালভাবে বোঝাতে: এই উদাহরণটি বিবেচনা করুন:
set.seed(8603) # this makes the example exactly reproducible
x1 = sort(runif(48, min=0, max=50)) # here is the (continuous) x1 variable
x2 = rep(c(1,0,0,1), each=12) # here is the (dichotomous) x2 variable
y = 5 + 1*x1 + 2*x2 + rnorm(48) # the true data generating process, there is
# no heteroscedasticity
mod = lm(y~x1+x2) # this fits the model
আপনি ডেটা উত্পন্নকরণ প্রক্রিয়া থেকে দেখতে পাচ্ছেন যে কোনও ভিন্ন ভিন্নতা নেই ced মডেলটির প্রাসঙ্গিক প্লটগুলি পরীক্ষা করে দেখি তারা সমস্যাযুক্ত হিটারোসিসেস্টাস্টিটি বোঝায় কিনা:
না, চিন্তার কিছু নেই। যাইহোক, আসুন বনামের অবশিষ্টাংশের প্লটটি দেখে নেওয়া যাক পৃথক বাইনারি প্রেডিকটার ভেরিয়েবলটি দেখতে দেখতে এটির মতো ভিন্নধর্মী আছে কিনা তা দেখতে দেখতে:
ওহ, দেখে মনে হচ্ছে কোনও সমস্যা হতে পারে। আমরা ডেটা উত্পন্নকরণ প্রক্রিয়া থেকে জানি যে কোনও ভিন্ন ভিন্ন উপায়ে নেই, এবং এটি অন্বেষণের প্রাথমিক প্লটগুলি কোনওটিই দেখায় নি, তাই এখানে কী হচ্ছে? সম্ভবত এই প্লটগুলি সাহায্য করবে:
x1
এবং x2
একে অপরের থেকে স্বতন্ত্র নয়। তদুপরি, পর্যবেক্ষণগুলি x2 = 1
চূড়ান্ত হয়। তাদের আরও বেশি লাভ রয়েছে, তাই তাদের অবশিষ্টাংশগুলি প্রাকৃতিকভাবেই ছোট। তা সত্ত্বেও, এখানে কোনও বৈপরীত্য নেই।
বাড়ির বার্তাটি নিন: আপনার সেরা বেটটি হ'ল যথাযথ প্লটগুলি (অবশিষ্টাংশ বনাম লাগানো প্লট এবং স্প্রেড-লেভেল প্লট) থেকে ভিন্ন ভিন্নতা নির্ণয় করা।