ভারসাম্যহীনতা অগত্যা কোনও সমস্যা নয় তবে আপনি কীভাবে সেখানে যাবেন তা হতে পারে। আপনার নমুনা কৌশলটি টার্গেট ভেরিয়েবলের ভিত্তিতে ভিত্তি করে নেওয়া অসম্পূর্ণ। কারণ এই পরিবর্তনশীলটি আপনার রিগ্রেশন মডেলটিতে এলোমেলোভাবে অন্তর্ভুক্ত করে, যদি আপনি এর উপর ভিত্তি করে নমুনা তৈরি করেন তবে আপনার কোনও ধরণের অনুমিতি করতে বড় সমস্যা হবে। আমি সন্দেহ করি যে এই সমস্যাগুলিকে "পূর্বাবস্থায় ফেলা" সম্ভব।
আপনি বৈধভাবে পূর্বাভাসীর ভেরিয়েবলগুলির উপর ভিত্তি করে ওভার-বা স্যাম্পলের নীচে পারেন । এই ক্ষেত্রে, আপনি যদি যত্ন সহকারে পরীক্ষা করে দেখুন যে মডেল অনুমানগুলি বৈধ বলে মনে হচ্ছে (যেমন সমকামী ধারণা যা এই পরিস্থিতিতে গুরুত্বপূর্ণ মনে করে, যদি আপনার কাছে ইউসুয়াল অনুমানের সাথে "সাধারণ" রিগ্রেশন থাকে) তবে আমার মনে হয় না আপনার প্রয়োজন ভবিষ্যদ্বাণী করার সময় ওভারস্যাম্পলিংয়ে পূর্বাবস্থায় ফিরে যান। আপনার কেস এখন একজন বিশ্লেষকের মতো হবে যিনি ভবিষ্যদ্বাণী ভেরিয়েবলের ভারসাম্যপূর্ণ পরিসীমা রাখতে স্পষ্টভাবে একটি পরীক্ষা ডিজাইন করেছেন।
সম্পাদনা - সংযোজন - ওয়াইয়ের উপর ভিত্তি করে নমুনায় কেন খারাপ তা নিয়ে সম্প্রসারণ
Y= এক্সখ + ইইইএক্সখ) ই এর আর শূন্য অর্থ হবে না বা অভিন্নভাবে বিতরণ করা হবে। উদাহরণস্বরূপ, y এর কম মান যা ই এর খুব নিম্ন মানের অন্তর্ভুক্ত হতে পারে তা নির্বাচিত হওয়ার সম্ভাবনা কম। এই জাতীয় মডেল ফিট করার স্বাভাবিক উপায়ের উপর ভিত্তি করে কোনও অনুমান নষ্ট করে দেয়। সংশোধনগুলি কাটা মডেলগুলি ফিটিংয়ের জন্য একনোমেট্রিক্সের মতো তৈরি করা যেতে পারে তবে এটি একটি ব্যথা এবং অতিরিক্ত অনুমানের প্রয়োজন, এবং যখন কোনও বিকল্প নেই তখনই নিযুক্ত করা উচিত।
নীচে চরম চিত্র বিবেচনা করুন। যদি আপনি প্রতিক্রিয়া ভেরিয়েবলের জন্য একটি স্বেচ্ছাচারিতায় আপনার ডেটা কেটে দেন তবে আপনি খুব তাৎপর্যপূর্ণ পক্ষপাতিত্ব প্রবর্তন করেন। আপনি যদি এটি ব্যাখ্যামূলক পরিবর্তনশীল হিসাবে ছাঁটাই করেন তবে অগত্যা কোনও সমস্যা নেই। আপনি দেখতে পাচ্ছেন যে সবুজ রেখাটি তাদের ভবিষ্যদ্বাণীমূলক মানগুলির কারণে নির্বাচিত সাবসেটের ভিত্তিতে প্রকৃত লাগানো লাইনের খুব কাছাকাছি; এটি কেবল নীল পয়েন্টের ভিত্তিতে নীল রেখা সম্পর্কে বলা যায় না।
এটি আন্ডার বা ওভারস্যাম্পলিংয়ের কম গুরুতর ক্ষেত্রে প্রসারিত হয় (কারণ কাটা কাটাটিকে তার যৌক্তিক চরমের দিকে নেওয়া আন্ডার স্যাম্পলিং হিসাবে দেখা যায়)।
# generate data
x <- rnorm(100)
y <- 3 + 2*x + rnorm(100)
# demonstrate
plot(x,y, bty="l")
abline(v=0, col="grey70")
abline(h=4, col="grey70")
abline(3,2, col=1)
abline(lm(y~x), col=2)
abline(lm(y[x>0] ~ x[x>0]), col=3)
abline(lm(y[y>4] ~ x[y>4]), col=4)
points(x[y>4], y[y>4], pch=19, col=4)
points(x[x>0], y[x>0], pch=1, cex=1.5, col=3)
legend(-2.5,8, legend=c("True line", "Fitted - all data", "Fitted - subset based on x",
"Fitted - subset based on y"), lty=1, col=1:4, bty="n")