অতএব, আমরা যদি ধরে নিই যে ত্রুটি শব্দটি সাধারণত বিতরণ করা হয় তবে এর অর্থ কী সাড়াটি সাধারণত বিতরণ করা হয় না?
দূর থেকেও নয়। আমি এটি যেভাবে মনে রাখি তা হ'ল অবশিষ্টাংশগুলি মডেলের ডিটারমিনিস্টিক অংশে স্বাভাবিক শর্তযুক্ত । বাস্তবে যা দেখতে দেখতে এটির একটি প্রদর্শন রয়েছে।
আমি এলোমেলোভাবে কিছু ডেটা উত্পন্ন করে শুরু করি। তারপরে আমি একটি ফলাফলটি সংজ্ঞায়িত করি যা পূর্বাভাসীদের একটি লিনিয়ার ফাংশন এবং একটি মডেল অনুমান করে।
N <- 100
x1 <- rbeta(N, shape1=2, shape2=10)
x2 <- rbeta(N, shape1=10, shape2=2)
x <- c(x1,x2)
plot(density(x, from=0, to=1))
y <- 1+10*x+rnorm(2*N, sd=1)
model<-lm(y~x)
এই অবশিষ্টাংশগুলি দেখতে কেমন তা একবার দেখে নেওয়া যাক। আমার সন্দেহ হয় যে এগুলি স্বাভাবিকভাবে বিতরণ করা উচিত, যেহেতু y
ফলাফলটির সাথে এটিতে স্বাভাবিক গোলমাল যুক্ত হয়েছিল। এবং প্রকৃতপক্ষে ক্ষেত্রে।
plot(density(model$residuals), main="Model residuals", lwd=2)
s <- seq(-5,20, len=1000)
lines(s, dnorm(s), col="red")
plot(density(y), main="KDE of y", lwd=2)
lines(s, dnorm(s, mean=mean(y), sd=sd(y)), col="red")
Y এর বিতরণ পরীক্ষা করা হচ্ছে, তবে আমরা দেখতে পাচ্ছি এটি অবশ্যই স্বাভাবিক নয়! আমি ঘনত্বের ফাংশনটিকে একই গড় এবং বৈচিত্র দিয়ে আচ্ছাদিত করেছি y
, তবে এটি অবশ্যই ভয়ঙ্কর ফিট!
এই ক্ষেত্রে যে ঘটনাটি ঘটেছে তা হ'ল ইনপুট ডেটা দূরবর্তীভাবে স্বাভাবিকও হয় না। এই রিগ্রেশন মডেল সম্পর্কে কিছুই অবশিষ্টাংশগুলি ব্যতীত স্বাভাবিকতা প্রয়োজন - স্বাধীন ভেরিয়েবলের মধ্যে নয়, নির্ভরশীল ভেরিয়েবলের ক্ষেত্রেও নয়।