এই সমস্যাটির এটির জন্য একটি অনুসন্ধানী অনুভূতি রয়েছে। জন টুকি তাঁর ক্লাসিক, এক্সপ্লোরারি ডেটা অ্যানালাইসিস (অ্যাডিসন-ওয়েসলি 1977) তে ভিন্ন ভিন্ন উপায়ে অনুসন্ধানের জন্য অনেক পদ্ধতি বর্ণনা করেছেন । সম্ভবত সবচেয়ে সরাসরি দরকারী তার " ভ্রমন স্কিম্যাটিক প্লট " এর একটি বৈকল্পিক । এটি বিনের মধ্যে একটি পরিবর্তনশীল (যেমন পূর্বাভাসিত মান) কে টুকরো টুকরো করে দেয় এবং প্রতিটি বিনের জন্য অন্যান্য ভেরিয়েবলের অবস্থান, স্প্রেড এবং আকৃতিটি দেখানোর জন্য এম-লেটারের সারসংক্ষেপগুলি (বক্সপ্লটগুলির সাধারণীকরণ) ব্যবহার করে। এম-লেটারের পরিসংখ্যানগুলি সুযোগের বিচ্যুতির পরিবর্তে সামগ্রিক নিদর্শনগুলিকে জোর দেওয়ার জন্য আরও গতিযুক্ত।
boxplot
পদ্ধতিটি কাজে লাগিয়ে একটি দ্রুত সংস্করণ রান্না করা যেতে পারে R
। আমরা সিমুলেটেড দৃ strongly়ভাবে হেটেরোসেসটেস্টিক ডেটা সহ চিত্রিত করি:
set.seed(17)
n <- 500
x <- rgamma(n, shape=6, scale=1/2)
e <- rnorm(length(x), sd=abs(sin(x)))
y <- x + e
ওএলএস রিগ্রেশন থেকে পূর্বাভাসিত মান এবং অবশিষ্টাংশগুলি পাওয়া যাক:
fit <- lm(y ~ x)
res <- residuals(fit)
pred <- predict(fit)
এখানে, তাহলে, পূর্বাভাসিত মানগুলির জন্য সমান-গণনা বিনগুলি ব্যবহার করে ঘোরাঘুরির স্কিম্যাটিক প্লট। আমি lowess
দ্রুত এবং নোংরা মসৃণ জন্য ব্যবহার করি ।
n.bins <- 17
bins <- cut(pred, quantile(pred, probs = seq(0, 1, 1/n.bins)))
b <- boxplot(res ~ bins, boxwex=1/2, main="Residuals vs. Predicted",
xlab="Predicted", ylab="Residual")
colors <- hsv(seq(2/6, 1, 1/6))
temp <- sapply(1:5, function(i) lines(lowess(1:n.bins, b$stats[i,], f=.25),
col=colors[i], lwd=2))
নীল বক্ররেখা মিডিয়েনদের মসৃণ করে। এর অনুভূমিক প্রবণতা ইঙ্গিত দেয় যে রিগ্রেশন সাধারণত একটি ভাল ফিট। অন্যান্য বক্ররেখা বাক্স সমাপ্ত (কোয়ার্টাইলস) এবং বেড়াগুলি (যা সাধারণত চরম মান হয়) মসৃণ করে। তাদের দৃ strong় সংমিশ্রণ এবং পরবর্তী বিচ্ছেদটি ভিন্ন ভিন্নতার সাক্ষ্য দেয় - এবং আমাদের এটির বৈশিষ্ট্য নির্ধারণ এবং পরিমাণ নির্ধারণে সহায়তা করে।
(অনুভূমিক অক্ষের অলাইনার স্কেলটি লক্ষ্য করুন, পূর্বাভাসিত মানগুলির বন্টনকে প্রতিফলিত করে। আরও কিছু কাজ করে এই অক্ষটি লিনিয়ারাইজড হতে পারে যা কখনও কখনও দরকারী)