উপায়গুলির তুলনা করা খুব দুর্বল: পরিবর্তে, বিতরণগুলির সাথে তুলনা করুন।
আকারগুলি তুলনা করা আরও আকাঙ্ক্ষিত কিনা তা নিয়েও একটি প্রশ্ন রয়েছেঅবশিষ্টাংশের (যেমন বলা হয়েছে) বা নিজেরাই অবশিষ্টাংশের তুলনা । অতএব, আমি উভয় মূল্যায়ন।
কী বোঝানো হচ্ছে সে সম্পর্কে সুনির্দিষ্ট হওয়ার জন্য, এখানে কিছু R
তুলনা করার কোড রয়েছে( এক্স , y))তথ্য (সমান্তরাল অ্যারে দেওয়া x
এবং y
) পুনরায় চাপিয়ে byY চালু এক্স, কোয়ান্টাইলের নীচে কেটে অবশিষ্টাংশগুলিকে তিনটি গ্রুপে ভাগ করাকুই0 কোয়ান্টাইলের উপরে এবং কুই1> প্রশ্ন0, এবং (একটি কিউকি প্লটের মাধ্যমে) এর বিতরণগুলির সাথে তুলনা করে এক্স এই দুটি গ্রুপের সাথে সম্পর্কিত মানগুলি।
test <- function(y, x, q0, q1, abs0=abs, ...) {
y.res <- abs0(residuals(lm(y~x)))
y.groups <- cut(y.res, quantile(y.res, c(0,q0,q1,1)))
x.groups <- split(x, y.groups)
xy <- qqplot(x.groups[[1]], x.groups[[3]], plot.it=FALSE)
lines(xy, xlab="Low residual", ylab="High residual", ...)
}
এই ফাংশনটির পঞ্চম যুক্তি abs0
, ডিফল্টরূপে গ্রুপগুলি গঠনের জন্য অবশিষ্টাংশের আকার (পরম মান) ব্যবহার করে। পরে আমরা এটিকে কোনও ফাংশন দ্বারা প্রতিস্থাপন করতে পারি যা অবশিষ্টাংশগুলি নিজেরাই ব্যবহার করে।
অবশিষ্টাংশগুলি অনেকগুলি জিনিস সনাক্ত করতে ব্যবহৃত হয়: বহিরাগত, বহির্মুখী ভেরিয়েবলগুলির সাথে সম্ভাব্য পারস্পরিক সম্পর্ক, ফিটের সুদৃ .়তা এবং সমকামিতা। আউটলিয়ার্স, তাদের প্রকৃতি অনুসারে, কয়েক এবং বিচ্ছিন্ন হওয়া উচিত এবং সুতরাং এখানে অর্থবহ ভূমিকা নিতে চলেছে না। এই বিশ্লেষণটিকে সহজ রাখতে, আসুন শেষ দুটিটি ঘুরে দেখি: ফিটনের ভালতা (এটি, এর লিনিয়ারিটি ityএক্স-Yসম্পর্ক) এবং সমকামিতা (যা, অবশিষ্টাংশের আকারের স্থায়িত্ব) আমরা সিমুলেশনের মাধ্যমে এটি করতে পারি:
simulate <- function(n, beta0=0, beta1=1, beta2=0, sd=1, q0=1/3, q1=2/3, abs0=abs,
n.trials=99, ...) {
x <- 1:n - (n+1)/2
y <- beta0 + beta1 * x + beta2 * x^2 + rnorm(n, sd=sd)
plot(x,y, ylab="y", cex=0.8, pch=19, ...)
plot(x, res <- residuals(lm(y ~ x)), cex=0.8, col="Gray", ylab="", main="Residuals")
res.abs <- abs0(res)
r0 <- quantile(res.abs, q0); r1 <- quantile(res.abs, q1)
points(x[res.abs < r0], res[res.abs < r0], col="Blue")
points(x[res.abs > r1], res[res.abs > r1], col="Red")
plot(x,x, main="QQ Plot of X",
xlab="Low residual", ylab="High residual",
type="n")
abline(0,1, col="Red", lwd=2)
temp <- replicate(n.trials, test(beta0 + beta1 * x + beta2 * x^2 + rnorm(n, sd=sd),
x, q0=q0, q1=q1, abs0=abs0, lwd=1.25, lty=3, col="Gray"))
test(y, x, q0=q0, q1=q1, abs0=abs0, lwd=2, col="Black")
}
এই কোডটি রৈখিক মডেলটি নির্ধারণ করে: তার সহগ Y~ β0+ + β1এক্স + + β2এক্স2, ত্রুটির শর্তগুলির মানক বিচ্যুতি sd
, কোয়ান্টাইলগুলিকুই0 এবং কুই1, আকার ফাংশন abs0
, এবং সিমুলেশনে স্বতন্ত্র পরীক্ষার সংখ্যা n.trials
,। প্রথম যুক্তি n
হ'ল প্রতিটি পরীক্ষায় অনুকরণ করার জন্য ডেটার পরিমাণ। এটি প্লটের একটি সেট তৈরি করে - এর( x , y))ডেটা, তাদের অবশিষ্টাংশ এবং একাধিক পরীক্ষার কিউকি প্লট - প্রদত্ত মডেলগুলির জন্য প্রস্তাবিত পরীক্ষাগুলি কীভাবে কাজ করে তা বুঝতে আমাদের সহায়তা করতে ( n
বিটা, এস এবং দ্বারা নির্ধারিত sd
)। এই প্লটগুলির উদাহরণ নীচে প্রদর্শিত হবে।
আসুন এখন অবকাশগুলির নিরঙ্কুশ মানগুলি ব্যবহার করে অরৈখিকতা এবং ভিন্ন ভিন্ন ভিন্ন কিছু বাস্তবসম্মত সমন্বয় ঘুরে দেখার জন্য এই সরঞ্জামগুলি ব্যবহার করুন:
n <- 100
beta0 <- 1
beta1 <- -1/n
sigma <- 1/n
size <- function(x) abs(x)
set.seed(17)
par(mfcol=c(3,4))
simulate(n, beta0, beta1, 0, sigma*sqrt(n), abs0=size, main="Linear Homoscedastic")
simulate(n, beta0, beta1, 0, 0.5*sigma*(n:1), abs0=size, main="Linear Heteroscedastic")
simulate(n, beta0, beta1, 1/n^2, sigma*sqrt(n), abs0=size, main="Quadratic Homoscedastic")
simulate(n, beta0, beta1, 1/n^2, 5*sigma*sqrt(1:n), abs0=size, main="Quadratic Heteroscedastic")
আউটপুট প্লটের একটি সেট। উপরের সারিতে একটি সিমুলেটেড ডেটাসেট দেখানো হয় , দ্বিতীয় সারিতে এর অবশিষ্টাংশের বিপরীতে একটি স্ক্রেরপ্লট দেখায়এক্স(কোয়ান্টাইল দ্বারা রঙ-কোডিং: বৃহত্তর মানগুলির জন্য লাল, ছোট মানগুলির জন্য নীল, কোনও মধ্যবর্তী মানগুলির জন্য ধূসর) আর ব্যবহার করা হয় না এবং তৃতীয় সারিতে দেখানো এক সিমুলেটেড ডেটাসেটের কিউকিউ প্লট সহ সমস্ত পরীক্ষার জন্য কিউকি প্লট দেখায় কালো। একটি পৃথক কিউকি প্লট তুলনা করেএক্স উচ্চ অবশিষ্টাংশের সাথে সম্পর্কিত মানগুলি এক্সনিম্ন অবশিষ্টাংশের সাথে সম্পর্কিত মানগুলি; অনেকগুলি পরীক্ষার পরে, সম্ভবত কিউকিউ প্লটের একটি ধূসর খাম উদ্ভূত হয়। বেসিক লিনিয়ার মডেল থেকে প্রস্থানগুলির সাথে এই খামগুলি কীভাবে এবং কীভাবে দৃ ,়তার সাথে আগ্রহী তা সম্পর্কে আমরা আগ্রহী: দৃ strong় প্রকরণটি ভাল বৈষম্যকে বোঝায়।
সর্বশেষ তিনটি এবং প্রথম কলামগুলির মধ্যে পার্থক্যগুলি এটিকে পরিষ্কার করে যে এই পদ্ধতিটি ভিন্ন ভিন্নতা সনাক্ত করতে সক্ষম, তবে এটি একটি মাঝারি অরৈখিকতা সনাক্তকরণের ক্ষেত্রে এত কার্যকর নাও হতে পারে। এটি অনিয়ন্ত্রিততার সাথে সহজেই ভিন্নতার সাথে বিভ্রান্ত করতে পারে। কারণ হিটরোসসিডাস্টিকটির রূপটি এখানে সিমুলেটেড (যা প্রচলিত) এমন এক যেখানে অবশিষ্টাংশগুলির প্রত্যাশিত আকারের প্রবণতা রয়েছেএক্স। সেই প্রবণতাটি সনাক্ত করা সহজ। অন্যদিকে চতুর্ভুজ অরৈখিকতা উভয় প্রান্তে এবং এর পরিসরের মাঝখানে বৃহত অবশিষ্টগুলি তৈরি করবেএক্সমান। এটি কেবল ক্ষতিগ্রস্থদের বিতরণ দেখে আলাদা করা শক্তএক্স মান।
আসুন একই জিনিসটি হুবহু একই ডেটা ব্যবহার করে , কিন্তু অবশিষ্টাংশগুলিকে নিজেরাই বিশ্লেষণ করি। এটি করতে, পূর্ববর্তী কোডের ব্লকটি এই পরিবর্তনটি করার পরে পুনরায় চালিত হয়েছিল:
size <- function(x) x
এই প্রকরণটি ভিন্ন ভিন্নরূপটি ভালভাবে সনাক্ত করে না: দেখুন প্রথম দুটি কলামে কিউকিউ প্লটগুলি একই রকম। তবে এটি অরৈখিকতা সনাক্তকরণের জন্য একটি ভাল কাজ করে। এর কারণ, অবশিষ্টাংশগুলি পৃথক করেএক্সএর মাঝের অংশ এবং একটি বাইরের অংশে চলে যা মোটামুটি আলাদা হবে be ডানদিকের কলামে দেখানো হয়েছে, তবে, হেটেরোসেসটেস্টিটি ননলাইনারিটি মাস্ক করতে পারে।
সম্ভবত এই উভয় কৌশল একত্রিত কাজ করবে। এই অনুকরণগুলি (এবং তাদের বিভিন্নতা, যা আগ্রহী পাঠক অবসর সময়ে চালাতে পারে) প্রমাণ করে যে এই কৌশলগুলি যোগ্যতা ছাড়াই নয়।
তবে, সাধারণভাবে, স্ট্যান্ডার্ড উপায়ে অবশিষ্টাংশগুলি পরীক্ষা করে আরও ভাল পরিবেশিত হয়। স্বয়ংক্রিয় কাজের জন্য, অবশিষ্ট প্লটগুলিতে আমরা যে ধরণের জিনিস দেখি তা সনাক্ত করতে আনুষ্ঠানিক পরীক্ষাগুলি তৈরি করা হয়েছে। উদাহরণস্বরূপ, ব্রুশ-পৌত্তলিক পরীক্ষা স্কোয়ারের অবশিষ্টাংশগুলিকে (তাদের নিখুঁত মানগুলির চেয়ে বরং) পুনরুদ্ধার করেএক্স। এই প্রশ্নে প্রস্তাবিত পরীক্ষাগুলি একই চেতনায় বোঝা যায়। তবে, মাত্র দুটি গ্রুপে ডেটা বেন করে এবং এর দ্বারা সরবরাহিত দ্বিবিভক্ত তথ্যগুলির বেশিরভাগটিকে অবহেলা করে( x , y)^- এক্স )জোড়া আমরা প্রস্তাবিত পরীক্ষা Breusch-পৌত্তলিক মত রিগ্রেশন ভিত্তিক পরীক্ষার তুলনায় কম শক্তিশালী হতে আশা করতে পারেন ।
IV
? যদি তা হয় তবে আমি এর বিন্দুটি দেখতে পাচ্ছি না কারণ অবশিষ্টাংশগুলি ইতিমধ্যে সেই তথ্যটি ব্যবহার করছে। আপনি যেখানে এটি দেখেছেন তার উদাহরণ দিতে পারেন, এটি আমার কাছে নতুন?