অবশিষ্ট প্লট: কেন প্লট বনাম লাগানো মানগুলি, মানগুলি পর্যবেক্ষণ করা হচ্ছে না ?


20

ওএলএস-এর প্রতিরোধের প্রসঙ্গে আমি বুঝতে পারি যে একটি ধরণের প্লট (বনাম লাগানো মান) প্রচলিতভাবে ধ্রুবক পরিবর্তনের জন্য পরীক্ষা করার জন্য এবং মডেল স্পেসিফিকেশন মূল্যায়নের জন্য দেখা হয়। কেন অবশিষ্টাংশগুলি ফিটগুলির বিরুদ্ধে চক্রান্ত করা হচ্ছে, এবং মানগুলি নয়? এই দুটি প্লট থেকে কীভাবে তথ্য আলাদা?ওয়াই

আমি এমন একটি মডেল নিয়ে কাজ করছি যা নিম্নলিখিত অবশিষ্ট প্লট তৈরি করেছে:

এখানে চিত্র বর্ণনা লিখুন

এখানে চিত্র বর্ণনা লিখুন

সুতরাং লাগানো মানগুলির তুলনায় প্লটটি দ্রুত নজরে ভাল দেখায়, তবে বিপরীতে দ্বিতীয় প্লটের একটি প্যাটার্ন রয়েছে। আমি ভাবছি কেন এমন উচ্চারিত প্যাটার্নটি অবশিষ্টাংশ বনাম ফিট প্লটে প্রকাশিত হবে না কেন ...?ওয়াই

আমি মডেলটির সাথে সমস্যাগুলি নির্ণয়ের জন্য সাহায্যের সন্ধান করছি না, তবে কেবলমাত্র (1) অবশিষ্ট বনাম ফিট প্লট এবং (2) অবশিষ্ট বনাম প্লটের মধ্যে পার্থক্যগুলি (সাধারণত) বোঝার চেষ্টা করছি । ওয়াই

এটির জন্য মূল্যবান, আমি নিশ্চিত যে দ্বিতীয় চার্টের ত্রুটির ধরণটি বাদ দেওয়া পরিবর্তনশীল (গুলি) এর কারণে যা ডিভি প্রভাবিত করে। আমি বর্তমানে সেই ডেটা প্রাপ্তিতে কাজ করছি, যা আমি প্রত্যাশা করি সামগ্রিক ফিট এবং স্পেসিফিকেশনকে সহায়তা করবে। আমি রিয়েল এস্টেট ডেটা নিয়ে কাজ করছি: ডিভি = বিক্রয় মূল্য। IVs: বাড়ির বর্গফুট, # গ্যারেজ স্পেস, বছর নির্মিত, বছর নির্মিত । 2


3
আপনার অভিপ্রায়টি আরও কিছুটা নিবিড়ভাবে মেলে আমি শিরোনামটি টুইট করার স্বাধীনতা নিয়েছি। এমনকি অর্থনীতিবিদদের মধ্যে (আপনিও একজন হতে পারেন) "চতুর্থ" এর উপকরণের পরিবর্তনশীলটির আরেকটি অর্থ রয়েছে, যদিও এই ক্ষেত্রে কোনও অস্পষ্টতা নেই। বেশ কয়েকটি পরিসংখ্যান বিজ্ঞান জুড়ে আরও ভাল যোগাযোগের জন্য, আমাদের মধ্যে কেউ স্থানীয়ভাবে ব্যবহৃত সংক্ষেপ যেমন ডিভি (যা কিছু লোকের জন্য এখনও ডিও ভোলেন্তের অর্থ ) এবং নিরন্তর পদগুলির পক্ষে যেমন একদিকে প্রতিক্রিয়া বা ফলাফল এবং ভবিষ্যদ্বাণীকারী বা কোভেরিয়েটকে সমর্থন করে অন্যান্য। আমি জানি এটি আপনার প্রশ্নের একটি বিশদ, তবে এটির উত্তরের উত্তর দেওয়া হয়েছে।
নিক কক্স

উত্তর:


11

নির্মাণের মাধ্যমে কোনও ওএলএস মডেলের ত্রুটি শব্দটি এক্স কোভেরিয়েটগুলির পর্যবেক্ষণকৃত মানগুলির সাথে সম্পর্কযুক্ত নয়। মডেল পক্ষপাতদুষ্ট অনুমানগুলি প্রদান করে যা প্যারামিটারের সত্যিকার মানগুলিকে প্রতিফলিত করে না এমনটি পর্যবেক্ষণ করা তথ্যের জন্য সর্বদা সত্য হবে কারণ মডেলটির একটি অনুমান লঙ্ঘিত হয়েছে (বাদ দেওয়া পরিবর্তনশীল সমস্যা বা বিপরীত কার্যকারিতা সহ কোনও সমস্যা)। পূর্বাভাসকৃত মানগুলি পুরোপুরি এই covariates এর ফাংশন তাই এগুলি ত্রুটি শর্তের সাথেও সম্পর্কযুক্ত নয়। সুতরাং, যখন আপনি পূর্বাভাসিত মানগুলির বিরুদ্ধে অবশিষ্টাংশগুলি প্লট করেন তখন সেগুলি সর্বদা এলোমেলো হওয়া উচিত কারণ তারা অনুমানকারী তৈরির দ্বারা প্রকৃতপক্ষে সংযুক্ত নয়। বিপরীতে, কোনও মডেলের ত্রুটি শর্তটি অনুশীলনে ওয়াইয়ের সাথে সম্পর্কযুক্ত হওয়ার পক্ষে এটি সম্পূর্ণ সম্ভব (এবং প্রকৃতপক্ষে সম্ভাব্য)। উদাহরণস্বরূপ, দ্বিধাত্ত্বিক এক্স ভেরিয়েবলের সাহায্যে সত্য Y হ'ল উভয়ইE(Y | X = 1)বা E(Y | X = 0)তারপরে বৃহত্তর অবশিষ্টগুলি হবে। এখানে আর-তে সিমুলেটেড ডেটা সহ একই স্বজ্ঞাততা রয়েছে যেখানে আমরা জানি যে মডেলটি পক্ষপাতহীন কারণ আমরা ডেটা উত্পন্নকরণ প্রক্রিয়াটি নিয়ন্ত্রণ করি:

rm(list=ls())
set.seed(21391209)

trueSd <- 10
trueA <- 5
trueB <- as.matrix(c(3,5,-1,0))
sampleSize <- 100

# create independent x-values
x1 <- rnorm(n=sampleSize, mean = 0, sd = 4)
x2 <-  rnorm(n=sampleSize, mean = 5, sd = 10)
x3 <- 3 + x1 * 4 + x2 * 2 + rnorm(n=sampleSize, mean = 0, sd = 10)
x4 <- -50 + x1 * 7 + x2 * .5 + x3 * 2  + rnorm(n=sampleSize, mean = 0, sd = 20)
X = as.matrix(cbind(x1,x2,x3,x4))


# create dependent values according to a + bx + N(0,sd)
Y <-  trueA +  X %*%  trueB  +rnorm(n=sampleSize,mean=0,sd=trueSd)


df = as.data.frame(cbind(Y,X))
colnames(df) <- c("y", "x1", "x2", "x3", "x4")
ols = lm(y~x1+x2+x3+x4, data = df)
y_hat = predict(ols, df)
error = Y - y_hat
cor(y_hat, error) #Zero
cor(Y, error) #Not Zero

আমরা পক্ষপাতদুষ্ট মডেলটির সাথে শূন্য সম্পর্কের একই ফলাফল পাই, উদাহরণস্বরূপ যদি আমরা বাদ দিই x1.

ols2 = lm(y~x2+x3+x4, data = df)
y_hat2 = predict(ols2, df)
error2 = Y - y_hat2
cor(y_hat2, error2) #Still zero
cor(Y, error2) #Not Zero

2
সহায়ক, তবে প্রথম বাক্যটি স্পষ্টতার জন্য পুনরায় লেখা যেতে পারে। "কনস্ট্রাকশন" অবশিষ্টাংশ উত্পাদন করে; ত্রুটি শব্দটি গণনার আগে সেখানে এবং অস্তিত্ব হিসাবে বিবেচিত হয়। একইভাবে, আমি বলব যে এটি অনুমানগুলি তৈরি করা হয়, অনুমানক নয়, যা তাদের নির্মাণের জন্য ব্যবহৃত পদ্ধতি।
নিক কক্স

তবে তারপরে আমরা কেন অবশিষ্টাংশের চার্ট (বনাম ফিট) দেখি? এই প্লটটির ডায়াগনস্টিক উদ্দেশ্য কী? আমি সাইটে নতুন। আমাকে কি মাইকেলকে ট্যাগ করতে হবে নাকি সে এই মন্তব্যটি স্বয়ংক্রিয়ভাবে পেয়েছে? আমার মন্তব্য নীচে @ Glen_b উত্তরেও প্রযোজ্য। উভয় উত্তর আমার বুঝতে সাহায্য করে। ধন্যবাদ।
ম্যাক

... কারণ তারা অন্য কাঠামো প্রকাশ করতে পারে। অবশিষ্ট এবং ফিটের মধ্যে পারস্পরিক সম্পর্কের অভাবের অর্থ এই নয় যে অন্যান্য জিনিসও ঘটছে না। যদি আপনি বিশ্বাস করেন যে আপনার মডেলটি নিখুঁত তবে আপনি এটি সম্ভব হবেন তা বিশ্বাস করবেন না ... অনুশীলনে আপনার অন্যান্য ধরণের কাঠামো পরীক্ষা করা দরকার।
নিক কক্স

@ ম্যাক, আমি সত্যবাদী হব এবং বলব যে আমি এই প্লটগুলি কখনই দেখি না। যদি আপনি একটি কার্যকারণ অনুমান করার চেষ্টা করছেন তবে আপনার বাদ দেওয়া পরিবর্তনশীল সমস্যাগুলির মাধ্যমে ভাবনা এবং ধারণাগতভাবে বিপরীত কার্যকারিতা সমস্যাগুলি বিবেচনা করা উচিত। হয় সমস্যা দেখা দিতে পারে এবং পর্যবেক্ষণের সমতুল্যের সমস্যা হওয়ায় আপনি এই প্লটগুলি থেকে চোখ এড়াতে পারবেন না। আপনার যত্ন নেওয়া সমস্ত কিছু যদি ভবিষ্যদ্বাণী হয় তবে আপনার মডেলটির ভবিষ্যদ্বাণীগুলি নমুনা ছাড়াই কীভাবে সম্পাদন করে (অন্যথায় এটি কোনও পূর্বাভাস নয়) তার নমুনা পরীক্ষা করে দেখতে হবে out
মাইকেল 16

@ নিককক্স হ্যাঁ, আমি মডেল দ্বারা অনুমান করা ত্রুটি শব্দটি বোঝাই এবং প্যারামিটারের সত্যিকারের মান নয়।
মাইকেল

20

দুটি তথ্য যা আমি ধরে নিই যে আপনি আমার সাথে খুশি খুশি বলেছেন:

Yআমি=Y^আমি+ +^আমি

Cov(Y^আমি,^আমি)=0

তারপর:

Cov(Yআমি,^আমি)=Cov(Y^আমি+ +^আমি,^আমি)

=Cov(Y^আমি,^আমি)+ +Cov(^আমি,^আমি)

=0+ +σ2

=σ2

সুতরাং লাগানো মান অবশিষ্টের সাথে সম্পর্কিত না হলেও পর্যবেক্ষণটি হয়

বাস্তবে, এটি কারণ পর্যবেক্ষণ এবং অবশিষ্ট উভয়ই ত্রুটি শর্তের সাথে সম্পর্কিত।

এটি সাধারণত ডায়াগনস্টিক উদ্দেশ্যে অবশিষ্টাংশ প্লট ব্যবহার করা কিছুটা শক্ত করে তোলে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.