আমি সত্যই হিটারোসিসেস্টাস্টিটি বুঝতে পারি না। আমি জানতে চাই যে আমার এই মডেলটি এই প্লট অনুসারে উপযুক্ত কিনা।
আমি সত্যই হিটারোসিসেস্টাস্টিটি বুঝতে পারি না। আমি জানতে চাই যে আমার এই মডেলটি এই প্লট অনুসারে উপযুক্ত কিনা।
উত্তর:
@ আইরিশস্ট্যাট মন্তব্য করার সাথে সাথে আপনার ভেরিয়েবলের সমস্যা আছে কিনা তা দেখার জন্য আপনার ত্রুটিগুলির বিরুদ্ধে আপনার পর্যবেক্ষণকৃত মানগুলি পরীক্ষা করা দরকার। আমি এই দিকে ফিরে আসতে হবে।
শুধু তো তুমি কি আমরা heteroskedasticity বলতে একটি ধারণা পেতে: আপনি যখন একটি পরিবর্তনশীল উপর একটি রৈখিক মডেল মাপসই আপনি ধৃষ্টতা করতে আপনি মূলত বলছে যে আপনার Y ~ এন ( এক্স β , σ 2 ) বা সাধারণ লোক এর শর্তাবলী যে আপনার y এর এক্স β সমমানের সাথে আরও কিছু ত্রুটি যা বৈকল্পিক var 2 এর সমান হবে বলে আশা করা হচ্ছে । এটি কার্যত আপনার লিনিয়ার মডেল y = X β + ϵ , যেখানে ত্রুটিগুলি ϵ ∼ N ( 0 , σ 2 )। ঠিক আছে, শীতল এখন পর্যন্ত কোডে এটি দেখতে দিন:
set.seed(1); #set the seed for reproducability
N = 100; #Sample size
x = runif(N) #Independant variable
beta = 4; #Regression coefficient
epsilon = rnorm(N); #Error with variance 1 and mean 0
y = x * beta + epsilon #Your generative model
lin_mod <- lm(y ~x) #Your linear model
ঠিক তাই, আমার মডেলটি কীভাবে আচরণ করে:
x11(); par(mfrow=c(1,3)); #Make a new 1-by-3 plot
plot(residuals(lin_mod));
title("Simple Residual Plot - OK model")
acf(residuals(lin_mod), main = "");
title("Residual Autocorrelation Plot - OK model");
plot(fitted(lin_mod), residuals(lin_mod));
title("Residual vs Fit. value - OK model");
যা আপনাকে এই জাতীয় কিছু দেবে: যার অর্থ হল যে আপনার অবশিষ্টাংশগুলি আপনার স্বেচ্ছাসেবী সূচকের উপর ভিত্তি করে সুস্পষ্ট প্রবণতা বলে মনে হচ্ছে না (1 ম চক্রান্ত - আসলেই অন্তত তথ্যপূর্ণ) তবে তাদের মধ্যে কোনও বাস্তব সম্পর্ক নেই বলে মনে হচ্ছে (২ য় প্লট - বেশ গুরুত্বপূর্ণ এবং সম্ভবত সমকামিতা থেকে আরও গুরুত্বপূর্ণ) এবং যে সজ্জিত মানগুলির ব্যর্থতার সুস্পষ্ট প্রবণতা থাকে না, অর্থাৎ। আপনার লাগানো মানগুলি বনাম আপনার অবশিষ্টাংশগুলি বেশ এলোমেলো প্রদর্শিত হয়। এর ভিত্তিতে আমরা বলব যে আমাদের বংশধরদের কোনও সমস্যা নেই কারণ আমাদের অবশিষ্টাংশে সর্বত্র একই রকমের বৈচিত্র রয়েছে বলে মনে হয়।
ঠিক আছে, আপনি যদিও বিপরীতে চান। রৈখিকতা এবং সংযোজনশীলতার একই অনুমানগুলি দেওয়া, আসুন "স্পষ্টত" হিটারোস্কেস্টাস্টিটি সমস্যাগুলির সাথে আরও একটি জেনারেটরি মডেল সংজ্ঞায়িত করি। যথা কিছু মানের পরে আমাদের পর্যবেক্ষণটি আরও কোলাহল করবে।
epsilon_HS = epsilon;
epsilon_HS[ x>.55 ] = epsilon_HS[x>.55 ] * 9 #Heteroskedastic errors
y2 = x * beta + epsilon_HS #Your generative model
lin_mod2 <- lm(y2 ~x) #Your unfortunate LM
যেখানে মডেলের সাধারণ ডায়াগনস্টিক প্লটগুলি:
par(mfrow=c(1,3)); #Make a new 1-by-3 plot
plot(residuals(lin_mod2));
title("Simple Residual Plot - Fishy model")
acf(residuals(lin_mod2), main = "");
title("Residual Autocorrelation Plot - Fishy model");
plot(fitted(lin_mod2), residuals(lin_mod2));
title("Residual vs Fit. value - Fishy model");
কিছু দেওয়া উচিত: এখানে প্রথম প্লটটি কিছুটা "বিজোড়" মনে হচ্ছে; দেখে মনে হচ্ছে আমাদের কয়েকটি অবশিষ্টাংশ রয়েছে যা ছোট মাত্রায় ক্লাস্টার হয় তবে এটি সবসময় সমস্যা হয় না ... দ্বিতীয় চক্রান্ত ঠিক আছে, এর অর্থ আমরা বিভিন্ন ল্যাগগুলিতে আপনার অবশিষ্টাংশগুলির মধ্যে পারস্পরিক সম্পর্ক নেই তাই আমরা এক মুহুর্তের জন্য শ্বাস নিতে পারি। এবং তৃতীয় প্লটটি মটরশুটি ছড়িয়ে দেয়: এটি স্পষ্টতই পরিষ্কার যে আমরা উচ্চমানের সাথে আমাদের অবশেষগুলি বিস্ফোরিত হয়েছিল। এই মডেলের অবশিষ্টাংশগুলিতে আমাদের স্পষ্টতই হিটরোসকেস্টাস্টিটি রয়েছে এবং আমাদের (যেমন আইআরএলএস , থেইল reg সেন রেগ্রেশন ইত্যাদি) সম্পর্কে কিছু করা দরকার )
এখানে সমস্যাটি প্রকৃতই স্পষ্ট ছিল তবে অন্যান্য ক্ষেত্রে আমরা সম্ভবত মিস করেছি; আমাদের মিস করার সম্ভাবনাগুলি হ্রাস করার জন্য আরেকটি অন্তর্দৃষ্টিপূর্ণ প্লট ছিল আইরিশস্ট্যাট দ্বারা উল্লিখিত: অবশিষ্টাংশ বনাম পর্যবেক্ষণকৃত মান, বা আমাদের খেলনা সমস্যার হাত ধরে:
par(mfrow=c(1,2))
plot(y, residuals(lin_mod) );
title( "Residual vs Obs. value - OK model")
plot(y2, residuals(lin_mod2) );
title( "Residual vs Obs. value - Fishy model")
যা এরকম কিছু দেয়:
আপনার পরিস্থিতির ন্যায্যতায় আপনার অবশিষ্টাংশ বনাম ফিটেড মানের প্লটটি আপেক্ষিকভাবে ঠিক আছে বলে মনে হচ্ছে। আপনার উদ্বৃত্ত মানগুলি বনাম আপনার পর্যবেক্ষিত মানগুলি পরীক্ষা করা সম্ভবত আপনি নিরাপদ পক্ষে আছেন তা নিশ্চিত করতে সহায়ক হবে। (আমি কিউকিউ-প্লট বা এরকম কিছু উল্লেখ করিনি যাতে আরও বেশি কিছু বিভ্রান্ত হয় না তবে আপনি সেগুলি সংক্ষেপেও পরীক্ষা করতে চাইতে পারেন)) আমি আশা করি এটি হিটারোস্কেস্টাস্টিটি সম্পর্কে আপনার বুঝতে এবং আপনার কী সন্ধান করা উচিত তা সহায়তা করে।
আপনার প্রশ্নটি হিটারোসেসটেস্টিটি সম্পর্কে বলে মনে হচ্ছে (কারণ আপনি এটি নাম দিয়ে উল্লেখ করেছেন এবং ট্যাগটি যুক্ত করেছেন), তবে আপনার স্পষ্ট প্রশ্ন (উদাহরণস্বরূপ, শিরোনামে এবং) আপনার পোস্টের সমাপ্তি আরও সাধারণ, "আমার মডেলটি উপযুক্ত বা না এই অনুসারে পটভূমি". হেটেরোসেসডাস্টিকটি মূল্যায়ন করার চেয়ে কোনও মডেল অনুপযুক্ত কিনা তা নির্ধারণ করার আরও অনেক কিছুই রয়েছে।
আমি এই ওয়েবসাইটটি ব্যবহার করে আপনার ডেটা স্ক্র্যাপ করেছি (এইচটি.এইচ.এলেক্সিস)। নোট করুন যে ডেটাগুলি আরোহী ক্রমে সাজানো হয়েছে fitted
। রিগ্রেশন এবং উপরের বাম চক্রান্তের ভিত্তিতে এটি যথেষ্ট বিশ্বস্ত বলে মনে হচ্ছে:
mod = lm(residuals~fitted)
summary(mod)
# ...
# Residuals:
# Min 1Q Median 3Q Max
# -0.78374 -0.13559 0.00928 0.19525 0.48107
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) 0.06406 0.35123 0.182 0.856
# fitted -0.01178 0.05675 -0.208 0.836
#
# Residual standard error: 0.2349 on 53 degrees of freedom
# Multiple R-squared: 0.0008118, Adjusted R-squared: -0.01804
# F-statistic: 0.04306 on 1 and 53 DF, p-value: 0.8364
আমি এখানে হেটেরোসেসটেস্টিটির কোনও প্রমাণ দেখতে পাচ্ছি না। উপরের ডানদিক থেকে (কিউকিউ প্লট), স্বাভাবিকতা অনুমানের সাথে কোনও সমস্যা বলে মনে হচ্ছে না।
অন্যদিকে, রেড লোয়েস ফিট (উপরের বাম চক্রান্তে) "এস" বক্ররেখা এবং এসিফ এবং প্যাকফ প্লটগুলি (নীচে) সমস্যাযুক্ত বলে মনে হচ্ছে। বাম দিকে, বেশিরভাগ অবশিষ্টাংশ ধূসর 0 লাইনের উপরে। আপনি ডানদিকে যেতে যেতে, অবশিষ্টাংশের বেশিরভাগ অংশ নীচে নেমে 0, তারপরে এবং তারপরে আবার নীচে। এর ফলস্বরূপ আমি যদি আপনাকে বলেছিলাম যে আমি একটি নির্দিষ্ট অবশিষ্টাংশের দিকে তাকিয়ে আছি এবং এর নেতিবাচক মূল্য রয়েছে (তবে আমি আপনাকে কোনটি দেখছিলাম) তা আপনি সঠিক নির্ভুলতার সাথে অনুমান করতে পারবেন যে আশেপাশের অবশিষ্টাংশগুলি নেতিবাচক মূল্যবান ছিল। অন্য কথায়, অবশিষ্টাংশগুলি স্বতন্ত্র নয় one একজনের সম্পর্কে কিছু জানা আপনাকে অন্যের সম্পর্কে তথ্য দেয়।
প্লট ছাড়াও, এটি পরীক্ষা করা যেতে পারে। একটি সহজ পদ্ধিতি হল রান টেস্ট ব্যবহার করা :
library(randtests)
runs.test(residuals)
# Runs Test
#
# data: residuals
# statistic = -3.2972, runs = 16, n1 = 27, n2 = 27, n = 54, p-value = 0.0009764
# alternative hypothesis: nonrandomness
এর অর্থ এই যে আপনার মডেলটি ভুল বানানযুক্ত। সম্পর্কের দুটি 'নমন' রয়েছে বলে আপনি যুক্ত করতে চাইবেন এবং এটির জন্য অ্যাকাউন্টে আপনার মডেলের শর্তাদি।
আপনার স্পষ্ট প্রশ্নের উত্তর দেওয়ার জন্য: আপনার প্লটটি সিরিয়াল স্বতঃসিদ্ধিগুলি / আপনার অবশিষ্টাংশের স্ব-স্বাধীনতা প্রদর্শন করে। এর অর্থ হল আপনার মডেলটি বর্তমান আকারে উপযুক্ত নয়।