অবশিষ্টাংশের হিটারোসেসডাস্টিকটির পরিমাপ


16

এই উইকিপিডিয়া লিঙ্কে ওএলএসের অবশিষ্টাংশের ভিন্ন ভিন্নতা সনাক্তকরণের জন্য বেশ কয়েকটি কৌশল তালিকাভুক্ত করা হয়েছে। আমি জানতে চাই যে হিট-অন টেকনিক হিটারোসেসডাস্টিটি দ্বারা প্রভাবিত অঞ্চলগুলি সনাক্ত করতে আরও দক্ষ।

উদাহরণস্বরূপ, এখানে ওএলএস 'রেসিডুয়ালস বনাম ফিটেড' প্লটের কেন্দ্রীয় অঞ্চলটি প্লটের পক্ষগুলির চেয়ে বেশি বৈচিত্র্য দেখেছে (আমি সত্যিকার অর্থে পুরোপুরি নিশ্চিত নই, তবে ধরা যাক প্রশ্নের প্রয়োজনে এটি কেস)। নিশ্চিত করার জন্য, কিউকিউ প্লটের ত্রুটি লেবেলগুলি দেখে আমরা দেখতে পাচ্ছি যে তারা অবশিষ্টাংশ প্লটের কেন্দ্রস্থলে ত্রুটি লেবেলের সাথে মেলে।

তবে কীভাবে আমরা অবশিষ্টাংশগুলিকে উল্লেখযোগ্যভাবে উচ্চতর বৈকল্পিকতা পরিমাপ করতে পারি ?

heteroscedasticity


2
আমি নিশ্চিত না যে আপনি ঠিক বলেছেন যে মাঝখানে উচ্চতর বৈকল্পিকতা রয়েছে। বিদেশী কেন্দ্রীয় অঞ্চলে থাকা সত্যটি আমার কাছে সম্ভবত তথ্যের বেশিরভাগ তথ্যেরই ফলশ্রুতি বলে মনে হচ্ছে। অবশ্যই, এটি আপনার প্রশ্নটিকে অকার্যকর করে না।
পিটার এলিস

1
কিউকিপ্লাট হ'ল বিতরণটির অস্বাভাবিকতা চিহ্নিত করার জন্য এবং অজৈব রূপগুলি সরাসরিভাবে নয় identify
মাইকেল আর চেরনিক

@ পিটারেলিস হ্যাঁ, আমি এই প্রশ্নে উল্লেখ করেছি যে আমি বৈকল্পিকটি আলাদা কিনা তা নিশ্চিত নই, তবে আমার এই ডায়াগোনস্টিক্সের ছবিটি খুব সহজ ছিল এবং উদাহরণে কিছুটা ভিন্ন ভিন্ন ভিন্নতা থাকতে পারে।
রবার্ট কুব্রিক

@ মিশেল চের্নিক আমি কেবল কিকিপ্লটকে উল্লেখ করেছি যে কীভাবে সর্বোচ্চ ত্রুটিগুলি অবশিষ্টাংশের প্লটের মাঝে কেন্দ্রীভূত হয় বলে মনে হয় সেই অঞ্চলে সম্ভাব্য উচ্চতর বৈকল্পিকতা নির্দেশ করে।
রবার্ট কুব্রিক

উত্তর:


15

এই সমস্যাটির এটির জন্য একটি অনুসন্ধানী অনুভূতি রয়েছে। জন টুকি তাঁর ক্লাসিক, এক্সপ্লোরারি ডেটা অ্যানালাইসিস (অ্যাডিসন-ওয়েসলি 1977) তে ভিন্ন ভিন্ন উপায়ে অনুসন্ধানের জন্য অনেক পদ্ধতি বর্ণনা করেছেন । সম্ভবত সবচেয়ে সরাসরি দরকারী তার " ভ্রমন স্কিম্যাটিক প্লট " এর একটি বৈকল্পিক । এটি বিনের মধ্যে একটি পরিবর্তনশীল (যেমন পূর্বাভাসিত মান) কে টুকরো টুকরো করে দেয় এবং প্রতিটি বিনের জন্য অন্যান্য ভেরিয়েবলের অবস্থান, স্প্রেড এবং আকৃতিটি দেখানোর জন্য এম-লেটারের সারসংক্ষেপগুলি (বক্সপ্লটগুলির সাধারণীকরণ) ব্যবহার করে। এম-লেটারের পরিসংখ্যানগুলি সুযোগের বিচ্যুতির পরিবর্তে সামগ্রিক নিদর্শনগুলিকে জোর দেওয়ার জন্য আরও গতিযুক্ত।

boxplotপদ্ধতিটি কাজে লাগিয়ে একটি দ্রুত সংস্করণ রান্না করা যেতে পারে R। আমরা সিমুলেটেড দৃ strongly়ভাবে হেটেরোসেসটেস্টিক ডেটা সহ চিত্রিত করি:

set.seed(17)
n <- 500
x <- rgamma(n, shape=6, scale=1/2)
e <- rnorm(length(x), sd=abs(sin(x)))
y <- x + e

উপাত্ত

ওএলএস রিগ্রেশন থেকে পূর্বাভাসিত মান এবং অবশিষ্টাংশগুলি পাওয়া যাক:

fit <- lm(y ~ x)
res <- residuals(fit)
pred <- predict(fit)

এখানে, তাহলে, পূর্বাভাসিত মানগুলির জন্য সমান-গণনা বিনগুলি ব্যবহার করে ঘোরাঘুরির স্কিম্যাটিক প্লট। আমি lowessদ্রুত এবং নোংরা মসৃণ জন্য ব্যবহার করি ।

n.bins <- 17
bins <- cut(pred, quantile(pred, probs = seq(0, 1, 1/n.bins)))
b <- boxplot(res ~ bins, boxwex=1/2, main="Residuals vs. Predicted",
             xlab="Predicted", ylab="Residual")
colors <- hsv(seq(2/6, 1, 1/6))
temp <- sapply(1:5, function(i) lines(lowess(1:n.bins, b$stats[i,], f=.25), 
        col=colors[i], lwd=2))

স্কিম্যাটিক প্লট ঘুরে বেড়ানো

নীল বক্ররেখা মিডিয়েনদের মসৃণ করে। এর অনুভূমিক প্রবণতা ইঙ্গিত দেয় যে রিগ্রেশন সাধারণত একটি ভাল ফিট। অন্যান্য বক্ররেখা বাক্স সমাপ্ত (কোয়ার্টাইলস) এবং বেড়াগুলি (যা সাধারণত চরম মান হয়) মসৃণ করে। তাদের দৃ strong় সংমিশ্রণ এবং পরবর্তী বিচ্ছেদটি ভিন্ন ভিন্নতার সাক্ষ্য দেয় - এবং আমাদের এটির বৈশিষ্ট্য নির্ধারণ এবং পরিমাণ নির্ধারণে সহায়তা করে।

(অনুভূমিক অক্ষের অলাইনার স্কেলটি লক্ষ্য করুন, পূর্বাভাসিত মানগুলির বন্টনকে প্রতিফলিত করে। আরও কিছু কাজ করে এই অক্ষটি লিনিয়ারাইজড হতে পারে যা কখনও কখনও দরকারী)


6
দুর্দান্ত উদাহরণ হিসাবে, আমি ভেবেছিলাম চলমান কোয়ান্টাইলগুলির কিছু প্রয়োগ বাস্তবায়নের জন্য উপলব্ধ ছিল (সম্পূর্ণরূপে ডাবের সমস্যা এড়াতে)। ধরণের আমাকে ব্যাগ-প্লটগুলির কথা মনে করিয়ে দেয় । এছাড়াও রেন হ্যান্ডম্যানের তার রেইনবো প্যাকেজে এক্সটেনশন দেখুন
অ্যান্ডি ডাব্লু

9

সাধারণত, হেরোস্কেস্টাস্টিটি ব্রুশ-পৌত্তলিক পদ্ধতির ব্যবহার করে মডেল করা হয়। আপনার লিনিয়ার রিগ্রেশন থেকে অবশিষ্টাংশগুলি স্কোয়ার করে আপনার মূল লিনিয়ার মডেলের ভেরিয়েবলগুলিতে পুনরায় চাপিয়ে দেওয়া হবে। পরের রিগ্রেশনকে অক্সিলারি রিগ্রেশন বলা হয় ।

এনআরএকটি2এনআরএকটি2 হয় আর2 সহায়ক রিগ্রেশন থেকে হোমোসকেডাস্টিকটির নাল অনুমানের জন্য পরীক্ষার পরিসংখ্যান হিসাবে কাজ করে।

আপনার উদ্দেশ্যগুলির জন্য, আপনি এই মডেলটির পৃথক সহগগুলিতে ফোকাস করতে পারেন কোন ভেরিয়েবলগুলি উচ্চ বা নিম্ন বৈকল্পিক ফলাফলগুলির মধ্যে সবচেয়ে ভবিষ্যদ্বাণীপূর্ণ।


1
+1 তবে দয়া করে লক্ষ্য করুন যে এই জাতীয় পরীক্ষাগুলি তারা সনাক্ত করতে পারে এমন ভিন্ন ভিন্ন সংখ্যার আকারে সীমাবদ্ধ। আমার উত্তরে প্রদর্শিত উদাহরণের মতো উদাহরণগুলি হিটারোসিসেস্টাস্টিটি অত্যন্ত শক্তিশালী হলেও ডানদিকে পিছলে যেতে পারে।
whuber
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.