জিএলএম এর জন্য কী ধরণের অবসর এবং কুকের দূরত্ব ব্যবহার করা হয়?

কুকের দূরত্বের সূত্রটি কি কেউ জানেন? আসল কুকের দূরত্বের সূত্রটি স্টুডানাইজড অবশিষ্টাংশ ব্যবহার করে তবে কেন স্ট্যান্ডার্ড ব্যবহার করছে আর। জিএলএম-এর জন্য কুকের দূরত্বের প্লটটি গণনা করার সময় পিয়ারসনের অবশিষ্টাংশগুলি। আমি জানি যে স্টুডেন্টাইজড অবশিষ্টাংশগুলি জিএলএমগুলির জন্য সংজ্ঞায়িত করা হয়নি, তবে কুকের দূরত্ব গণনা করার সূত্রটি কেমন দেখাচ্ছে?

নিম্নলিখিত উদাহরণটি ধরুন:

numberofdrugs <- rcauchy(84, 10)
healthvalue <- rpois(84,75)
test <- glm(healthvalue ~ numberofdrugs, family=poisson)
plot(test, which=5)

কুকের দূরত্বের সূত্র কী? অন্য কথায়, লাল ড্যাশযুক্ত রেখাটি গণনার সূত্র কী? এবং মানকৃত পিয়ারসন অবশিষ্টাংশের জন্য এই সূত্রটি কোথা থেকে এসেছে?

রান্নার দূরত্ব

— MarkDollar
সূত্র

আপনি যদি কোডটি দেখুন (সহজ ধরণের plot.lm, প্রথম বন্ধনী ছাড়াই, বা edit(plot.lm)আর প্রম্পটে), আপনি দেখতে পাবেন যে কুকের দূরত্বগুলিcooks.distance() ফাংশনটির সাথে 44 রেখা নির্ধারিত হয়েছে । এটি কী করে তা দেখতে stats:::cooks.distance.glmআর প্রম্পটে টাইপ করুন । আপনি দেখতে পাচ্ছেন যে এটি হিসাবে সংজ্ঞায়িত করা হয়েছে

(res/(1 - hat))^2 * hat/(dispersion * p)

যেখানে resপিয়ারসন অবশিষ্টাংশ (যেমন দ্বারা ফিরে হয় influence()ফাংশন), hatহয় টুপি ম্যাট্রিক্স , pমডেল পরামিতি সংখ্যা, এবং dispersionবিচ্ছুরণ বর্তমান মডেল জন্য বিবেচনা করা হয় (লজিস্টিক এবং পইসন রিগ্রেশন জন্য এক নির্দিষ্ট দেখুন help(glm))। সংক্ষেপে, এটি পর্যবেক্ষণগুলির এবং তার মানকৃত অবশিষ্টাংশগুলির লিভারেজের একটি কার্য হিসাবে গণনা করা হয়। (তুলনা করুন stats:::cooks.distance.lm।)

আরও আনুষ্ঠানিক রেফারেন্সের জন্য আপনি plot.lm()ফাংশনে উল্লেখগুলি অনুসরণ করতে পারেন , যথা

বেলসলে, ডিএ, কুহ, ই। এবং ওয়েলশ, আরই (1980)। রিগ্রেশন ডায়াগনস্টিক্স । নিউ ইয়র্ক: উইলে

তদতিরিক্ত, গ্রাফিকগুলিতে প্রদর্শিত অতিরিক্ত তথ্য সম্পর্কে, আমরা আরও সন্ধান করতে এবং দেখতে পেয়েছি যে আর ব্যবহার করে

plot(xx, rsp, ...                    # line 230
panel(xx, rsp, ...)                  # line 233
cl.h <- sqrt(crit * p * (1 - hh)/hh) # line 243
lines(hh, cl.h, lty = 2, col = 2)    #
lines(hh, -cl.h, lty = 2, col = 2)   #

যেখানে rspস্ট্যান্ডার্ড হিসাবে লেবেল করা হয়েছে পিয়ারসন রিসিড। একটি জিএলএম ক্ষেত্রে, স্ট্যান্ডার্ড। অন্যথায় অবশিষ্টাংশ (লাইন 172); উভয় ক্ষেত্রে, তবে, আর দ্বারা ব্যবহৃত সূত্রটি (লাইন 175 এবং 178)

residuals(x, "pearson") / s * sqrt(1 - hii)

যেখানে hiiটুপি ম্যাট্রিক্স জেনেরিক ফাংশন দ্বারা ফিরিয়ে দেয়া lm.influence()। এটি স্ট্যান্ডার্ডের জন্য সাধারণ সূত্র। অবশিষ্টাংশ:

R {গুলি}_{ঞ} = \frac{R_{ঞ}}{\sqrt{1 - {\hat{জ}}_{ঞ}}}

$rs_j=\frac{r_j}{\sqrt{1-\hat h_j}}$

যেখানে এখানে আগ্রহের ম covariate বোঝায় । উদাহরণস্বরূপ, Agresti শ্রেণিবদ্ধ ডেটা বিশ্লেষণ , .54.5.5। $j$ $j$

আর কোড এর পরের লাইন কুকের দূরত্ব জন্য একটি বাধামুক্ত (আঁকা add.smooth=TRUEমধ্যে plot.lm()ডিফল্টরূপে, দেখতে getOption("add.smooth")) এবং কনট্যুর লাইন (আপনার চক্রান্ত দৃশ্যমান নয়) সমালোচনামূলক প্রমিত অবশিষ্টাংশ জন্য (দেখুন cook.levels=বিকল্প)।

— chl
সূত্র