সাধারণ রৈখিক মডেলগুলিতে স্বাভাবিকতার জন্য অবশিষ্টাংশগুলি পরীক্ষা করা


12

এই কাগজটি তথ্য বিশ্লেষণের জন্য লাইনারি মডেলগুলি (দ্বি-দ্বি এবং নেতিবাচক দ্বি-দ্বি ত্রুটি বিতরণ উভয়) ব্যবহার করে। তবে তারপরে পদ্ধতিগুলির পরিসংখ্যান বিশ্লেষণ বিভাগে এই বিবৃতিটি রয়েছে:

... এবং দ্বিতীয় লজিস্টিক রিগ্রেশন মডেলগুলি ব্যবহার করে উপস্থিতি ডেটা এবং জেনারেলাইজড লিনিয়ার মডেল (জিএলএম) ব্যবহার করে ফোরেজিং ডেটা মডেলিংয়ের মাধ্যমে second একটি লগ লিঙ্ক ফাংশন সহ একটি নেতিবাচক দ্বিপদী বিতরণ ফোরিং সময় ডেটা (ওয়েলশ এট আল। 1996) মডেল করার জন্য ব্যবহৃত হয়েছিল এবং মডেল পর্যাপ্ততাটি রেসিওলগুলি (ম্যাককুল্লাহ এবং নেল্ডার 1989) দ্বারা পরীক্ষা করা হয়েছিল। শাপিরো – উইলক বা কোলমোগোরভ – সিমিরনভ পরীক্ষাগুলি নমুনার আকারের উপর নির্ভর করে স্বাভাবিকতার জন্য পরীক্ষা করতে ব্যবহৃত হত; বিশ্লেষণের আগে স্বাভাবিকতা মেনে চলার আগে ডেটা লগ-রূপান্তরিত হয়েছিল।

যদি তারা দ্বিপদী এবং নেতিবাচক দ্বিপদী ত্রুটি বিতরণ অনুমান করে, তবে অবশ্যই তাদের অবশিষ্টাংশের স্বাভাবিকতা পরীক্ষা করা উচিত নয়?


2
নোট করুন যে ত্রুটিগুলি দ্বি-দ্বিভাবে বিতরণ করা হয়নি - প্রতিটি প্রতিক্রিয়া আপনার অন্যান্য প্রশ্নের একটির উত্তর অনুসারে সংশ্লিষ্ট ভবিষ্যদ্বাণীকের মানগুলির দ্বারা প্রদত্ত একটি সম্ভাব্যতা পরামিতি দিয়ে দ্বি-দ্বি বিতরণ করা হয় ।
Scortchi - পুনর্বহাল মনিকা

3
স্বাভাবিক হওয়ার চেয়ে দ্বিপাক্ষিক বা নেতিবাচক দ্বিপাক্ষিক রিগ্রেশনে কিছুই নেই। যদি তারা এই প্রতিক্রিয়াটিকে রূপান্তরিত করে তবে এটি খুব উচ্চতর প্রতিক্রিয়াশীল হতে পারে; এটি জিএলএম স্ক্রু আপ করবে।
গ্লেন_বি -রিনস্টেট মনিকা

1
আপনার উক্তি থেকে এগুলি স্পষ্ট নয় যে তারা প্রকৃতপক্ষে যাচাইয়ের পরীক্ষায় আসলে কী (আপনি কি নিশ্চিত যে এটি অবশিষ্টাংশ?) বা কোন বিশ্লেষণের জন্য তারা ডেটা ট্রান্সফর্ম করছে (আপনি কি নিশ্চিত যে এটি জিএলএম?)?
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

আমি উদ্ধৃতিটি কিছুটা প্রসারিত করেছি। কেউ যদি কাগজের লেখকরা যা করেছিলেন তা ভুল বা সঠিক ছিল কিনা তা নিশ্চিত করতে পারেন?
লুসিয়ানো

আমি আশঙ্কা করছি এটি এখনও মারাত্মকভাবে পরিষ্কার নয় - এটি কাগজ বা এর উল্লেখগুলির অন্য কোনও জায়গায় ব্যাখ্যা না করা হলে তারা বিশ্লেষণ কীভাবে চালিয়েছে তার বিশদ জন্য লেখকদের সাথে যোগাযোগ করুন।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

উত্তর:


16

এনবি ডিভ্যান্স (বা পিয়ারসন) এর অবশিষ্টদের গাউসীয় মডেল ব্যতীত সাধারণ বিতরণ হবে বলে আশা করা যায় না। লজিস্টিক রিগ্রেশন কেস হিসাবে, যেমন @ স্ট্যাট বলেছে, তম পর্যবেক্ষণ এর জন্য ডিভ্যান্সের অবশিষ্টাংশ দেওয়া হয়েছেiyi

riD=2|log(1π^i)|

যদি &yi=0

riD=2|log(π^i)|

যদি , যেখানে লাগানো বার্নোলির সম্ভাবনা। যেহেতু প্রত্যেকে দুটি মানের মধ্যে একটি মাত্র নিতে পারে, এটি পরিষ্কার যে তাদের বিতরণটি সাধারণ হতে পারে না এমনকি সঠিকভাবে নির্দিষ্ট মডেলের জন্যও:yi=1πi^

#generate Bernoulli probabilities from true model
x <-rnorm(100)
p<-exp(x)/(1+exp(x))

#one replication per predictor value
n <- rep(1,100)
#simulate response
y <- rbinom(100,n,p)
#fit model
glm(cbind(y,n-y)~x,family="binomial") -> mod
#make quantile-quantile plot of residuals
qqnorm(residuals(mod, type="deviance"))
abline(a=0,b=1)

কিউকিউ প্লট এন = 1

কিন্তু যদি আছে জন্য প্রতিলিপি পর্যবেক্ষণ তম predictor প্যাটার্ন, & বক্রতা অবশিষ্ট তাই হিসাবে এই আপ জড়ো করা সংজ্ঞায়িত করা হয়nii

riD=sgn(yiniπ^i)2[yilogyinπ^i+(niyi)logniyini(1π^i)]

(যেখানে এখন 0 থেকে এর সাফল্যের গণনা ) তারপরে যত বড় হবে তার অবশিষ্টাংশের বন্টন স্বাভাবিকতার আরও কাছে চলে যায়:yinini

#many replications per predictor value
n <- rep(30,100)
#simulate response
y<-rbinom(100,n,p)
#fit model
glm(cbind(y,n-y)~x,family="binomial")->mod
#make quantile-quantile plot of residuals
qqnorm(residuals(mod, type="deviance"))
abline(a=0,b=1)

কিউকিউ প্লট n = 30

পয়সন বা নেতিবাচক দ্বিপদী জিএলএমগুলির জন্য বিষয়গুলি একই রকম: নিম্ন ভবিষ্যদ্বাণী করা গণনার জন্য অবশিষ্টাংশের বিতরণটি স্বতন্ত্র এবং স্কিউড, তবে সঠিকভাবে নির্দিষ্ট মডেলের অধীনে বৃহত্তর গণনাগুলির পক্ষে স্বাভাবিকতা থাকে।

এগুলি স্বাভাবিক নয়, কমপক্ষে আমার ঘাড়েও নয়, অবশিষ্টাংশের আনুষ্ঠানিক পরীক্ষা করা; যদি আপনার মডেলটি যথাযথ স্বাভাবিকতা অনুমান করে তবে স্বাভাবিকতা পরীক্ষা যদি অপরিহার্যভাবে অকেজো হয় তবে একটি ফোর্তিওরির যখন এটি না হয় তখন এটি অকেজো। তবুও, অসম্পৃক্ত মডেলগুলির জন্য, গ্রাফিকাল রেসিডুয়াল ডায়াগোনস্টিক উপস্থিতি এবং ফিটের অভাবের প্রকৃতি নির্ধারণের জন্য, একটি চিমটি বা লবণের সাথে একটি স্বাভাবিকতা গ্রহণের জন্য ভবিষ্যদ্বাণীমূলক প্যাটার্ন প্রতি প্রতিলিপিগুলির সংখ্যার উপর নির্ভর করে are


1

তারা যা করেছে তা সঠিক! আমি আপনাকে ডাবল চেকের একটি রেফারেন্স দেব। লিনিয়ার রিগ্রেশন অ্যানালাইসিস, 5 তম সংস্করণের ভূমিকাতে বিভাগ 13.4.4 দেখুনডগলাস সি মন্টগোমেরি, এলিজাবেথ এ পেক, জি জেফ্রি ভাইনিং দ্বারা। বিশেষত, পৃষ্ঠা 460 এর উদাহরণগুলি দেখুন, যেখানে তারা দ্বিপদী গ্ল্যামের সাথে ফিট করে এবং "ডিভায়েন্স রেসিডুয়ালস" এর স্বাভাবিকতা অনুমানটি ডাবল পরীক্ষা করে। 458 পৃষ্ঠায় উল্লিখিত হিসাবে, কারণ "ডিভ্যান্সের অবশিষ্টাংশগুলি সাধারণ রেসিডুয়ালগুলি সাধারণ স্ট্যান্ডার্ড-তত্ত্বের লিনিয়ার রিগ্রেশন মডেলের মতোই সাধারণ আচরণ করে"। সুতরাং আপনি যদি তাদের সাধারণ সম্ভাবনার প্লট স্কেলের পাশাপাশি বনাম লাগানো মানগুলিতে প্লট করেন তবে এটি অর্থবোধ করে। আবার উপরোক্ত রেফারেন্সের পৃষ্ঠা 456 দেখুন। তারা উদাহরণগুলি 460 এবং 461 পৃষ্ঠায় সরবরাহ করেছেন, কেবল দ্বিপদী মামলার জন্যই নয়, পোয়েসন গ্লাম এবং গামা (লিঙ্ক = লগ) সহ, তারা বিচ্যুতি অবশিষ্টাংশের স্বাভাবিকতা পরীক্ষা করেছেন checked
দ্বিপদী মামলার জন্য ডিভ্যান্সের অবশিষ্টাংশকে এইভাবে সংজ্ঞায়িত করা হয়:

riD=2|ln(1πi^)|
যদি এবং যদি । আপনি কীভাবে এটি পেতে পারেন তা দেখানোর জন্য এখন আর-তে কিছু কোডিং করা হচ্ছে:yi=0yi=1
riD=2|ln(πi^)|
yi=1
> attach(npk)

> #Fitting binomila glm
> fit.1=glm(P~yield,family=binomial(logit))
> 
> #Getting deviance residuals directly
> rd=residuals(fit.1,type = c("deviance"))
> rd
         1          2          3          4          5          6          7 
 1.1038306  1.2892945 -1.2912991 -1.1479881 -1.1097832  1.2282009 -1.1686771 
         8          9         10         11         12         13         14 
 1.1931365  1.2892945  1.1903473 -0.9821829 -1.1756061 -1.0801690  1.0943912 
        15         16         17         18         19         20         21 
-1.3099491  1.0333213  1.1378369 -1.2245380 -1.2485566  1.0943912 -1.1452410 
        22         23         24 
 1.2352561  1.1543163 -1.1617642 
> 
> 
> #Estimated success probabilities
> pi.hat=fitted(fit.1)
> 
> #Obtaining deviance residuals directly
> rd.check=-sqrt(2*abs(log(1-pi.hat)))
> rd.check[P==1]=sqrt(2*abs(log(pi.hat[P==1])))
> rd.check
         1          2          3          4          5          6          7 
 1.1038306  1.2892945 -1.2912991 -1.1479881 -1.1097832  1.2282009 -1.1686771 
         8          9         10         11         12         13         14 
 1.1931365  1.2892945  1.1903473 -0.9821829 -1.1756061 -1.0801690  1.0943912 
        15         16         17         18         19         20         21 
-1.3099491  1.0333213  1.1378369 -1.2245380 -1.2485566  1.0943912 -1.1452410 
        22         23         24 
 1.2352561  1.1543163 -1.1617642 
> 

পোইসন মামলার জন্যও এখানে পরীক্ষা করুন


2
আপনার উদাহরণ একটি বিজোড় পছন্দ। আপনি কি এই বিচ্যুতির অবশিষ্টাংশগুলির একটি পিপি বা কিউকিউ প্লট তৈরি করেছেন; যদি তাই হয়, আপনি কি উপসংহারে এসেছেন?
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

5
পয়েন্টটি এই ক্ষেত্রে অবশিষ্টাংশের স্বাভাবিকতা পরীক্ষা করার কোনও বুদ্ধি নেই - এগুলি স্পষ্টতই সাধারণত বিতরণ করা হয় না, তা হওয়াও উচিত নয়। এটি কেবলমাত্র প্রতিটি অনুমানকারী প্যাটার্নের পর্যবেক্ষণের পরিমাণ হিসাবে বৃদ্ধি পায় যে অবশিষ্টাংশের বিতরণ (ভবিষ্যদ্বাণীকারী প্যাটার্ন অনুসারে একটি অবশিষ্টাংশ গণনা করা) স্বাভাবিকের দিকে ঝোঁক। একইভাবে কোনও পাইসন বা নেতিবাচক দ্বিপদী মডেলটির জন্য - সাধারণ আনুমানিকটি ভাল হওয়ার জন্য গণনাগুলি বড়-ইশ হওয়া দরকার।
Scortchi - পুনর্বহাল মনিকা

2
প্রশ্নটি হ'ল সাধারণীকরণীয় রৈখিক মডেলগুলির অবশিষ্টাংশগুলি সাধারণত বিতরণ করা উচিত। আপনার উত্তরটি একটি অযোগ্য "হ্যাঁ" হিসাবে উপস্থিত বলে মনে হচ্ছে (যদিও আপনার উত্সগুলি সন্দেহাতীতভাবে প্রয়োজনীয় যোগ্যতা দেয় তবে প্রতিটি পাঠক এগুলি পরীক্ষা করবেন না)। তারপরে আপনি একটি উদাহরণ দিয়েছেন যার মধ্যে মডেলটি সঠিকভাবে নির্দিষ্ট করা থাকলেও অবশিষ্টাংশগুলি সাধারণত বিতরণ করা হবে বলে আশা করার কোনও কারণ নেই : অজ্ঞাত পাঠক ধরে নেবেন যে তাদের হওয়া উচিত এবং যেহেতু তারা স্পষ্টভাবে নয়, এটি হ'ল সুতরাং অবশিষ্টাংশগুলি পরীক্ষা করে মডেল ভুল-স্পেসিফিকেশন সনাক্তকরণের একটি উদাহরণ (যদিও আপনি ...
স্কর্চচি - মনিকা পুনরায় স্থাপন করুন

2
... এটা বলে নি)। সুতরাং আমি মনে করি উত্তরটি কার্যকর হতে অনেক স্পষ্টতা প্রয়োজন।
Scortchi - পুনর্বহাল মনিকা

2
আইএমও @ স্কোরচির মন্তব্যগুলি এখানে যুক্তিসঙ্গত। গুগল বইয়ের পূর্বরূপে মন্টগোমেরি বইটি আমি কী দেখতে পাচ্ছি তা দেখে তারা কিউকিউ প্লট তৈরি করে, তবে আসল পোস্টার দ্বারা উল্লিখিত মত একটি সাধারণ স্বাভাবিকতা পরীক্ষা না করে। নিশ্চিতভাবে কিউকিউ প্লট তৈরি করা ডায়াগনস্টিক টেস্ট হিসাবে যুক্তিসঙ্গত, তবে প্রায় সব বাস্তব পরিস্থিতিতে এমনকি বিচ্যুতিও রেহাই দেয়। স্বাভাবিক হবে না
অ্যান্ডি ডব্লিউ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.