প্লটের ব্যাখ্যা (glm.model)


30

কেউ কি আমাকে বলতে পারেন কীভাবে 'রেসিডুয়ালাম বনাম লাগানো', 'সাধারণ কিউ-কিউ', 'স্কেল-লোকেশন', এবং 'রেসিডুয়ালগুলি বনাম লিভারেজ' প্লটগুলি কীভাবে ব্যাখ্যা করা যায়? আমি একটি দ্বিপদী জিএলএম ফিট করছি, এটি সংরক্ষণ এবং এরপরে এটি প্লট করছি।


4
আপনি কি জানেন যে নিয়মিত লিনিয়ার রিগ্রেশন নিয়ে কাজ করার সময় এই প্লটগুলি কীভাবে ব্যাখ্যা করতে হয়? কারণ এটি আপনার পয়েন্ট হওয়া উচিত।
স্টিভ এস

উত্তর:


55

Rএকটি পৃথক plot.glm()পদ্ধতি নেই। আপনি যখন কোনও মডেল ফিট করে glm()এবং চালনা করেন plot(), তখন এটি প্লট.এলএম কল করে , যা লিনিয়ার মডেলগুলির জন্য উপযুক্ত (যেমন, সাধারণত বিতরণ করা ত্রুটির শব্দ সহ)।

সাধারণভাবে, এই প্লটগুলির অর্থ (কমপক্ষে রৈখিক মডেলগুলির জন্য) সিভিতে বিদ্যমান বিভিন্ন থ্রেডে শিখতে পাওয়া যায় (উদাহরণস্বরূপ: অবশিষ্টাংশ বনাম ফিটেড ; বেশ কয়েকটি জায়গায় কিউকিউ প্লট: 1 , 2 , 3 ; স্কেল-লোকেশন ; অবশিষ্টাংশ) বনাম লিভারেজ )। যাইহোক, প্রশ্নগুলির মডেলটি একটি লজিস্টিক রিগ্রেশন হলে এই ব্যাখ্যাগুলি সাধারণত বৈধ হয় না।

আরও সুনির্দিষ্টভাবে, প্লটগুলি প্রায়শই 'মজাদার দেখায়' এবং লোকেরা বিশ্বাস করতে পরিচালিত করে যে মডেলটি যখন পুরোপুরি ঠিক আছে তখন কিছু ভুল আছে। আমরা সেই প্লটগুলি বেশ কয়েকটি সাধারণ সিমুলেশনের সাথে দেখে যেখানে দেখতে পেলাম যে মডেলটি সঠিক তা আমরা দেখতে পাচ্ছি:

  # we'll need this function to generate the Y data:
lo2p = function(lo){ exp(lo)/(1+exp(lo)) }

set.seed(10)                    # this makes the simulation exactly reproducible
x  = runif(20, min=0, max=10)   # the X data are uniformly distributed from 0 to 10
lo = -3 + .7*x                  # this is the true data generating process
p  = lo2p(lo)                   # here I convert the log odds to probabilities
y  = rbinom(20, size=1, prob=p) # this generates the Y data

mod = glm(y~x, family=binomial) # here I fit the model
summary(mod)                    # the model captures the DGP very well & has no
# ...                           #  obvious problems:
# Deviance Residuals: 
#      Min        1Q    Median        3Q       Max  
# -1.76225  -0.85236  -0.05011   0.83786   1.59393  
# 
# Coefficients:
#             Estimate Std. Error z value Pr(>|z|)  
# (Intercept)  -2.7370     1.4062  -1.946   0.0516 .
# x             0.6799     0.3261   2.085   0.0371 *
# ...
# 
# Null deviance: 27.726  on 19  degrees of freedom
# Residual deviance: 21.236  on 18  degrees of freedom
# AIC: 25.236
# 
# Number of Fisher Scoring iterations: 4

এখন আসুন আমরা যে প্লটগুলি পেয়েছি তা দেখুন plot.lm():

এখানে চিত্র বর্ণনা লিখুন

প্লট Residuals vs Fittedএবং Scale-Locationপ্লট উভয়ই দেখে মনে হচ্ছে যে মডেলটিতে সমস্যা রয়েছে তবে আমরা জানি যে কোনওটি নেই। লিনিস্টিক মডেলগুলির জন্য উদ্দিষ্ট এই প্লটগুলি লজিস্টিক রিগ্রেশন মডেল ব্যবহার করার সময় প্রায়শই বিভ্রান্তিকর হয়।

আসুন অন্য উদাহরণটি দেখুন:

set.seed(10)
x2 = rep(c(1:4), each=40)                    # X is a factor with 4 levels
lo = -3 + .7*x2
p  = lo2p(lo)
y  = rbinom(160, size=1, prob=p)

mod = glm(y~as.factor(x2), family=binomial)
summary(mod)                                 # again, everything looks good:
# ...
# Deviance Residuals: 
#   Min       1Q   Median       3Q      Max  
# -1.0108  -0.8446  -0.3949  -0.2250   2.7162  
# 
# Coefficients:
#                Estimate Std. Error z value Pr(>|z|)    
# (Intercept)      -3.664      1.013  -3.618 0.000297 ***
# as.factor(x2)2    1.151      1.177   0.978 0.328125    
# as.factor(x2)3    2.816      1.070   2.632 0.008481 ** 
# as.factor(x2)4    3.258      1.063   3.065 0.002175 ** 
# ... 
# 
# Null deviance: 160.13  on 159  degrees of freedom
# Residual deviance: 133.37  on 156  degrees of freedom
# AIC: 141.37
# 
# Number of Fisher Scoring iterations: 6

এখানে চিত্র বর্ণনা লিখুন

এখন সব প্লট দেখতে অদ্ভুত লাগছে।

তাহলে এই প্লটগুলি আপনাকে কী দেখায়?

  • Residuals vs Fittedচক্রান্ত, সাহায্য করতে পারেন আপনি দেখতে, উদাহরণস্বরূপ যদি বক্ররেখা-বেষ্টিত প্রবণতাগুলো দেখতে আপনি মিস হয়। তবে একটি লজিস্টিক রিগ্রেশনটির উপযুক্ততা প্রকৃতির দ্বারা বক্ররেখার, সুতরাং আপনার কোনও অবকাশ নেই বলে বিশৃঙ্খলাগুলি অবলম্বন করতে পারে।
  • Normal Q-Qচক্রান্ত আপনি সনাক্ত যদি আপনার অবশিষ্টাংশ স্বাভাবিকভাবে বিতরণ করা হয় সাহায্য করে। তবে মডেলটি বৈধ হওয়ার জন্য ডিভ্যান্সের অবশিষ্টাংশগুলি সাধারণত বিতরণ করতে হবে না, তাই অবশিষ্টাংশগুলির স্বাভাবিকতা / অ-স্বাভাবিকতা আপনাকে অবশ্যই কিছু বলবে না।
  • Scale-Locationচক্রান্ত আপনি heteroscedasticity চিহ্নিত সাহায্য করতে পারেন। তবে লজিস্টিক রিগ্রেশন মডেলগুলি প্রকৃতির দিক থেকে অনেক বেশি ভিন্ন ভিন্ন।
  • Residuals vs Leverageআপনি সম্ভব outliers চিহ্নিত সাহায্য করতে পারেন। তবে লজিস্টিক রিগ্রেশনের আউটলাইনাররা অগত্যা লিনিয়ার রিগ্রেশন এর মতোই প্রকাশ পায় না, তাই এই প্লট তাদের সনাক্তকরণে সহায়ক হতে পারে বা নাও পারে।

সাধারণ গৃহীত পাঠের সহজ পাঠটি হ'ল এই যে প্লটগুলি আপনার লজিস্টিক রিগ্রেশন মডেলটির সাথে কী চলছে তা বুঝতে আপনাকে সহায়তা করতে খুব শক্ত হতে পারে। লোকদের পক্ষে যথেষ্ট দক্ষতা না থাকলে লজিস্টিক রিগ্রেশন চালানোর সময় এই প্লটগুলিকে মোটেও না দেখাই ভাল best


5
ভাল দুঃখ এটি একটি আশ্চর্যজনক প্রতিক্রিয়া।
d8aninja

@ গুং আপনি কি দয়া করে বলতে পারেন এটি কোনও গ্ল্যাম থাকলে আমরা কী করতে পারি? কিউকিউ, রেসিডুয়াল বনাম ফিটেডের বিকল্প নেই? উদাহরণস্বরূপ, আমি একটি পিসন লিঙ্ক জিএলএমের জন্য প্লট করেছি, তবে কীভাবে এটি ভাল ফিট হয় তা বিশ্লেষণ করতে জানি না
GRS

2
@GRS, পড়ার চেষ্টা এই
গুং - মনিকা পুনরায়

@ আপনার সমস্ত উত্তর বিশদ এবং পরিষ্কার। এই সাইট সহ একাধিক উত্স থেকে পড়া ছাড়াও, আপনি ডায়াগনস্টিক প্লটগুলি বোঝার ক্ষেত্রে 'যথেষ্ট দক্ষতা' পেতে একটি বা দুটি ভাল বই / সাইটগুলি উল্লেখ করতে পারেন? আমি বুঝতে পারি যে আমরা কেবল কয়েকটি অনুশীলন এবং অভিজ্ঞতা নিয়ে দক্ষতা অর্জন করতে পারি তবে যদি কোনও নির্দিষ্ট বই / ওয়েবসাইট বিশদটি গভীরভাবে আবরণ করে তবে যদি আপনি উল্লেখ করতে পারেন তবে এটি দুর্দান্ত সহায়ক হবে।
ডাঃ নিশা অরোরা

@ শ্রনিশা অরোরা, সত্যই নয় যে আমি সচেতন। আছে কিছু বই যে এল আর জন্য প্রাসঙ্গিক, কিন্তু তারা বিবৃত কারণে, এই প্লটে বেশী সময় ব্যয় যাচ্ছে না।
গুং - মনিকা পুনরায়

0
  1. অবশিষ্টগুলি বনাম লাগানো - কোনও শক্ত নিদর্শন থাকতে হবে না (হালকা নিদর্শনগুলি কোনও সমস্যা নয়, @ গুং এর উত্তর দেখুন) এবং কোনও বিদেশী নয়, অবশিষ্টগুলি এলোমেলোভাবে শূন্যের কাছাকাছি বিতরণ করা উচিত।
  2. সাধারণ কিউকিউ - অবশিষ্টাংশগুলি তির্যক রেখার চারপাশে যাওয়া উচিত, অর্থাত্ সাধারণত বিতরণ করা উচিত ( কিউকিউ প্লটের উইকি দেখুন )। এই প্লটটি প্রায় স্বাভাবিক কিনা তা পরীক্ষা করতে সহায়তা করে।
  3. স্কেল-লোকেশন - আপনি দেখতে পাচ্ছেন, ওয়াই অক্ষে অবশিষ্টাংশগুলিও রয়েছে (যেমন রেসিডুয়ালস বনাম লাগানো প্লটের মতো) তবে সেগুলি ছোট করে দেওয়া হয়, সুতরাং এটি (1) এর মতো, তবে কিছু ক্ষেত্রে এটি আরও ভাল কাজ করে।
  4. অবশিষ্টাংশ বনাম লিভারেজ - এটি বহির্মুখী কেসগুলি নির্ণয় করতে সহায়তা করে। পূর্বের প্লটগুলির মতো, বহির্মুখী কেসগুলি সংখ্যাযুক্ত, তবে এই প্লটটিতে যদি এমন কোনও মামলা থাকে যা বাকী ডেটাগুলির থেকে খুব আলাদা হয় তবে তারা সরু লাল রেখার নীচে চক্রান্ত করা হয় ( কুকের দূরত্বে উইকি পরীক্ষা করুন )।

অনেক দিক হিসাবে (যেমন অনুরূপ রিগ্রেশন এর অনুমানের আরও পড়ুন এখানে আর এ রিগ্রেশন উপর, বা টিউটোরিয়াল এখানে )।


2
উপরের প্রতিক্রিয়ায় এই উত্তরটি গ্ল্যামের প্রসঙ্গে ভুল, পাশাপাশি @ গং দ্বারা প্রকাশিত। আপনি যদি এই প্রশ্নের উত্তর খুঁজছেন, তবে এই উত্তরটি অগ্রাহ্য করুন ORE আপনি যদি এই প্রতিক্রিয়াটির লেখক হন তবে গাং দ্বারা উপরের উত্তরটি দেখুন। যদি আপনি এতে সম্মত হন তবে আপনার এই প্রতিক্রিয়াটি মোছার বিষয়টি বিবেচনা করা উচিত, কারণ এটি বিভ্রান্তিকর।
কলিন

@ কলিন আপনি কি এই মন্তব্যটির সাথে আপনার মতামত ঠিক কি ভুল মন্তব্য করতে চান? আমার এবং দ্বিতীয় উত্তরের মধ্যে একমাত্র পার্থক্য হ'ল গাং আরও বিশদে চলে যায় ...
টিম

3
লিনিয়ার রিগ্রেশন প্রসঙ্গে এই প্লটগুলি কীভাবে ব্যবহার করা উচিত তা আপনি বর্ণনা করেন। গুং বর্ণনা করে যে এই ক্ষেত্রে কেন এই ব্যাখ্যাগুলি ব্যর্থ হয়, কারণ সেগুলি দ্বিপদী গ্ল্যাম মডেলে প্রয়োগ করা হচ্ছে। সুতরাং, যদি কোনও ব্যবহারকারী আপনার পরামর্শ অনুসারে এই ডায়াগনস্টিক প্লটগুলি ব্যাখ্যা করে (এবং আপনার পরামর্শগুলি এলএমের ক্ষেত্রে সহায়ক হবে), তারা ভ্রান্তভাবে সিদ্ধান্ত নেবে যে তাদের মডেল গ্ল্যামের অনুমানগুলি লঙ্ঘন করে, যখন বাস্তবে এটি ঘটে না।
কলিন

আপনি লিখেছেন, "রেসিডুয়ালে বনাম লাগানো - কোনও নিদর্শন এবং কোনও বিদেশী থাকা উচিত নয়, অবশিষ্টাংশগুলি এলোমেলোভাবে 0 এর আশপাশে বিতরণ করা উচিত।" গুং লিখেছেন, "রেসিডুয়ালস বনাম ফিটেড প্লট আপনাকে দেখতে সাহায্য করতে পারে, উদাহরণস্বরূপ, যদি আপনি যে অনুক্রমে বক্ররেখার প্রবণতাগুলি মিস করেন তবে এটি একটি লজিস্টিক রিগ্রেশনটির উপযুক্ততা প্রকৃতির দ্বারা বক্ররেখার হয়, তাই আপনার কোনও কিছুই ছাড়াই অবশেষগুলিতে অদ্ভুত চেহারা দেখার প্রবণতা থাকতে পারে পথভ্রষ্ট। " ... আপনার একজনকে অবশ্যই ভুল হতে হবে।
কলিন

2
আমি একমত, এটি কালো এবং সাদা নয়, এমন অনেকগুলি উদাহরণ রয়েছে যেখানে শক্তিশালী প্রবণতা রয়েছে তবে নির্দিষ্ট মডেলটি নির্দিষ্ট গ্ল্যামের অনুমানের অধীনে সম্পূর্ণ উপযুক্ত is সুতরাং, দৃser়রূপে, "এখানে কোনও নিদর্শন এবং কোনও বিদেশী থাকা উচিত নয়, অবশিষ্টাংশগুলি এলোমেলোভাবে 0 এর আশপাশে বিতরণ করা উচিত।" সহজেই ব্যাখ্যা করা হয় যে যদি কোনও প্যাটার্ন থাকে তবে আপনি মডেল অনুমান লঙ্ঘন করেছেন। এই ক্ষেত্রে না হয়.
কলিন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.