কেউ কি আমাকে বলতে পারেন কীভাবে 'রেসিডুয়ালাম বনাম লাগানো', 'সাধারণ কিউ-কিউ', 'স্কেল-লোকেশন', এবং 'রেসিডুয়ালগুলি বনাম লিভারেজ' প্লটগুলি কীভাবে ব্যাখ্যা করা যায়? আমি একটি দ্বিপদী জিএলএম ফিট করছি, এটি সংরক্ষণ এবং এরপরে এটি প্লট করছি।
কেউ কি আমাকে বলতে পারেন কীভাবে 'রেসিডুয়ালাম বনাম লাগানো', 'সাধারণ কিউ-কিউ', 'স্কেল-লোকেশন', এবং 'রেসিডুয়ালগুলি বনাম লিভারেজ' প্লটগুলি কীভাবে ব্যাখ্যা করা যায়? আমি একটি দ্বিপদী জিএলএম ফিট করছি, এটি সংরক্ষণ এবং এরপরে এটি প্লট করছি।
উত্তর:
R
একটি পৃথক plot.glm()
পদ্ধতি নেই। আপনি যখন কোনও মডেল ফিট করে glm()
এবং চালনা করেন plot()
, তখন এটি প্লট.এলএম কল করে , যা লিনিয়ার মডেলগুলির জন্য উপযুক্ত (যেমন, সাধারণত বিতরণ করা ত্রুটির শব্দ সহ)।
সাধারণভাবে, এই প্লটগুলির অর্থ (কমপক্ষে রৈখিক মডেলগুলির জন্য) সিভিতে বিদ্যমান বিভিন্ন থ্রেডে শিখতে পাওয়া যায় (উদাহরণস্বরূপ: অবশিষ্টাংশ বনাম ফিটেড ; বেশ কয়েকটি জায়গায় কিউকিউ প্লট: 1 , 2 , 3 ; স্কেল-লোকেশন ; অবশিষ্টাংশ) বনাম লিভারেজ )। যাইহোক, প্রশ্নগুলির মডেলটি একটি লজিস্টিক রিগ্রেশন হলে এই ব্যাখ্যাগুলি সাধারণত বৈধ হয় না।
আরও সুনির্দিষ্টভাবে, প্লটগুলি প্রায়শই 'মজাদার দেখায়' এবং লোকেরা বিশ্বাস করতে পরিচালিত করে যে মডেলটি যখন পুরোপুরি ঠিক আছে তখন কিছু ভুল আছে। আমরা সেই প্লটগুলি বেশ কয়েকটি সাধারণ সিমুলেশনের সাথে দেখে যেখানে দেখতে পেলাম যে মডেলটি সঠিক তা আমরা দেখতে পাচ্ছি:
# we'll need this function to generate the Y data:
lo2p = function(lo){ exp(lo)/(1+exp(lo)) }
set.seed(10) # this makes the simulation exactly reproducible
x = runif(20, min=0, max=10) # the X data are uniformly distributed from 0 to 10
lo = -3 + .7*x # this is the true data generating process
p = lo2p(lo) # here I convert the log odds to probabilities
y = rbinom(20, size=1, prob=p) # this generates the Y data
mod = glm(y~x, family=binomial) # here I fit the model
summary(mod) # the model captures the DGP very well & has no
# ... # obvious problems:
# Deviance Residuals:
# Min 1Q Median 3Q Max
# -1.76225 -0.85236 -0.05011 0.83786 1.59393
#
# Coefficients:
# Estimate Std. Error z value Pr(>|z|)
# (Intercept) -2.7370 1.4062 -1.946 0.0516 .
# x 0.6799 0.3261 2.085 0.0371 *
# ...
#
# Null deviance: 27.726 on 19 degrees of freedom
# Residual deviance: 21.236 on 18 degrees of freedom
# AIC: 25.236
#
# Number of Fisher Scoring iterations: 4
এখন আসুন আমরা যে প্লটগুলি পেয়েছি তা দেখুন plot.lm()
:
প্লট Residuals vs Fitted
এবং Scale-Location
প্লট উভয়ই দেখে মনে হচ্ছে যে মডেলটিতে সমস্যা রয়েছে তবে আমরা জানি যে কোনওটি নেই। লিনিস্টিক মডেলগুলির জন্য উদ্দিষ্ট এই প্লটগুলি লজিস্টিক রিগ্রেশন মডেল ব্যবহার করার সময় প্রায়শই বিভ্রান্তিকর হয়।
আসুন অন্য উদাহরণটি দেখুন:
set.seed(10)
x2 = rep(c(1:4), each=40) # X is a factor with 4 levels
lo = -3 + .7*x2
p = lo2p(lo)
y = rbinom(160, size=1, prob=p)
mod = glm(y~as.factor(x2), family=binomial)
summary(mod) # again, everything looks good:
# ...
# Deviance Residuals:
# Min 1Q Median 3Q Max
# -1.0108 -0.8446 -0.3949 -0.2250 2.7162
#
# Coefficients:
# Estimate Std. Error z value Pr(>|z|)
# (Intercept) -3.664 1.013 -3.618 0.000297 ***
# as.factor(x2)2 1.151 1.177 0.978 0.328125
# as.factor(x2)3 2.816 1.070 2.632 0.008481 **
# as.factor(x2)4 3.258 1.063 3.065 0.002175 **
# ...
#
# Null deviance: 160.13 on 159 degrees of freedom
# Residual deviance: 133.37 on 156 degrees of freedom
# AIC: 141.37
#
# Number of Fisher Scoring iterations: 6
এখন সব প্লট দেখতে অদ্ভুত লাগছে।
তাহলে এই প্লটগুলি আপনাকে কী দেখায়?
Residuals vs Fitted
চক্রান্ত, সাহায্য করতে পারেন আপনি দেখতে, উদাহরণস্বরূপ যদি বক্ররেখা-বেষ্টিত প্রবণতাগুলো দেখতে আপনি মিস হয়। তবে একটি লজিস্টিক রিগ্রেশনটির উপযুক্ততা প্রকৃতির দ্বারা বক্ররেখার, সুতরাং আপনার কোনও অবকাশ নেই বলে বিশৃঙ্খলাগুলি অবলম্বন করতে পারে। Normal Q-Q
চক্রান্ত আপনি সনাক্ত যদি আপনার অবশিষ্টাংশ স্বাভাবিকভাবে বিতরণ করা হয় সাহায্য করে। তবে মডেলটি বৈধ হওয়ার জন্য ডিভ্যান্সের অবশিষ্টাংশগুলি সাধারণত বিতরণ করতে হবে না, তাই অবশিষ্টাংশগুলির স্বাভাবিকতা / অ-স্বাভাবিকতা আপনাকে অবশ্যই কিছু বলবে না। Scale-Location
চক্রান্ত আপনি heteroscedasticity চিহ্নিত সাহায্য করতে পারেন। তবে লজিস্টিক রিগ্রেশন মডেলগুলি প্রকৃতির দিক থেকে অনেক বেশি ভিন্ন ভিন্ন। Residuals vs Leverage
আপনি সম্ভব outliers চিহ্নিত সাহায্য করতে পারেন। তবে লজিস্টিক রিগ্রেশনের আউটলাইনাররা অগত্যা লিনিয়ার রিগ্রেশন এর মতোই প্রকাশ পায় না, তাই এই প্লট তাদের সনাক্তকরণে সহায়ক হতে পারে বা নাও পারে। সাধারণ গৃহীত পাঠের সহজ পাঠটি হ'ল এই যে প্লটগুলি আপনার লজিস্টিক রিগ্রেশন মডেলটির সাথে কী চলছে তা বুঝতে আপনাকে সহায়তা করতে খুব শক্ত হতে পারে। লোকদের পক্ষে যথেষ্ট দক্ষতা না থাকলে লজিস্টিক রিগ্রেশন চালানোর সময় এই প্লটগুলিকে মোটেও না দেখাই ভাল best
অনেক দিক হিসাবে (যেমন অনুরূপ রিগ্রেশন এর অনুমানের আরও পড়ুন এখানে আর এ রিগ্রেশন উপর, বা টিউটোরিয়াল এখানে )।