এখানে আমি সাধারণত যা করতে চাই তা এখানে (উদাহরণের জন্য আমি বিদ্যালয়ের অনুপস্থিত ছাত্রদের দিনের অতিমাত্রায় এবং খুব সহজেই মডেলিং কুইন ডেটা ব্যবহার করি না MASS
):
বৃহত্তর অংশে প্যাকেজ দ্বারা সমর্থিত পর্যবেক্ষিত ফ্রিকোয়েন্সি এবং লাগানো ফ্রিকোয়েন্সি ( বন্ধুত্বের দ্বিতীয় অধ্যায়ে দেখুন ) প্লট করে মূল গণনা ডেটা পরীক্ষা করুন এবং গ্রাফ করুন । উদাহরণস্বরূপ, এবং এর সাথে :vcd
R
goodfit
rootogram
library(MASS)
library(vcd)
data(quine)
fit <- goodfit(quine$Days)
summary(fit)
rootogram(fit)
বা অর্ড প্লটগুলি যা কোন গণনা ডেটা মডেলটি অন্তর্নিহিত তা সনাক্ত করতে সহায়তা করে (উদাহরণস্বরূপ, এখানে slালটি ইতিবাচক এবং বিরতি ইতিবাচক যা নেতিবাচক দ্বিপদী বিতরণের জন্য কথা বলে):
Ord_plot(quine$Days)
বা "এক্সএক্সএক্সএক্সএক্সএক্সএক্সএক্সনেস" প্লট যেখানে XXXXX পছন্দগুলি বিতরণ করা হয়েছে, বলুন পোয়েসনেস প্লট (যা পোইসনের বিরুদ্ধে কথা বলে, চেষ্টাও করুন type="nbinom"
):
distplot(quine$Days, type="poisson")
যথাযথ উপকারের -যথাযথ পদক্ষেপগুলি পরীক্ষা করুন (যেমন সম্ভাবনা অনুপাতের পরিসংখ্যান বনাম একটি নাল মডেল বা অনুরূপ):
mod1 <- glm(Days~Age+Sex, data=quine, family="poisson")
summary(mod1)
anova(mod1, test="Chisq")
চেক উপর / underdispersion দিকে তাকিয়ে residual deviance/df
বা আনুষ্ঠানিক পরীক্ষার পরিসংখ্যান এ (যেমন, এই উত্তর দেখুন )। এখানে আমাদের স্পষ্টত অতিরিক্ত ছাড়িয়ে গেছে:
library(AER)
deviance(mod1)/mod1$df.residual
dispersiontest(mod1)
চেক প্রভাবশালী ও লিভারেজ পয়েন্ট , যেমন, সঙ্গে influencePlot
মধ্যে car
প্যাকেজ। অবশ্যই এখানে অনেকগুলি পয়েন্ট অত্যন্ত প্রভাবশালী কারণ পোইসন একটি খারাপ মডেল:
library(car)
influencePlot(mod1)
একটি গণনা উপাত্তের মডেল এবং এর জিরোইনফ্লেটেড / বাধা প্রতিরোধের ফিট করে শূন্য মূল্যস্ফীতি পরীক্ষা করুন এবং তাদের তুলনা করুন (সাধারণত এআইসির সাথে)। এখানে একটি শূন্য স্ফীত মডেল সহজ পোইসনের চেয়ে ভাল ফিট করতে পারে (আবার সম্ভবত অতিরিক্ত মাত্রার কারণে):
library(pscl)
mod2 <- zeroinfl(Days~Age+Sex, data=quine, dist="poisson")
AIC(mod1, mod2)
এক্স-অক্ষের উপর y-অক্ষ বনাম (লগ) পূর্বাভাসকৃত মানগুলি (বা লিনিয়ার প্রেডিকটার) এর অবশিষ্টাংশ (কাঁচা, বিচ্যুতি বা স্কেলড) প্লট করুন । এখানে আমরা কিছু খুব বড় অবশিষ্টাংশ এবং সাধারণ থেকে বিচ্যুতির অবশিষ্টাংশগুলির যথেষ্ট পরিমাণে বিচ্যুতি দেখতে পাই (পোইসনের বিরুদ্ধে কথা বলছি; সম্পাদনা: @ ফ্লোরিয়ান হার্টিগের উত্তর থেকে বোঝা যায় যে এই অবশিষ্টাংশগুলির স্বাভাবিকতা প্রত্যাশিত নয় তাই এটি কোনও চূড়ান্ত সূত্র নয়):
res <- residuals(mod1, type="deviance")
plot(log(predict(mod1)), res)
abline(h=0, lty=2)
qqnorm(res)
qqline(res)
যদি আগ্রহী হয়, অর্ডারযুক্ত পরম রেসিডুয়ালগুলি বনাম। প্রত্যাশিত সাধারণ মান অ্যাটকিনসন (1981) প্লট করে অবশিষ্টাংশগুলির অর্ধেক সাধারণ সম্ভাবনার প্লট প্লট করুন । একটি বিশেষ বৈশিষ্ট্য হ'ল একটি রেফারেন্স 'লাইন' অনুকরণ এবং সিমুলেটেড / বুটস্ট্র্যাপযুক্ত আত্মবিশ্বাসের অন্তরগুলির সাথে খাম (যদিও দেখানো হয়নি):
library(faraway)
halfnorm(residuals(mod1))
±
plot(Days~Age, data=quine)
prs <- predict(mod1, type="response", se.fit=TRUE)
pris <- data.frame("pest"=prs[[1]], "lwr"=prs[[1]]-prs[[2]], "upr"=prs[[1]]+prs[[2]])
points(pris$pest ~ quine$Age, col="red")
points(pris$lwr ~ quine$Age, col="pink", pch=19)
points(pris$upr ~ quine$Age, col="pink", pch=19)
এটি আপনাকে আপনার বিশ্লেষণ সম্পর্কে অনেক দরকারী তথ্য দেয় এবং সর্বাধিক পদক্ষেপগুলি সমস্ত স্ট্যান্ডার্ড গণনা ডেটা বিতরণের জন্য কাজ করে (যেমন, পোইসন, নেতিবাচক দ্বিপদী, সিওএম পোইসন, পাওয়ার আইন)।