সংক্ষিপ্ত উত্তর
কোয়াডেসি / পোইসন মডেলটিতে শর্তসাপেক্ষ গড়ের জন্য রিগ্রেশন কোফিসিয়েন্টগুলির কোনও ভেক্টর অনুমান করার সময় অতিমাত্রায় বিভ্রান্তি আসে না! আপনি যদি এখানে অতিরিক্ত মাত্রায় ভুলে যান তবে পোইসন পরিবারের সাথে গ্ল্যামনেট ব্যবহার করুন এবং আপনার ক্রস-বৈধ প্রমাণিত ত্রুটিটি কম কিনা সেদিকে মনোযোগ দিন তবে আপনি ভাল হয়ে যাবেন।
যোগ্যতা নীচে অনুসরণ করা হয়।
পোইসন, কোসি-পইসন এবং অনুমানের কার্য:
আমি উপরের কথাটি বলি কারণ একটি পিসন বা কোয়াশি-পোইসন মডেলের ওভারডিস্পেরসন (ওডি) বিচ্ছুরণের (বা বৈকল্পিকতা বা স্কেল বা ভিন্ন ভিন্নতা বা স্প্রেড বা আপনি যেটিকে কল করতে চান) যা কিছু করতে প্রভাবিত করে এবং এটি স্ট্যান্ডার্ডের উপর প্রভাব ফেলে ত্রুটি এবং আত্মবিশ্বাসের ব্যবধানগুলি তবে শর্তাধীন শর্তের জন্য অনুমানগুলি ছেড়ে দেয়y (যাকে বলা হয় μ) অচ্ছুত। এটি বিশেষত গড়ের লিনিয়ার পচনগুলিতে প্রযোজ্যx⊤β।
এটি এই বাস্তবতা থেকে আসে যে শর্তসাপেক্ষ মানের গুণাগুণগুলির জন্য অনুমানের সমীকরণগুলি পোয়েসন এবং আধা-পইসন মডেল উভয়ের জন্য কার্যত একই। Quasi-poisson গড় এবং একটি অতিরিক্ত প্যারামিটারের ক্ষেত্রে ভেরিয়েন্স ফাংশন নির্দিষ্ট করে specifθ) হিসাবে Var(y)=θμ (পয়সনের সাথে θ= 1), কিন্তু θঅনুমানের সমীকরণটি অনুকূলকরণের সময় প্রাসঙ্গিক হতে পারে না। সুতরাংθ অনুমান করতে কোন ভূমিকা পালন করে না βযখন শর্তাধীন গড় এবং বৈকল্পিক আনুপাতিক হয়। সুতরাং পয়েন্ট অনুমানβ^ কোয়াশি এবং পোয়েসন মডেলগুলির জন্য অভিন্ন!
আমি একটি উদাহরণ দিয়ে উদাহরণ দিয়ে দেখি (লক্ষ্য করুন যে পুরো কোড এবং আউটপুটটি দেখার জন্য একজনকে স্ক্রোল করা দরকার):
> library(MASS)
> data(quine)
> modp <- glm(Days~Age+Sex+Eth+Lrn, data=quine, family="poisson")
> modqp <- glm(Days~Age+Sex+Eth+Lrn, data=quine, family="quasipoisson")
> summary(modp)
Call:
glm(formula = Days ~ Age + Sex + Eth + Lrn, family = "poisson",
data = quine)
Deviance Residuals:
Min 1Q Median 3Q Max
-6.808 -3.065 -1.119 1.819 9.909
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 2.71538 0.06468 41.980 < 2e-16 ***
AgeF1 -0.33390 0.07009 -4.764 1.90e-06 ***
AgeF2 0.25783 0.06242 4.131 3.62e-05 ***
AgeF3 0.42769 0.06769 6.319 2.64e-10 ***
SexM 0.16160 0.04253 3.799 0.000145 ***
EthN -0.53360 0.04188 -12.740 < 2e-16 ***
LrnSL 0.34894 0.05204 6.705 2.02e-11 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 2073.5 on 145 degrees of freedom
Residual deviance: 1696.7 on 139 degrees of freedom
AIC: 2299.2
Number of Fisher Scoring iterations: 5
> summary(modqp)
Call:
glm(formula = Days ~ Age + Sex + Eth + Lrn, family = "quasipoisson",
data = quine)
Deviance Residuals:
Min 1Q Median 3Q Max
-6.808 -3.065 -1.119 1.819 9.909
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.7154 0.2347 11.569 < 2e-16 ***
AgeF1 -0.3339 0.2543 -1.313 0.191413
AgeF2 0.2578 0.2265 1.138 0.256938
AgeF3 0.4277 0.2456 1.741 0.083831 .
SexM 0.1616 0.1543 1.047 0.296914
EthN -0.5336 0.1520 -3.511 0.000602 ***
LrnSL 0.3489 0.1888 1.848 0.066760 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for quasipoisson family taken to be 13.16691)
Null deviance: 2073.5 on 145 degrees of freedom
Residual deviance: 1696.7 on 139 degrees of freedom
AIC: NA
Number of Fisher Scoring iterations: 5
যেমন আপনি দেখতে পাচ্ছেন যদিও আমাদের এই ডেটা সেটটিতে 12.21 এর শক্তিশালী ওভারডিস্পারেন্স রয়েছে (বাই দ্বারা deviance(modp)/modp$df.residual
) রিগ্রেশন কোটিফিয়েন্টস (পয়েন্ট আনুমানিক) মোটেও পরিবর্তন হয় না। তবে লক্ষ্য করুন কীভাবে স্ট্যান্ডার্ড ত্রুটিগুলি পরিবর্তন হয়।
দন্ডিত পোয়েসন মডেলগুলিতে অতিমাত্রায় প্রভাবের প্রশ্ন
পেনালাইজড মডেলগুলি বেশিরভাগই পূর্বাভাস এবং পরিবর্তনশীল নির্বাচনের জন্য ব্যবহৃত হয় এবং অনুমানের জন্য নয় (এখনও)। সুতরাং যারা এই মডেলগুলি ব্যবহার করেন তারা শর্তসাপেক্ষে রেগ্রেশন প্যারামিটারগুলিতে আগ্রহী, কেবল শূন্যের দিকে সঙ্কুচিত। যদি দণ্ড একই থাকে, শর্তাধীন (অর্ধ) সম্ভাবনা থেকে প্রাপ্ত শর্তাধীন অর্থের জন্য অনুমানের সমীকরণগুলিও এর উপর নির্ভর করে নাθএবং অতএব অতিরিক্ত পরিমাণে অনুমানের জন্য কিছু আসে যায় নাβ ধরণের মডেলটিতে:
g(μ)=x⊤β+f(β)
যেমন β ফর্মের কোনও বৈকল্পিক ফাংশনের জন্য একইভাবে অনুমান করা হয় θμ, সুতরাং আবার সমস্ত মডেলের যেখানে শর্তসাপেক্ষ গড় এবং বৈকল্পিক আনুপাতিক। এটি ঠিক আনপেনালাইজড পোয়েসন / কাসিপোইসন মডেলগুলির মতো।
আপনি যদি এটিকে মুখের মান হিসাবে নিতে চান না এবং গণিত এড়াতে না চান glmnet
তবে আপনি নিয়মিতকরণের প্যারামিটারটিকে 0 (এবং এভাবে সেট করে রাখলে সত্যই অনুভবযোগ্য সমর্থন পেতে পারেন)f(β)=0) আপনি পোয়েসন এবং কাসিপোইসন মডেলগুলি অবতরণ করেন এমন জায়গাগুলি শেষ করেন (ল্যাম্বডা 0.005 যেখানে নীচে শেষ কলামটি দেখুন)।
> library(glmnet)
> y <- quine[,5]
> x <- model.matrix(~Age+Sex+Eth+Lrn,quine)
> modl <- glmnet(y=y,x=x, lambda=c(0.05,0.02,0.01,0.005), family="poisson")
> coefficients(modl)
8 x 4 sparse Matrix of class "dgCMatrix"
s0 s1 s2 s3
(Intercept) 2.7320435 2.7221245 2.7188884 2.7172098
(Intercept) . . . .
AgeF1 -0.3325689 -0.3335226 -0.3339580 -0.3340520
AgeF2 0.2496120 0.2544253 0.2559408 0.2567880
AgeF3 0.4079635 0.4197509 0.4236024 0.4255759
SexM 0.1530040 0.1581563 0.1598595 0.1607162
EthN -0.5275619 -0.5311830 -0.5323936 -0.5329969
LrnSL 0.3336885 0.3428815 0.3459650 0.3474745
সুতরাং শাস্তিযুক্ত রিগ্রেশন মডেলগুলিতে ওডি কী করবে? আপনি জানেন যে, দণ্ডিত মডেলগুলির জন্য আদর্শ ত্রুটিগুলি গণনা করার সঠিক উপায় সম্পর্কে এখনও কিছু বিতর্ক রয়েছে (উদাহরণস্বরূপ, এখানে দেখুন ) এবং glmnet
যে কোনও উপায়ে আউটপুট দিচ্ছে না, সম্ভবত সেই কারণেই। এটি খুব ভালভাবেই হতে পারে যে ওডি মডেলটির অনুক্রমের অংশটিকে প্রভাবিত করবে, যেমনটি এটি দন্ডবিহীন ক্ষেত্রে হয় তবে এই ক্ষেত্রে অনুমান সম্পর্কে কিছু sensক্যমত্য না হওয়া পর্যন্ত আমরা জানি না।
একদিকে যেমন, কেউ যদি বায়েশিয়ান দৃষ্টিভঙ্গি গ্রহণ করতে ইচ্ছুক থাকে তবে শাস্তিযুক্ত মডেলগুলি একটি নির্দিষ্ট পূর্বের সাথে কেবলমাত্র আদর্শ মডেল।
poisson
এবংquasipoisson
সংবেদনগুলি একই পদ্ধতিতে সহগের অনুমান করে এবং তাদের মধ্যে কী পার্থক্য রয়েছে তা হ'ল তারা কীভাবে স্ট্যান্ডার্ড ত্রুটিগুলি এবং এইভাবে তাত্পর্যটি অনুমান করে। যাইহোক, লাসো পদ্ধতির জন্য, কীভাবে স্ট্যান্ডার্ড ত্রুটিগুলি গণনা করা যায় তা এখনও কোনও sensক্যমতে পৌঁছতে পারে না এবং তাই এর বর্তমান ব্যবহারটি মূলত অনুমানের পরিবর্তে পরিবর্তনশীল নির্বাচনের মধ্যে রয়েছে। যেমন, আমরাglmnet
পয়েসন বা কাসিপোইসন ব্যবহার করি তা বিবেচনাধীন নয়, তবে ক্রস-বৈধতাযুক্ত ত্রুটিটি হ্রাস করা উচিত।