কীভাবে গ্ল্যামনেট ওভারডিস্পেরেশন পরিচালনা করে?


9

কাউন্ট ডেটাতে কীভাবে পাঠ্যকে মডেল করবেন সে সম্পর্কে আমার একটি প্রশ্ন রয়েছে, বিশেষত কীভাবে lassoবৈশিষ্ট্যগুলি হ্রাস করার জন্য আমি এই কৌশলটি ব্যবহার করতে পারি ।

বলুন যে আমার কাছে এন অনলাইন নিবন্ধ এবং প্রতিটি নিবন্ধের জন্য পৃষ্ঠাগুলির গণনা রয়েছে। আমি প্রতিটি নিবন্ধের জন্য 1-গ্রাম এবং 2-গ্রাম উত্তোলন করেছি এবং আমি 1,2-গ্রামে একটি রিগ্রেশন চালাতে চেয়েছিলাম। বৈশিষ্ট্যগুলি (1,2-গ্রাম) পর্যবেক্ষণের সংখ্যার চেয়ে অনেক বেশি, তাই বৈশিষ্ট্যগুলির সংখ্যা হ্রাস করার জন্য লাসো একটি দুর্দান্ত পদ্ধতি হবে। এছাড়াও, আমি পেয়েছি glmnetলাসো বিশ্লেষণ চালানোর পক্ষে সত্যই কার্যকর।

যাইহোক, পৃষ্ঠাদর্শন গণনা নম্বর (ভ্যারিয়েন্স> মিন) overdispersed কিন্তু হয় glmnetনা প্রস্তাব করে quasipoisson(স্পষ্টভাবে) অথবা negative binomialকিন্তু poissonগণনা ডেটার জন্য। আমি যে সমাধানটির কথা ভেবেছি তা হ'ল log transformগণনা তথ্য (সামাজিক বিজ্ঞানীদের মধ্যে একটি সাধারণভাবে ব্যবহৃত পদ্ধতি) এবং প্রতিক্রিয়ার পরিবর্তনশীলটিকে প্রায় একটি সাধারণ বিতরণ অনুসরণ করে। এর মতো, আমি সম্ভবত গাউস পরিবার ব্যবহার করে ডেটা মডেল করতে পারি glmnet

সুতরাং আমার প্রশ্ন: এটি কি উপযুক্ত? অথবা, আমি কি হ্যান্ডলগুলির glmnetক্ষেত্রে কেবল পিসন ব্যবহার করব ? অথবা, অন্য আর প্যাকেজগুলি কি এই পরিস্থিতিটি পরিচালনা করে?glmnetquasipoisson

আপনাকে অনেক ধন্যবাদ!

উত্তর:


14

সংক্ষিপ্ত উত্তর

কোয়াডেসি / পোইসন মডেলটিতে শর্তসাপেক্ষ গড়ের জন্য রিগ্রেশন কোফিসিয়েন্টগুলির কোনও ভেক্টর অনুমান করার সময় অতিমাত্রায় বিভ্রান্তি আসে না! আপনি যদি এখানে অতিরিক্ত মাত্রায় ভুলে যান তবে পোইসন পরিবারের সাথে গ্ল্যামনেট ব্যবহার করুন এবং আপনার ক্রস-বৈধ প্রমাণিত ত্রুটিটি কম কিনা সেদিকে মনোযোগ দিন তবে আপনি ভাল হয়ে যাবেন।

যোগ্যতা নীচে অনুসরণ করা হয়।


পোইসন, কোসি-পইসন এবং অনুমানের কার্য:

আমি উপরের কথাটি বলি কারণ একটি পিসন বা কোয়াশি-পোইসন মডেলের ওভারডিস্পেরসন (ওডি) বিচ্ছুরণের (বা বৈকল্পিকতা বা স্কেল বা ভিন্ন ভিন্নতা বা স্প্রেড বা আপনি যেটিকে কল করতে চান) যা কিছু করতে প্রভাবিত করে এবং এটি স্ট্যান্ডার্ডের উপর প্রভাব ফেলে ত্রুটি এবং আত্মবিশ্বাসের ব্যবধানগুলি তবে শর্তাধীন শর্তের জন্য অনুমানগুলি ছেড়ে দেয়y (যাকে বলা হয় μ) অচ্ছুত। এটি বিশেষত গড়ের লিনিয়ার পচনগুলিতে প্রযোজ্যxβ

এটি এই বাস্তবতা থেকে আসে যে শর্তসাপেক্ষ মানের গুণাগুণগুলির জন্য অনুমানের সমীকরণগুলি পোয়েসন এবং আধা-পইসন মডেল উভয়ের জন্য কার্যত একই। Quasi-poisson গড় এবং একটি অতিরিক্ত প্যারামিটারের ক্ষেত্রে ভেরিয়েন্স ফাংশন নির্দিষ্ট করে specifθ) হিসাবে Var(y)=θμ (পয়সনের সাথে θ= 1), কিন্তু θঅনুমানের সমীকরণটি অনুকূলকরণের সময় প্রাসঙ্গিক হতে পারে না। সুতরাংθ অনুমান করতে কোন ভূমিকা পালন করে না βযখন শর্তাধীন গড় এবং বৈকল্পিক আনুপাতিক হয়। সুতরাং পয়েন্ট অনুমানβ^ কোয়াশি এবং পোয়েসন মডেলগুলির জন্য অভিন্ন!

আমি একটি উদাহরণ দিয়ে উদাহরণ দিয়ে দেখি (লক্ষ্য করুন যে পুরো কোড এবং আউটপুটটি দেখার জন্য একজনকে স্ক্রোল করা দরকার):

> library(MASS)
> data(quine) 
> modp <- glm(Days~Age+Sex+Eth+Lrn, data=quine, family="poisson")
> modqp <- glm(Days~Age+Sex+Eth+Lrn, data=quine, family="quasipoisson")
> summary(modp)

Call:
glm(formula = Days ~ Age + Sex + Eth + Lrn, family = "poisson", 
    data = quine)

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-6.808  -3.065  -1.119   1.819   9.909  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  2.71538    0.06468  41.980  < 2e-16 ***
AgeF1       -0.33390    0.07009  -4.764 1.90e-06 ***
AgeF2        0.25783    0.06242   4.131 3.62e-05 ***
AgeF3        0.42769    0.06769   6.319 2.64e-10 ***
SexM         0.16160    0.04253   3.799 0.000145 ***
EthN        -0.53360    0.04188 -12.740  < 2e-16 ***
LrnSL        0.34894    0.05204   6.705 2.02e-11 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for poisson family taken to be 1)

    Null deviance: 2073.5  on 145  degrees of freedom
Residual deviance: 1696.7  on 139  degrees of freedom
AIC: 2299.2

Number of Fisher Scoring iterations: 5

> summary(modqp)

Call:
glm(formula = Days ~ Age + Sex + Eth + Lrn, family = "quasipoisson", 
    data = quine)

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-6.808  -3.065  -1.119   1.819   9.909  

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.7154     0.2347  11.569  < 2e-16 ***
AgeF1        -0.3339     0.2543  -1.313 0.191413    
AgeF2         0.2578     0.2265   1.138 0.256938    
AgeF3         0.4277     0.2456   1.741 0.083831 .  
SexM          0.1616     0.1543   1.047 0.296914    
EthN         -0.5336     0.1520  -3.511 0.000602 ***
LrnSL         0.3489     0.1888   1.848 0.066760 .  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for quasipoisson family taken to be 13.16691)

    Null deviance: 2073.5  on 145  degrees of freedom
Residual deviance: 1696.7  on 139  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 5

যেমন আপনি দেখতে পাচ্ছেন যদিও আমাদের এই ডেটা সেটটিতে 12.21 এর শক্তিশালী ওভারডিস্পারেন্স রয়েছে (বাই দ্বারা deviance(modp)/modp$df.residual) রিগ্রেশন কোটিফিয়েন্টস (পয়েন্ট আনুমানিক) মোটেও পরিবর্তন হয় না। তবে লক্ষ্য করুন কীভাবে স্ট্যান্ডার্ড ত্রুটিগুলি পরিবর্তন হয়।

দন্ডিত পোয়েসন মডেলগুলিতে অতিমাত্রায় প্রভাবের প্রশ্ন

পেনালাইজড মডেলগুলি বেশিরভাগই পূর্বাভাস এবং পরিবর্তনশীল নির্বাচনের জন্য ব্যবহৃত হয় এবং অনুমানের জন্য নয় (এখনও)। সুতরাং যারা এই মডেলগুলি ব্যবহার করেন তারা শর্তসাপেক্ষে রেগ্রেশন প্যারামিটারগুলিতে আগ্রহী, কেবল শূন্যের দিকে সঙ্কুচিত। যদি দণ্ড একই থাকে, শর্তাধীন (অর্ধ) সম্ভাবনা থেকে প্রাপ্ত শর্তাধীন অর্থের জন্য অনুমানের সমীকরণগুলিও এর উপর নির্ভর করে নাθএবং অতএব অতিরিক্ত পরিমাণে অনুমানের জন্য কিছু আসে যায় নাβ ধরণের মডেলটিতে:

g(μ)=xβ+f(β)

যেমন β ফর্মের কোনও বৈকল্পিক ফাংশনের জন্য একইভাবে অনুমান করা হয় θμ, সুতরাং আবার সমস্ত মডেলের যেখানে শর্তসাপেক্ষ গড় এবং বৈকল্পিক আনুপাতিক। এটি ঠিক আনপেনালাইজড পোয়েসন / কাসিপোইসন মডেলগুলির মতো।

আপনি যদি এটিকে মুখের মান হিসাবে নিতে চান না এবং গণিত এড়াতে না চান glmnetতবে আপনি নিয়মিতকরণের প্যারামিটারটিকে 0 (এবং এভাবে সেট করে রাখলে সত্যই অনুভবযোগ্য সমর্থন পেতে পারেন)f(β)=0) আপনি পোয়েসন এবং কাসিপোইসন মডেলগুলি অবতরণ করেন এমন জায়গাগুলি শেষ করেন (ল্যাম্বডা 0.005 যেখানে নীচে শেষ কলামটি দেখুন)।

> library(glmnet)
> y <- quine[,5]
> x <- model.matrix(~Age+Sex+Eth+Lrn,quine)
> modl <- glmnet(y=y,x=x, lambda=c(0.05,0.02,0.01,0.005), family="poisson")
> coefficients(modl)
8 x 4 sparse Matrix of class "dgCMatrix"
                    s0         s1         s2         s3
(Intercept)  2.7320435  2.7221245  2.7188884  2.7172098
(Intercept)  .          .          .          .        
AgeF1       -0.3325689 -0.3335226 -0.3339580 -0.3340520
AgeF2        0.2496120  0.2544253  0.2559408  0.2567880
AgeF3        0.4079635  0.4197509  0.4236024  0.4255759
SexM         0.1530040  0.1581563  0.1598595  0.1607162
EthN        -0.5275619 -0.5311830 -0.5323936 -0.5329969
LrnSL        0.3336885  0.3428815  0.3459650  0.3474745

সুতরাং শাস্তিযুক্ত রিগ্রেশন মডেলগুলিতে ওডি কী করবে? আপনি জানেন যে, দণ্ডিত মডেলগুলির জন্য আদর্শ ত্রুটিগুলি গণনা করার সঠিক উপায় সম্পর্কে এখনও কিছু বিতর্ক রয়েছে (উদাহরণস্বরূপ, এখানে দেখুন ) এবং glmnetযে কোনও উপায়ে আউটপুট দিচ্ছে না, সম্ভবত সেই কারণেই। এটি খুব ভালভাবেই হতে পারে যে ওডি মডেলটির অনুক্রমের অংশটিকে প্রভাবিত করবে, যেমনটি এটি দন্ডবিহীন ক্ষেত্রে হয় তবে এই ক্ষেত্রে অনুমান সম্পর্কে কিছু sensক্যমত্য না হওয়া পর্যন্ত আমরা জানি না।

একদিকে যেমন, কেউ যদি বায়েশিয়ান দৃষ্টিভঙ্গি গ্রহণ করতে ইচ্ছুক থাকে তবে শাস্তিযুক্ত মডেলগুলি একটি নির্দিষ্ট পূর্বের সাথে কেবলমাত্র আদর্শ মডেল।


@ মোনো, আপনার খুব বিস্তারিত ব্যাখ্যার জন্য আপনাকে ধন্যবাদ! এখানে আমার বোধগম্যতা রয়েছে, এবং দয়া করে আমি ভুল হলে আমাকে সংশোধন করুন: poissonএবং quasipoissonসংবেদনগুলি একই পদ্ধতিতে সহগের অনুমান করে এবং তাদের মধ্যে কী পার্থক্য রয়েছে তা হ'ল তারা কীভাবে স্ট্যান্ডার্ড ত্রুটিগুলি এবং এইভাবে তাত্পর্যটি অনুমান করে। যাইহোক, লাসো পদ্ধতির জন্য, কীভাবে স্ট্যান্ডার্ড ত্রুটিগুলি গণনা করা যায় তা এখনও কোনও sensক্যমতে পৌঁছতে পারে না এবং তাই এর বর্তমান ব্যবহারটি মূলত অনুমানের পরিবর্তে পরিবর্তনশীল নির্বাচনের মধ্যে রয়েছে। যেমন, আমরা glmnetপয়েসন বা কাসিপোইসন ব্যবহার করি তা বিবেচনাধীন নয়, তবে ক্রস-বৈধতাযুক্ত ত্রুটিটি হ্রাস করা উচিত।
সোনিয়া এস

মোনো, অন্য একটি নোট, আমি summary(modqp)নিজেই দৌড়ে এসে দেখি যে এটি ঠিক একই সহগের অনুমান করছে। আমি বিশ্বাস করি যে আপনার উত্তর এই ইস্যুতে আরও বেশি লোককে উপকৃত করবে কারণ আমি কোনও খুঁজে পাইনি, সুতরাং আমি আপনাকে আরও ভাল চিত্রিত উদাহরণের জন্য সংক্ষিপ্তসার (Modqp) আউটপুট যুক্ত করার পরামর্শ দিচ্ছি। আবারও অনেক ধন্যবাদ!
সোনিয়া এস

1
@ সোনায়া আপনার একটি ভাল সংক্ষিপ্তসার। মূলটি হ'ল শর্তসাপেক্ষ গড়ের জন্য পরামিতিগুলি অনুমান করার সময়, পিসন এবং কাসিপোসাইনের জন্য অনুমানের ফাংশনগুলি (স্কোর ফাংশনটি বলুন) একই হয়! সুতরাং এই পরামিতিগুলির জন্য কোনও শাস্তি আছে কিনা যতক্ষণ না এটি একই শাস্তি হিসাবে ততক্ষণ তা বিবেচনা করে না। আমি উপরে এটি আরও স্পষ্ট করা। সংক্ষিপ্তসার (মোডাকু) সম্পর্কিত পয়েন্টারের জন্যও ধন্যবাদ, তবে এটি ইতিমধ্যে রয়েছে, এটি কেবলমাত্র একটি সাধারণ স্ক্রিনে "বক্সড" হয়ে যায়, তাই একজনকে নীচে স্ক্রোল করতে হয়।
মোমো

আমি এখনও আশ্চর্য হয়েছি যে কোয়েস-পইসন স্পেসিফিকেশন না থাকলে পয়সনে কম ভেরিয়েবল সঙ্কুচিত হওয়ার সম্ভাবনা রয়েছে যা আরও সঠিক, এবং সম্ভবত পায়সন মডেলের চেয়ে আরও ভাল ভবিষ্যদ্বাণীমূলক নির্ভুলতার দিকে পরিচালিত করবে কারণ এর নমুনা মডেল আরও সঠিক।
ব্রাশ ভারসাম্য

এই নোটটিতে, এটি আরও হতে পারে যে পন্ডনে বিভ্রান্তির ক্ষেত্রে আরও পরিবর্তনশীল সঙ্কুচিত হওয়ার চেয়ে সঙ্কুচিত হওয়া উচিত (যেমন আপনি যখন 0/1 তথ্যের জন্য আপেক্ষিক ঝুঁকি অনুপাত অনুমান করার জন্য শক্তিশালী পোইসন মডেল ব্যবহার করছেন)।
ব্রাশ ভারসাম্য 16
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.