জিএলএম-এর কোয়াসি-পোইসনকে নেতিবাচক দ্বিপদী একটি বিশেষ ক্ষেত্রে হিসাবে বিবেচনা করা হয় না কেন?


21

আমি সাধারণ রৈখিক মডেলগুলি গণনার উপাত্তের কয়েকটি সেটের সাথে ফিট করার চেষ্টা করছি যা হয়তো বা অতিরঞ্জিত হতে পারে। এখানে প্রযোজনীয় দুটি বিতরণ হ'ল পোইসন এবং নেগেটিভ বোনোমিয়াল (নেগবিন), ইভি μ এবং বৈকল্পিক সহ

ভীএকটিRপি=μ

ভীএকটিRএনবি=μ+ +μ2θ

যা যথাক্রমে আর ব্যবহার করে glm(..,family=poisson)এবং লাগানো যেতে পারে glm.nb(...)। রয়েছে quasipoissonপরিবার, যা আমার বোঝার একই EV তে এবং ভ্যারিয়েন্স সঙ্গে একটি স্থায়ী পইসন হয়

ভীএকটিRপ্রশ্নঃপি=φμ ,

অর্থ্যাৎ পইসন এবং নেগবিনের মধ্যে কোথাও পড়ে যাওয়া। কাসিপোইসন পরিবারের প্রধান সমস্যাটি হ'ল এর পক্ষে সম্পর্কিত কোনও সম্ভাবনা নেই এবং তাই প্রচুর উপকারী স্ট্যাটিস্টিকাল টেস্ট এবং ফিটের ব্যবস্থা (এআইসি, এলআর এসটেরা) অনুপলব্ধ।

তোমার তুলনা QP এবং Negbin ভেরিয়ানস থাকে, তাহলে আপনি লক্ষ্য হতে পারে আপনি তাদের নির্বাণ দ্বারা সমার্থক পারে । এই যুক্তি অব্যাহত রেখে, আপনি কোয়াসিপিনস বিতরণকে নেগবিনের একটি বিশেষ কেস হিসাবে প্রকাশ করার চেষ্টা করতে পারেন:φ=1+ +μθ

প্রশ্নঃপি(μ,φ)=এনবি(μ,θ=μφ-1) ,

অর্থাত্ একটি নেগবিন যার সাথে রৈখিকভাবে নির্ভর করে । আমি উপরের সূত্র অনুসারে সংখ্যার এলোমেলো ক্রম উত্পন্ন করে এটিকে ফিট করে এই ধারণাটি যাচাই করার চেষ্টা করেছি :θμglm

#fix parameters

phi = 3
a = 1/50
b = 3
x = 1:100

#generating points according to an exp-linear curve
#this way the default log-link recovers the same parameters for comparison

mu = exp(a*x+b) 
y = rnbinom(n = length(mu), mu = mu, size = mu/(phi-1)) #random negbin generator

#fit a generalized linear model y = f(x)  
glmQP = glm(y~x, family=quasipoisson) #quasipoisson
glmNB = glm.nb(y~x) #negative binomial

> glmQP

Call:  glm(formula = y ~ x, family = quasipoisson)

Coefficients:
(Intercept)            x  
    3.11257      0.01854  
(Dispersion parameter for quasipoisson family taken to be 3.613573)

Degrees of Freedom: 99 Total (i.e. Null);  98 Residual
Null Deviance:      2097 
Residual Deviance: 356.8    AIC: NA

> glmNB

Call:  glm.nb(formula = y ~ x, init.theta = 23.36389741, link = log)

Coefficients:
(Intercept)            x  
    3.10182      0.01873  

Degrees of Freedom: 99 Total (i.e. Null);  98 Residual
Null Deviance:      578.1 
Residual Deviance: 107.8    AIC: 824.7

উভয়ই পরামিতিগুলির পুনরুত্পাদন করতে ফিট করে এবং কোয়াশিপিসন ফাইয়ের জন্য একটি 'যুক্তিসঙ্গত' অনুমান দেয় । কাসিপোসাইনের জন্য আমরা এখন একটি এআইসির মানও সংজ্ঞায়িত করতে পারি:φ

df = 3 # three model parameters: a,b, and phi
phi.fit = 3.613573 #fitted phi value copied from summary(glmQP)
mu.fit = glmQP$fitted.values 

#dnbinom = negbin density, log=T returns log probabilities
AIC = 2*df - 2*sum(dnbinom(y, mu=mu.fit, size = mu.fit/(phi.fit - 1), log=T))
> AIC
[1] 819.329

(আমাকে নিজে থেকে i মানটি অনুলিপি করতে হয়েছিল , কারণ আমি এটি বস্তুটিতে এটি পাইনি )φsummary(glmQP)glmQP

যেহেতু এটি ইঙ্গিত দিবে যে কাসিপোসাইসন, আশ্চর্যজনকভাবে, আরও ভাল ফিট; সুতরাং কমপক্ষে এটি করা উচিত যা করে এবং তাই এটি ক্যাসিপোসাইনের এআইসির (এবং এক্সটেনশন দ্বারা, সম্ভাবনা দ্বারা) যুক্তিসঙ্গত সংজ্ঞা হতে পারে। আমি যে বড় প্রশ্নগুলি রেখে এসেছি তা হ'ল A I C Q Pএকজনআমিসিপ্রশ্নঃপি<একজনআমিসিএনবিএকজনআমিসিপ্রশ্নঃপি

  1. এই ধারণাটি কি কোনও অর্থবোধ করে? আমার যাচাই বিজ্ঞপ্তি যুক্তি উপর ভিত্তি করে?
  2. যে কারও কাছে মূল প্রশ্নটি এমন কিছু আবিষ্কার করেছে যা একটি সুপ্রতিষ্ঠিত বিষয় থেকে অনুপস্থিত মনে হচ্ছে: যদি এই ধারণাটি বোঝায়, তবে কেন এটি ইতিমধ্যে বাস্তবায়িত হচ্ছে না glm?

সম্পাদনা: চিত্র যোগ করা হয়েছে

গ্ল্যাম ফিট এবং + -1 সিগমা ব্যান্ড


1
(+1) ক্রস যাচাইকরণে স্বাগতম! এবং একটি দুর্দান্ত প্রশ্নের জন্য আপনাকে ধন্যবাদ (যদিও কোডটিতে কয়েকটি মন্তব্য আপনারা আর ব্যবহার করেন না তাদের পক্ষে ভাল হতে পারে)। আমি মনে করি আপনি এনবি 1 মডেলটি পুনরায় উদ্ভাবন করেছেন (যদিও আমি এখনও এটি বিস্তারিতভাবে অনুসরণ করি নি)। এটিও লক্ষ করুন যে কোনও কোয়েসি-পায়সন বিতরণ নেই - যার কারণেই কোনও সম্ভাবনা বা এআইসি নেই - এটি কেবল ফিটিংয়ের উপায় এবং বৈকল্পিকাকে বোঝায়।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

2
ধন্যবাদ! আমি ইতিমধ্যে কিছু মন্তব্য যুক্ত করেছি, আমি আশা করি যে বিষয়গুলি পরিষ্কার হয়ে যায়। আমি বুঝতে পেরেছি যে কোয়া-পইসন বিতরণ সেপ্টেম্বর অনুযায়ী বিদ্যমান নেই - আমি যা জানার চেষ্টা করছিলাম সে কারণেই এনপি 1 বিতরণটি বিদ্যমান এবং বিবেচ্য নয় যে কিউপির অর্ধ-সমস্যা নেই (আপাত রেজোলিউশনের জন্য অ্যাচিমের উত্তর দেখুন)।
ব্যবহারকারী 28400

1
@Scortchi --- আসলে সেখানে হয় যেমন একটি বন্টন ... যদি , এবং ওয়াই = এক্স , তারপর ওয়াই গড় সঙ্গে সূচকীয় পরিবার μএক্স~POI গুলি(λ)ওয়াই=এক্সওয়াইμ=λμ10,,2,

1
@ গ্লেন_বি: মানুষ কি সত্যিই তাকে আধা-পয়সন বলে? যাই হোক না কেন এটি একটি দুর্দান্ত চিত্রণ - আপনি যখন "কোসিপোসাইসন" মডেল ব্যবহার করেন তখন আপনি সত্যিই সেই বন্টন, বা এনবি 1, বা অন্য কোনওটিকে ধরে নিচ্ছেন না, কেবল গড় এবং প্রকরণের মধ্যে একটি সম্পর্ক যা আপনার গুণাগুণ এবং তাদের স্ট্যান্ডার্ড ত্রুটির অনুমান করে তোলে নমুনা বড় হিসাবে ভাল।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

1
@ স্কোর্টচি এটিই একমাত্র ঘাতক পারিবারিক বিতরণ যা কোয়া-পোইসনের অনুমানগুলিকে সন্তুষ্ট করে, তাই একরকম - উপলক্ষ্যে আমি লোকদের দেখিয়েছি যে অনুভূতিকে বোঝানো এটিই বিতরণ। অবশ্যই লোকেরা যখন এটি ব্যবহার করে তখন তারা কখনই উদ্দেশ্য করে না যে তাদের ডেটা সেই নির্দিষ্ট বিতরণ থেকে আসে - এটি কেবল কীভাবে তার গড় এবং বৈচিত্রের সাথে সম্পর্কিত তার একটি মোটামুটি বর্ণনা হিসাবে অভিযুক্ত। (কিছু বীমা বীমা অ্যাপ্লিকেশনগুলিতে এটি খুব সাধারণ অনুমানের অধীনে বোধগম্য হতে পারে - মোট দাবির ব্যয়, যেখানে দাবির সংখ্যা
পোইসন

উত্তর:


24

কোয়াসি-পোইসন কোনও সম্পূর্ণ সর্বাধিক সম্ভাবনা (এমএল) মডেল নয় তবে কোয়াএস-এমএল মডেল। সহগের অনুমানের জন্য আপনি কেবল পইসন মডেল থেকে অনুমানের ফাংশন (বা স্কোর ফাংশন) ব্যবহার করেন এবং তারপরে অনুমানের জন্য উপযুক্ত স্ট্যান্ডার্ড ত্রুটিগুলি (বা বরং সম্পূর্ণ কোভারিয়েন্স ম্যাট্রিক্স) পাওয়ার জন্য একটি নির্দিষ্ট ভেরিয়েন্স ফাংশন নিয়োগ করেন। তাই, glm()সরবরাহ এবং না logLik()বা AIC()এখানে ইত্যাদি

sizeθআমিμআমি

যদি কোন regressors (শুধু একটি পথিমধ্যে) NB1 parametrization এবং NB2 parametrization দ্বারা নিযুক্ত হয় MASSএর glm.nb()কাকতালীয়ভাবে। রেজিস্ট্রারদের সাথে তারা পৃথক হয়। পরিসংখ্যানের সাহিত্যে NB2 প্যারামিট্রাইজেশন প্রায়শই ব্যবহৃত হয় তবে কিছু সফ্টওয়্যার প্যাকেজগুলি NB1 সংস্করণও দেয়। উদাহরণস্বরূপ আরে, আপনি gamlssপ্যাকেজটি ব্যবহার করতে পারেন gamlss(y ~ x, family = NBII)। লক্ষ্য করুন কিছুটা confusingly gamlssব্যবহার NBINB2 parametrization এবং NBIINB1 জন্য। (তবে জার্গন এবং পরিভাষা সমস্ত সম্প্রদায় জুড়েই একীভূত নয়))

তারপরে আপনি জিজ্ঞাসা করতে পারেন, অবশ্যই, যদি এনবি 1 উপলব্ধ থাকে তবে কেন কোয়াসি-পোইসন ব্যবহার করবেন? এখনও একটি সূক্ষ্ম পার্থক্য আছে: প্রাক্তনগুলি আধা-এমএল ব্যবহার করে এবং স্কোয়ারড ডিভ্যান্স (বা পিয়ারসন) অবশিষ্টাংশগুলি থেকে বিচ্ছুরণের কাছ থেকে অনুমানটি গ্রহণ করে। পরেরটি পুরো এমএল ব্যবহার করে। অনুশীলনে, পার্থক্যটি প্রায়শই বড় হয় না তবে দুটি মডেল ব্যবহারের জন্য প্রেরণাগুলি কিছুটা আলাদা।


1
ধন্যবাদ! খুব সহায়ক উত্তর, আমি gamlssএখনই পরীক্ষা নিরীক্ষা করছি এবং দেখে মনে হচ্ছে এটি ঠিক আমার যা প্রয়োজন। পূর্ণ এমএল এর বিপরীতে অর্ধ-সম্ভাবনা ব্যবহারের অনুপ্রেরণাগুলি কী আপনি ব্যাখ্যা করতে পারেন?
ব্যবহারকারী 28400

2
আপনি কম ধরে নিলেন: আপনি কেবল (1) প্রত্যাশা এবং রেজিস্ট্রারদের মধ্যে লগ-লিনিয়ার সম্পর্ক (2) বৈকল্পিকতা এবং প্রত্যাশার মধ্যে লিনিয়ার সম্পর্ককে ধরে নিবেন। বাকি সম্ভাবনা সম্পূর্ণরূপে অনির্ধারিত ছেড়ে যায়। (২) এর বিকল্প হিসাবে, অনুশীলনকারীরা কখনও কখনও তথাকথিত "মজবুত" স্যান্ডউইচ স্ট্যান্ডার্ড ত্রুটিগুলি নিয়োগ করেন যা আরও সাধারণ হেটেরোস্কেস্টাস্টিটির নিদর্শনগুলির জন্য মঞ্জুরি দেয়। অবশ্যই, কেউ স্যান্ডউইচ স্ট্যান্ডার্ড ত্রুটিযুক্ত NB1 নিয়োগ করতে পারে ... আরও কয়েকটি মন্তব্য আমাদের মধ্যে রয়েছে vignette("countreg", package = "pscl")
আছিম জাইলিস
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.