সি এর লজিস্টিক রিগ্রেশন থেকে সিউডো-


46

আর-তে লজিস্টিক রিগ্রেশন সম্পর্কিত ক্রিস্টোফার ম্যানিংয়ের রচনাটি আর-তে একটি লজিস্টিক রিগ্রেশনটি দেখায়:

ced.logr <- glm(ced.del ~ cat + follows + factor(class), 
  family=binomial)

কিছু আউটপুট:

> summary(ced.logr)
Call:
glm(formula = ced.del ~ cat + follows + factor(class),
    family = binomial("logit"))
Deviance Residuals:
Min            1Q    Median       3Q      Max
-3.24384 -1.34325   0.04954  1.01488  6.40094

Coefficients:
              Estimate Std. Error z value Pr(>|z|)
(Intercept)   -1.31827    0.12221 -10.787 < 2e-16
catd          -0.16931    0.10032  -1.688 0.091459
catm           0.17858    0.08952   1.995 0.046053
catn           0.66672    0.09651   6.908 4.91e-12
catv          -0.76754    0.21844  -3.514 0.000442
followsP       0.95255    0.07400  12.872 < 2e-16
followsV       0.53408    0.05660   9.436 < 2e-16
factor(class)2 1.27045    0.10320  12.310 < 2e-16
factor(class)3 1.04805    0.10355  10.122 < 2e-16
factor(class)4 1.37425    0.10155  13.532 < 2e-16
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 958.66 on 51 degrees of freedom
Residual deviance: 198.63 on 42 degrees of freedom
AIC: 446.10
Number of Fisher Scoring iterations: 4

তারপরে তিনি সহগের ব্যাখ্যা কীভাবে করতে পারেন, বিভিন্ন মডেলের তুলনা করতে পারেন ইত্যাদি সম্পর্কে কিছু বিশদে যান। বেশ কার্যকর।

যাইহোক, মডেলটির কতটা বৈকল্পিকতা রয়েছে? লজিস্টিক রিগ্রেশন সম্পর্কিত একটি স্টাটা পৃষ্ঠা বলে:

প্রযুক্তিগতভাবে, ওলএস রিগ্রেশন-এর মতো লজিস্টিক রিগ্রেশনে একইভাবে গণনা করা যায় না। ছদ্ম- , লজিস্টিক রিগ্রেশন-এ as হিসাবে সংজ্ঞায়িত করা হয়েছে , যেখানে "ধ্রুবক মাত্র" মডেলের লগ সম্ভাবনা উপস্থাপন করে এবং সম্পূর্ণ মডেলের লগ হওয়ার সম্ভাবনা রয়েছে ধ্রুবক এবং ভবিষ্যদ্বাণীকারী।আর 2 1 - এল 1R2R2 এল0এল11L1L0L0L1

আমি এটি উচ্চ স্তরে বুঝতে পারি। ধ্রুব-কেবলমাত্র মডেল কোনও পরামিতি ছাড়াই (কেবলমাত্র বিরতি শর্ত) থাকবে। লগ সম্ভাবনা হ'ল প্যারামিটারগুলি কতটা ঘনিষ্ঠভাবে ডেটা ফিট করে তার একটি পরিমাপ। প্রকৃতপক্ষে, ম্যানিংয়ের সাজানোর ইঙ্গিতগুলি যে বিচ্যুতি হতে পারে । সম্ভবত নাল বিচ্যুতিটি কেবল ধ্রুবক এবং অবশিষ্ট অবলম্বন -মডেলের ? তবে আমি এতে স্ফটিক পরিষ্কার করছি না।- 2 লগ এল2logL2logL

এই উদাহরণটি ব্যবহার করে কেউ কীভাবে সি এর সিউডো- ? প্রকৃতভাবে গণনা করতে পারে ?R2


5
সাধারণত দুর্দান্ত ইউসিএলএ পরিসংখ্যানগত কম্পিউটিং পৃষ্ঠাগুলি এখানে একটি বিরল ত্রুটি করেছে জন্য অভিব্যক্তিটির কোনও বন্ধনী হওয়া উচিত নয় , অর্থাত এটি হওয়া উচিত । (আমি বিছানার দিকে যাচ্ছি বলে আপনার প্রশ্নের উত্তর না দেওয়ার জন্য দুঃখিত - আমি নিশ্চিত যে আমি যথেষ্ট জাগ্রত হওয়ার আগেই অন্য কেউ উত্তর দিয়েছিল)) 1 - এল 1 / এল 0R21L1/L0
onestop


3
এই পৃষ্ঠাটি বেশ কয়েকটি সিউডো-আর ^ 2 এস নিয়ে আলোচনা করেছে।
dfrankow

2
দ্রষ্টব্য: সম্পর্কিত প্রশ্নটি কোনও ছদ্ম-আর ^ 2 গুলি পছন্দ করে না তবে ক্রস-বৈধকরণ বা হোল্ডআউট পরীক্ষার পূর্বাভাস পছন্দ করে।
dfrankow

উত্তর:


49

ফ্র্যাঙ্ক হ্যারেলের দ্বারা আরএমএস প্যাকেজটি ভুলে যাবেন না । GLM গুলি ফিটিং এবং যাচাই করার জন্য আপনার প্রয়োজনীয় সমস্ত জিনিস আপনি খুঁজে পাবেন।

এখানে খেলনার উদাহরণ (কেবলমাত্র একজন ভবিষ্যদ্বাণী সহ):

set.seed(101)
n <- 200
x <- rnorm(n)
a <- 1
b <- -2
p <- exp(a+b*x)/(1+exp(a+b*x))
y <- factor(ifelse(runif(n)<p, 1, 0), levels=0:1)
mod1 <- glm(y ~ x, family=binomial)
summary(mod1)

এই ফলন:

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)   0.8959     0.1969    4.55 5.36e-06 ***
x            -1.8720     0.2807   -6.67 2.56e-11 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 258.98  on 199  degrees of freedom
Residual deviance: 181.02  on 198  degrees of freedom
AIC: 185.02

এখন, lrmফাংশনটি ব্যবহার করে ,

require(rms)
mod1b <- lrm(y ~ x)

খুব শীঘ্রই আপনি মডেল হইয়া সূচকের, Nagelkerke সহ অনেক পাওয়া সঙ্গে :R2print(mod1b)

Logistic Regression Model

lrm(formula = y ~ x)

                      Model Likelihood     Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       

Obs           200    LR chi2      77.96    R2       0.445    C       0.852    
 0             70    d.f.             1    g        2.054    Dxy     0.705    
 1            130    Pr(> chi2) <0.0001    gr       7.801    gamma   0.705    
max |deriv| 2e-08                          gp       0.319    tau-a   0.322    
                                           Brier    0.150                     


          Coef    S.E.   Wald Z Pr(>|Z|)
Intercept  0.8959 0.1969  4.55  <0.0001 
x         -1.8720 0.2807 -6.67  <0.0001 

এখানে, এবং এটি হিসাবে গণনা করা হয় , যেখানে এলআর হ'ল স্ট্যাট (আপনার বর্ণিত দুটি নেস্টেড মডেলের তুলনা), অন্যদিকে ডিনমিনেটর এর সর্বাধিক মান । নিখুঁত মডেলের জন্য আমরা আশা করব , এটি ।( 1 - Exp ( - এল আর / এন ) ) / ( 1 - Exp ( - ( - 2 এল 0 ) / এন ) ) χ 2 আর 2 এলআর = 2 এল 0 আর 2 = 1R2=0.445(1exp(LR/n))/(1exp((2L0)/n))χ2R2LR=2L0R2=1

হাতের দ্বারা,

> mod0 <- update(mod1, .~.-x)
> lr.stat <- lrtest(mod0, mod1)
> (1-exp(-as.numeric(lr.stat$stats[1])/n))/(1-exp(2*as.numeric(logLik(mod0)/n)))
[1] 0.4445742
> mod1b$stats["R2"]
       R2 
0.4445742 

ইওয়াউট ডব্লিউ স্টায়ারবার্গ তাঁর ক্লিনিকাল প্রেডিকশন মডেলস (স্প্রিংগার, ২০০৯, § ৪.২.২ পৃষ্ঠা পৃষ্ঠা 58৮-60০) গ্রন্থে জিএলএম এর সাথে ব্যবহারের বিষয়ে আলোচনা করেছেন । মূলত, এলআর পরিসংখ্যান এবং নাগেলকার্কের এর মধ্যে সম্পর্কটি প্রায় লিনিয়ার (এটি কম ঘটনার সাথে আরও লিনিয়ার হবে)। এখন, আমি আমার মন্তব্যে লিঙ্কযুক্ত পূর্ববর্তী থ্রেডের উপর আলোচনা করা হিসাবে, আপনি অন্যান্য পরিসংখ্যানগুলির মতো স্ট্যাটিস্টিক ব্যবহার করতে পারেন যা এওসি পরিসংখ্যানের সমতুল্য (উপরের রেফারেন্সটিতে একটি সুন্দর চিত্রও রয়েছে, চিত্র ৪.6 দেখুন)।আর 2R2R2c


আপনি কীভাবে ব্যাখ্যা করতে পারেন দয়া করে .445? আমি 1-এক্সপ্রেস (-77.96 / 200) ব্যবহার করেছি তবে আমি .323 পেয়েছি। আমি কী ভুল করছি? ধন্যবাদ।

2
কোনটি নাগেলকার্কে আর 2?
জেটল্যাগ

1
@ জেটল্যাগ বৈষম্য সূচকের আওতায় নাগেল্কারকে সংক্ষেপে আর 2 (যেমন 0.445) বলা হয়। আপনি প্যাকেজ fmsb থেকে NagelkerkeR2 () ফাংশনটি ব্যবহার করে এটি পরীক্ষা করতে পারেন।
চেরনফ

11

লাগানো মডেলের জন্য সহজেই ম্যাকফ্যাডেনের সিউডো পেতে সাইমন জ্যাকম্যানের "পিএসসিএল" প্যাকেজটি ব্যবহার করুন এবং পিআর 2 কমান্ডটি ব্যবহার করুন। http://cran.r-project.org/web/packages/pscl/index.htmlR2


7

সিউডো-R2 গণনার সাথে সতর্ক থাকুন :

ম্যাকফ্যাডেনের সিউডো- গণনা করা হয় , যেখানে হ'ল সম্পূর্ণ মডেলের লগ-সম্ভাবনা এবং only কেবলমাত্র বাধা ছাড়া মডেলের লগ-সম্ভাবনা।R2RM2=1lnL^fulllnL^nulllnL^fulllnL^full

সিউডো- গণনা করার জন্য দুটি পদ্ধতির :R2

  1. ব্যবহার করুন: যেহেতু ,deviance=2ln(Lfull)null.deviance=2ln(Lnull)

    pR2 = 1 - mod$deviance / mod$null.deviance # works for glm

তবে উপরোক্ত পদ্ধতিটি সিউডো -2-এর বাইরে-নমুনার জন্য কাজ করে নাR2

  1. আর এবং সংজ্ঞায় "লগলিক" ফাংশনটি ব্যবহার করুন (ইন-নমুনার জন্যও কাজ করে)

    mod_null <- glm(y~1, family = binomial, data = insample) 1- logLik(mod)/logLik(mod_null)

এইটিকে সামান্য আউট-অফ-স্যাম্পল সিউডো গণনা করার জন্য পরিবর্তন করা যেতে পারেR2

উদাহরণ:

নমুনা ছদ্ম-আর

সাধারণত, নমুনা - গণনা করা হয় যেখানে হয় নমুনা ইন-স্যাম্পল পিরিয়ডের আনুমানিক সহগগুলির উপর ভিত্তি করে স্যাম্পল-আউট-অফ-স্যাম্পল পিরিয়ডের লগ হওয়ার সম্ভাবনা, এবং হ'ল-স্যাম্পল-এর ​​বাইরে-কেবলমাত্র মডেলের জন্য লগ সম্ভাবনা।R2

Rp2=1Lest.outLnull.out,
Lest.outLnull.out

সঙ্কেত সমূহঃ

pred.out.link <- predict(mod, outSample, type = "link") mod.out.null <- gam(Default~1, family = binomial, data = outSample) pR2.out <- 1 - sum(outSample$y * pred.out.link - log(1 + exp(pred.out.link))) / logLik(mod.out.null)


deviance=2ln(Lfull) ধরে রাখে না, কেবল দেখুন model1 <- glm(cbind(ncases, ncontrols) ~ agegp + tobgp * alcgp, data = esoph, family = binomial)এবং কল করুন model1$devianceএবং -2*logLik(model1)
কৌতুহল

6

যদি ডেভিয়েশন লগ হওয়ার সম্ভাবনা সমানুপাতিক হয় এবং একটি সংজ্ঞা ব্যবহার করে (উদাহরণস্বরূপ ম্যাকফ্যাডেন এখানে দেখুন )

pseudo R^2 = 1 - L(model) / L(intercept)

তারপরে সিউডো- হবে = 0.7928R21198.63958.66

প্রশ্নটি: লভেন্সের সম্ভাবনা আনুপাতিকভাবে রিপোর্ট করা হয়?


3
এই সিউডো-আর ^ 2 @ chl এর উত্তরের নাগেলকার্কে আর ^ 2 এর সাথে মোটেও একমত নয়।
dfrankow

আমি স্কুলে থাকাকালীন ডিভায়েন্সকে -২ * এলএল সংজ্ঞায়িত করা হয়েছিল।
ডিওয়িন

@ ডিফ্র্যাঙ্কো এটি একমত নয়, কারণ নাগেল্কার্কি কক্স এবং স্নেল আর 2 এর একটি নরমালাইজেশন, যা ম্যাকফ্যাডেন্স আর 2-এর চেয়ে পৃথক।
কলিন

0

তাহলে তার নমুনা থেকে বের হয়, তাহলে আমি বিশ্বাস করি যেমন অনুযায়ী লগ-likelihoods সঙ্গে নির্ণিত করা আবশ্যক , যেখানে হয় ভবিষ্যদ্বাণীমূলক মডেলটির সাথে পরীক্ষামূলক তথ্যের লগ-সম্ভাবনা প্রশিক্ষণ সেটটিতে ক্যালিব্রেট করা হয় এবং হ'ল প্রশিক্ষণের সেটে পরীক্ষার ডেটা লগ হওয়ার সম্ভাবনা এবং তারপরে লাগানো ব্যবহার সম্ভাব্যতাগুলি গণনা করে টেস্টিং সেটটি সম্পর্কে ভবিষ্যদ্বাণী করা অবিচ্ছিন্ন এবং লগ-সম্ভাবনা পান।R2R2=1llfullllconstantllfullllconstant

মনে রাখবেন যে একটি লিনিয়ার রিগ্রেশন-এ সমান, নমুনা মধ্যে as হিসাবে গণনা করা হয় , যেখানে বিশেষত আমরা যদি ডিনোমিনেটর পদটি , পূর্বাভাষ ট্রেনিং সেট উপর গড়, ব্যবহার । এটির মতো যদি আমরা প্রশিক্ষণের ডেটাতে কেবল একটি ধ্রুবক দিয়ে ফিট করি তবে আমাদের হ্রাস করতে হবে , যার ফলস্বরূপ , তারপরে, এই সরল ধ্রুবক ভবিষ্যদ্বাণীপূর্ণ মডেলটি বেঞ্চহ্যাম্ক হিসাবে ব্যবহৃত হয় (অর্থাত্ oos den 2 এর বিভাজনে)R2R2=1i(yiy^i)2i(yiy¯train)2i(yiy¯train)2y¯traini(yiβ0)2 β 0= ¯ y trainR2Rβ^0=y¯trainR2টার্ম) নমুনা এর বাইরে গণনার জন্য ।R2

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.