লজিস্টিক রিগ্রেশন: আনোভা চি-বর্গক্ষেত্র পরীক্ষা বনাম সহগের তাত্পর্য (আনোভা () বনাম সারাংশ () আর)


35

আমার কাছে 8 টি ভেরিয়েবল সহ একটি লজিস্টিক জিএলএম মডেল রয়েছে। আমি আর-তে একটি চি-স্কোয়ার পরীক্ষা চালিয়েছি anova(glm.model,test='Chisq')এবং পরীক্ষাগুলির শীর্ষে অর্ডার দেওয়ার পরে ভেরিয়েবলগুলির 2 টি ভবিষ্যদ্বাণীপূর্ণ হয়ে উঠেছে এবং নীচে অর্ডার দেওয়ার সময় এতটা নয়। summary(glm.model)দাড়ায় যে তাদের কোফিসিয়েন্টস তুচ্ছ (উচ্চ P-মান) হয়। এক্ষেত্রে মনে হয় যে ভেরিয়েবলগুলি উল্লেখযোগ্য নয়।

আমি জিজ্ঞাসা করতে চেয়েছিলাম কোনটি ভেরিয়েবলের তাত্পর্যের আরও ভাল পরীক্ষা - মডেল সংক্ষিপ্তসার বা চি-বর্গ পরীক্ষার সহগ তাত্পর্য anova()। এছাড়াও - হয় অন্য একজনের চেয়ে কখন ভাল হয়?

আমার ধারণা এটি একটি বিস্তৃত প্রশ্ন তবে কী বিবেচনা করবেন সে সম্পর্কে কোনও পয়েন্টার প্রশংসা করবে।


4
রৈখিক মডেলগুলিতে সহগের পরীক্ষা করার জন্য এটি টাইপ আই এবং টাইপ স্কোরের তৃতীয় সমগুলির মধ্যে পার্থক্যের সাথে সাদৃশ্যপূর্ণ। এটি আপনাকে আমার উত্তরটি পড়তে সহায়তা করতে পারে: টাইপ আই সিক্যুয়াল আনোভা এবং মানোভা কীভাবে ব্যাখ্যা করবেন
গুং - মনিকা পুনরায়

উত্তর:


61

@ গুং এর উত্তর ছাড়াও, anovaফাংশনটি আসলে কী পরীক্ষা করে তার একটি উদাহরণ দেওয়ার চেষ্টা করব । আমি আশা করি এটি পরীক্ষা-নিরীক্ষায় আগ্রহী হাইপোথেসির জন্য কোন পরীক্ষাগুলি উপযুক্ত তা সিদ্ধান্ত নিতে সক্ষম করে দেয়।

আসুন অনুমান আপনি একটি ফলাফল আছে এবং 3 predictor ভেরিয়েবল: , , এবং । এখন, যদি আপনার লজিস্টিক রিগ্রেশন মডেলটি হত । আপনি যখন চালান , ক্রিয়াকলাপটি নিম্নলিখিত মডেলগুলির সাথে অনুক্রমিক ক্রমে তুলনা করে:Yএক্স1এক্স2এক্স3my.mod <- glm(y~x1+x2+x3, family="binomial")anova(my.mod, test="Chisq")

  1. glm(y~1, family="binomial") বনাম glm(y~x1, family="binomial")
  2. glm(y~x1, family="binomial") বনাম glm(y~x1+x2, family="binomial")
  3. glm(y~x1+x2, family="binomial") বনাম glm(y~x1+x2+x3, family="binomial")

সুতরাং এটি ক্রমিকভাবে প্রতিটি ধাপে একটি ভেরিয়েবল যুক্ত করে পরবর্তী আরও জটিল মডেলের সাথে ছোট মডেলটির সাথে তুলনা করে। এই তুলনাগুলির প্রতিটি একটি সম্ভাবনা অনুপাত পরীক্ষার (এলআর পরীক্ষা; নীচে উদাহরণ দেখুন) এর মাধ্যমে করা হয়। আমার জ্ঞানের মতে, এই অনুমানগুলি খুব কমই আগ্রহী, তবে এটি আপনাকে সিদ্ধান্ত নিতে হবে।

এখানে একটি উদাহরণ দেওয়া হয়েছে R:

mydata      <- read.csv("https://stats.idre.ucla.edu/stat/data/binary.csv")
mydata$rank <- factor(mydata$rank)

my.mod <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")
summary(my.mod)

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -3.989979   1.139951  -3.500 0.000465 ***
gre          0.002264   0.001094   2.070 0.038465 *  
gpa          0.804038   0.331819   2.423 0.015388 *  
rank2       -0.675443   0.316490  -2.134 0.032829 *  
rank3       -1.340204   0.345306  -3.881 0.000104 ***
rank4       -1.551464   0.417832  -3.713 0.000205 ***
   ---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

# The sequential analysis
anova(my.mod, test="Chisq")

Terms added sequentially (first to last)    

     Df Deviance Resid. Df Resid. Dev  Pr(>Chi)    
NULL                   399     499.98              
gre   1  13.9204       398     486.06 0.0001907 ***
gpa   1   5.7122       397     480.34 0.0168478 *  
rank  3  21.8265       394     458.52 7.088e-05 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

# We can make the comparisons by hand (adding a variable in each step)

  # model only the intercept
mod1 <- glm(admit ~ 1,                data = mydata, family = "binomial") 
  # model with intercept + gre
mod2 <- glm(admit ~ gre,              data = mydata, family = "binomial") 
  # model with intercept + gre + gpa
mod3 <- glm(admit ~ gre + gpa,        data = mydata, family = "binomial") 
  # model containing all variables (full model)
mod4 <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial") 

anova(mod1, mod2, test="LRT")

Model 1: admit ~ 1
Model 2: admit ~ gre
  Resid. Df Resid. Dev Df Deviance  Pr(>Chi)    
1       399     499.98                          
2       398     486.06  1    13.92 0.0001907 ***

anova(mod2, mod3, test="LRT")

Model 1: admit ~ gre
Model 2: admit ~ gre + gpa
  Resid. Df Resid. Dev Df Deviance Pr(>Chi)  
1       398     486.06                       
2       397     480.34  1   5.7122  0.01685 *

anova(mod3, mod4, test="LRT")

Model 1: admit ~ gre + gpa
Model 2: admit ~ gre + gpa + rank
  Resid. Df Resid. Dev Df Deviance  Pr(>Chi)    
1       397     480.34                          
2       394     458.52  3   21.826 7.088e-05 ***

এর আউটপুটে -values হয় Wald, পরীক্ষার নিম্নলিখিত অনুমানের পরীক্ষা (নোট যে তারা বিনিমেয় এবং না ব্যাপার পরীক্ষার অর্ডার ):পিsummary(my.mod)

  • এর সহগের জন্য x1: glm(y~x2+x3, family="binomial")বনাম glm(y~x1+x2+x3, family="binomial")
  • এর সহগের জন্য x2: glm(y~x1+x3, family="binomial")বনামglm(y~x1+x2+x3, family="binomial")
  • এর সহগের জন্য x3: glm(y~x1+x2, family="binomial")বনামglm(y~x1+x2+x3, family="binomial")

সুতরাং সমস্ত সহগ সহ সম্পূর্ণ মডেলের বিপরীতে প্রতিটি সহগ। ওয়াল্ড পরীক্ষাগুলি সম্ভাবনা অনুপাত পরীক্ষার একটি প্রায় অনুমান। আমরা সম্ভাবনা অনুপাতের পরীক্ষা (এলআর পরীক্ষা )ও করতে পারি। এটি এখানে:

mod1.2 <- glm(admit ~ gre + gpa,  data = mydata, family = "binomial")
mod2.2 <- glm(admit ~ gre + rank, data = mydata, family = "binomial")
mod3.2 <- glm(admit ~ gpa + rank, data = mydata, family = "binomial")

anova(mod1.2, my.mod, test="LRT") # joint LR test for rank

Model 1: admit ~ gre + gpa
Model 2: admit ~ gre + gpa + rank
  Resid. Df Resid. Dev Df Deviance  Pr(>Chi)    
1       397     480.34                          
2       394     458.52  3   21.826 7.088e-05 ***

anova(mod2.2, my.mod, test="LRT") # LR test for gpa

Model 1: admit ~ gre + rank
Model 2: admit ~ gre + gpa + rank
  Resid. Df Resid. Dev Df Deviance Pr(>Chi)  
1       395     464.53                       
2       394     458.52  1   6.0143  0.01419 *

anova(mod3.2, my.mod, test="LRT") # LR test for gre

Model 1: admit ~ gpa + rank
Model 2: admit ~ gre + gpa + rank
  Resid. Df Resid. Dev Df Deviance Pr(>Chi)  
1       395     462.88                       
2       394     458.52  1   4.3578  0.03684 *

পিsummary(my.mod)

rankanova(my.mod, test="Chisq")rankanova(mod1.2, my.mod, test="Chisq")পি7,08810-5rank


1
+1, এটি একটি ভাল, ব্যাপক ব্যাখ্যা। 1 ছোট পয়েন্ট: আমি বিশ্বাস করি যে যখন test="Chisq"আপনি সম্ভাবনা অনুপাতের পরীক্ষা চালাচ্ছেন না, আপনার test="LRT"জন্য এটি নির্ধারণ করা দরকার , দেখুন anova.glm
গুং - মনিকা পুনরায়

6
প্রশংসার জন্য ধন্যবাদ test="LRT"এবং test="Chisq"সমার্থক (এটি আপনার লিঙ্ক করা পৃষ্ঠায় এটি বলে)।
COOLSerdash

2
সমস্যা নেই, তবে আমি মনে করি এটি আসলে একটি ভাল পয়েন্ট। test="LRT"এটি তাত্ক্ষণিকভাবে স্পষ্ট যে এটি একটি সম্ভাবনা অনুপাত পরীক্ষা is আমি এটি পরিবর্তন করেছিলাম. ধন্যবাদ।
COOLSerdash

4
+1 আমি এখানে মাত্র এক মাসের মধ্যে আপনার দ্রুত অগ্রগতি এবং একটি সুনির্দিষ্ট, স্পষ্ট ব্যাখ্যা প্রদানের আপনার দক্ষতায় আমি মুগ্ধ। আপনার প্রচেষ্টার জন্য ধন্যবাদ!
হোবার

1
দুর্দান্ত উত্তর। আমি কী জিজ্ঞাসা করতে পারি যে পি-মানগুলি ( 7.088e-05, 0.01419, 00.03684) কীভাবে ব্যাখ্যা করা উচিত?
থিম্প্লিফায়ার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.