একটি লজিস্টিক রিগ্রেশন জন্য আত্মবিশ্বাসের অন্তর গণনা করা


15

আমি কোনও দ্বিপদী লজিস্টিক রিগ্রেশন ব্যবহার করছি ব্যবহারকারী যদি কোনও কিছুর উপর ক্লিক করে তার সম্ভাব্যতার সংস্পর্শে has_xবা has_yপ্রভাবিত করে তবে তা চিহ্নিত করতে। আমার মডেলটি নিম্নলিখিত:

fit = glm(formula = has_clicked ~ has_x + has_y, 
          data=df, 
          family = binomial())

এটি আমার মডেল থেকে আউটপুট:

Call:
glm(formula = has_clicked ~ has_x + has_y, 
    family = binomial(), data = active_domains)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-0.9869  -0.9719  -0.9500   1.3979   1.4233  

Coefficients:
                      Estimate Std. Error z value Pr(>|z|)    
(Intercept)          -0.504737   0.008847 -57.050  < 2e-16 ***
has_xTRUE -0.056986   0.010201  -5.586 2.32e-08 ***
has_yTRUE  0.038579   0.010202   3.781 0.000156 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 217119  on 164182  degrees of freedom
Residual deviance: 217074  on 164180  degrees of freedom
AIC: 217080

Number of Fisher Scoring iterations: 4

প্রতিটি সহগ তাত্পর্যপূর্ণ হিসাবে, এই মডেলটি ব্যবহার করে আমি নীচের পদ্ধতির ব্যবহার করে এই সংমিশ্রণের কোনওটির মূল্য কী তা বলতে সক্ষম হয়েছি:

predict(fit, data.frame(has_x = T, has_y=T), type = "response")

আমি বুঝতে পারছি না আমি কীভাবে স্ট্যান্ডার্ডে রিপোর্ট করতে পারি। ভবিষ্যদ্বাণী ত্রুটি।

  1. আমার কি কেবল ব্যবহার করা দরকার ? বা এখানে বর্ণিত পদ্ধতির সাহায্যে আমার রূপান্তর করতে হবে ?এস 1.96SESE

  2. আমি যদি উভয় ভেরিয়েবলের জন্য স্ট্যান্ডার্ড-ত্রুটি বুঝতে চাই তবে আমি কীভাবে এটি বিবেচনা করব?

এই প্রশ্নের বিপরীতে , আমি বুঝতে পারছি যে ত্রুটির উপরের এবং নীচের সীমাটি শতাংশে কী তা বোঝার জন্য। উদাহরণস্বরূপ, আমার পূর্বাভাসের 37% এর মান দেখায় True,Trueআমি গণনা করতে পারি যে এটি জন্য ? (0.3% আমার বক্তব্য চিত্রিত করতে বেছে নেওয়া হয়েছে)95 % সি আই+/0.395%CI




@ কেজেটিভালভর্সেন আপনি কি নিশ্চিত যে এটি অনুলিপি হিসাবে দেখা যায় যে ওপি অনুমানের ব্যবধান চায় তবে লগ স্কেলের পরিবর্তে ওআর স্কেলে কাজ করছে যা সমস্যার মূল হতে পারে?
mdewey

2
আপনি যদি লজিস্টিক রিগ্রেশন কতটা ভাল ভবিষ্যদ্বাণী করে তা মূল্যায়ন করতে চান তবে একজন সাধারণত পূর্বাভাস + এস এর থেকে আলাদা ব্যবস্থা গ্রহণ করেন। একটি জনপ্রিয় মূল্যায়ন পরিমাপটি সম্পর্কিত আরওসি-র সাথে আরওসি-কার্ভ
অ্যাডিবেন্ডার

1
এটি কি কোনও উপকারে আসতে পারে? স্ট্যাকওভারফ্লো
প্রশ্নগুলি / 74৪৪৪৪৪৪৪২/২

উত্তর:


24

আপনার প্রশ্নটি এই বাস্তবতা থেকে আসতে পারে যে আপনি প্রথমে বিভ্রান্তিকর সংঘাত এবং সম্ভাবনাগুলি নিয়ে কাজ করছেন। যেহেতু লজিস্টিক মডেলটি একটি অ-রৈখিক রূপান্তর হিসাবে আত্মবিশ্বাসের অন্তরগুলি গণনা করে তত সরল নয়।βTx

পটভূমি

লজিস্টিক রিগ্রেশন মডেলের জন্য এটি মনে করুন

  • সম্ভাব্যতা এর :(Y=1)p=eα+β1x1+β2x21+eα+β1x1+β2x2

  • অডস এর :(Y=1)(p1p)=eα+β1x1+β2x2

  • লগিন অডস এর :(Y=1)log(p1p)=α+β1x1+β2x2

আপনি যে পরিবর্তনশীল , অর্থাৎ এক ইউনিট বৃদ্ধি পেয়েছেন তা বিবেচনা করুন , তারপরে নতুন প্রতিকূলতা রয়েছেx1x1+1

Odds(Y=1)=eα+β1(x1+1)+β2x2=eα+β1x1+β1+β2x2
  • বিজোড় অনুপাত (ওআর) সুতরাং

Odds(x1+1)Odds(x1)=eα+β1(x1+1)+β2x2eα+β1x1+β2x2=eβ1
  • লগ অডস অনুপাত = β1

  • eα+β1x1+β1+β2x21+eα+β1x1+β1+β2x2eα+β1x1+β2x21+eα+β1x1+β2x2

গুণফলের ব্যাখ্যা করা

βj

  • xjβj
  • xjeβj
  • xjkk+ΔeβjΔ
  • xj

βj

1.96SE

βj

βj±zSE(βj)

eβj±zSE(βj)

যা প্রতিকূলতার অনুপাতের উপর একটি আস্থার ব্যবধান। মনে রাখবেন যে এই অন্তরগুলি কেবলমাত্র একক প্যারামিটারের জন্য।

আমি যদি উভয় ভেরিয়েবলের জন্য স্ট্যান্ডার্ড-ত্রুটি বুঝতে চাই তবে আমি কীভাবে এটি বিবেচনা করব?

আপনি যদি কয়েকটি প্যারামিটার অন্তর্ভুক্ত করেন তবে আপনি বনফেরোনি পদ্ধতিটি ব্যবহার করতে পারেন, অন্যথায় সমস্ত পরামিতিগুলির জন্য আপনি সম্ভাবনার অনুমানের জন্য আত্মবিশ্বাসের ব্যবধানটি ব্যবহার করতে পারেন

বিভিন্ন পরামিতি জন্য Bonferroni পদ্ধতি

g1α

βg±z(1α2g)SE(βg)

সম্ভাবনা অনুমানের জন্য আস্থা অন্তর

pPr(pLppU)=.95

এন্ডপয়েন্ট পয়েন্ট ট্রান্সফর্মেশন নামে পরিচিত একটি পদ্ধতি নিম্নলিখিতগুলি করে:

  • xTβ
  • F(xTβ)

Pr(xTβ)=F(xTβ)xTβ

[Pr(xTβ)LPr(xTβ)Pr(xTβ)U]=[F(xTβ)LF(xTβ)F(xTβ)U]

βTx±zSE(βTx)

[exTβzSE(xTβ)1+exTβzSE(xTβ),exTβ+zSE(xTβ)1+exTβ+zSE(xTβ),]

xTβ

Var(xTβ)=xTΣx

(0,1)

পাশাপাশি ডেল্টা পদ্ধতি, বুটস্ট্র্যাপিং ইত্যাদি ব্যবহার করে আরও কয়েকটি পন্থা রয়েছে যা প্রত্যেকটির নিজস্ব ধারণা, সুবিধা এবং সীমা রয়েছে।


উত্স এবং তথ্য

এই বিষয়ে আমার প্রিয় বইটি হ'ল "প্রয়োগিত লিনিয়ার পরিসংখ্যানের মডেলগুলি" কুতনার, নেটার, লি, অধ্যায় 14

অন্যথায় এখানে কয়েকটি অনলাইন উত্স রয়েছে:


এর বেশিরভাগটি সহগের জন্য সিআই সম্পর্কে যা ওপি সম্পর্কে জানার জন্য একটি সূক্ষ্ম জিনিস তবে আমরা কি নিশ্চিত যে এটি তার প্রয়োজন? আপনার পরে বিভাগটি আমার কাছে আরও প্রাসঙ্গিক বলে মনে হচ্ছে তবে খুব দ্রুত পড়লে পার্থক্যগুলি মিস হয়ে যেতে পারে?
mdewey

2
হ্যাঁ আপনি সম্ভবত সঠিক - তবে লগ প্রতিক্রিয়াটির পক্ষে প্রতিকূলতা, লগের প্রতিক্রিয়া এবং সম্ভাবনাগুলি বোঝা এমন একটি বিষয় যা আমি অতীতে লড়াই করেছিলাম - আমি আশা করি এই পোস্টটি বিষয়টির যথেষ্ট সংক্ষিপ্তসার দিয়েছে যাতে এটি ভবিষ্যতে কাউকে সহায়তা করতে পারে। সম্ভবত আমি সিআই সরবরাহ করে আরও স্পষ্টভাবে প্রশ্নের উত্তর দিতে পারতাম তবে আমাদের দরকার হবে কোভেরিয়েন্স ম্যাট্রিক্স
জাভিয়ের বুরেট সিকোট

5

পূর্বাভাসের 95% আত্মবিশ্বাসের ব্যবধান পেতে আপনি লগইট স্কেলে গণনা করতে পারেন এবং তারপরে সেগুলিকে 0-1-এ সম্ভাব্যতার স্কেলে রূপান্তর করতে পারেন। টাইটানিক ডেটাসেট ব্যবহার করে এখানে একটি উদাহরণ দেওয়া হল।

library(titanic)
data("titanic_train")

titanic_train$Pclass = factor(titanic_train$Pclass, levels = c(1,2,3), labels = c('First','Second','Third'))

fit = glm(Survived ~ Sex + Pclass, data=titanic_train, family = binomial())

inverse_logit = function(x){
  exp(x)/(1+exp(x))
}

predicted = predict(fit, data.frame(Sex='male', Pclass='First'), type='link', se.fit=TRUE)

se_high = inverse_logit(predicted$fit + (predicted$se.fit*1.96))
se_low = inverse_logit(predicted$fit - (predicted$se.fit*1.96))
expected = inverse_logit(predicted$fit)

গড় এবং নিম্ন / উচ্চ 95% সিআই।

> expected
        1 
0.4146556 
> se_high
        1 
0.4960988 
> se_low
        1 
0.3376243 

এবং কেবল ব্যবহার থেকে আউটপুট type='response', যা কেবল অর্থ দেয়

predict(fit, data.frame(Sex='male', Pclass='First'), type='response')
        1 
0.4146556

predict(fit, data.frame(Sex='male', Pclass='First'), type='response', se.fit=TRUE)কাজ করবে.
টনি 416
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.