লজিস্টিক রিগ্রেশন: একটি স্যাচুরেটেড মডেল কীভাবে পাবেন


17

আমি কেবল লজিস্টিক রিগ্রেশনের জন্য বিচ্যুতি পরিমাপ সম্পর্কে পড়েছি। তবে যে অংশটিকে স্যাচুরেটেড মডেল বলা হয় তা আমার কাছে পরিষ্কার নয়।

আমি একটি বিস্তৃত গুগল অনুসন্ধান করেছি তবে ফলাফলগুলির কোনওোটাই আমার প্রশ্নের উত্তর দেয় না। আমি এখনও অবধি খুঁজে পেয়েছি যে একটি স্যাচুরেটেড মডেলটির প্রতিটি পর্যবেক্ষণের জন্য একটি প্যারামিটার থাকে যার ফলস্বরূপ নিখুঁত ফিট হয়। এটি আমার কাছে স্পষ্ট। তবে: আরও লাগানো মানগুলি (একটি স্যাচুরেটেড মডেলের) পর্যবেক্ষণকৃত মানগুলির সমান।

যেহেতু আমার জ্ঞান থেকে, লজিস্টিক প্রত্যাবৃত্তি শ্রেণীবিভাগ জন্য ব্যবহার করা হয় দেওয়া পর্যবেক্ষিত তথ্য অতিরিক্ত লেবেল সহ covariates হয় । যাইহোক, বিচ্যুতি পরিমাপ সম্ভাব্যতা নিয়োগ করে তবে প্রকৃত লেবেলগুলিতে নয়। এক পর্যবেক্ষিত সম্ভাবনার বিপরীতে লজিস্টিক রিগ্রেশন গণনার পূর্বাভাসের সম্ভাব্যতা প্রয়োগ করে। তবে, যেহেতু একজন সম্ভাবনার পরিবর্তে কেবলমাত্র লেবেল দিয়েছেন আমি বিভ্রান্ত হয়েছি কীভাবে এই লেবেলগুলি থেকে একটি স্যাচুরেটেড মডেল তৈরি করব?Y{0,1}

উত্তর:


17

YআমিYআমি1-2লগ(1/1)=00

y = c(1,1,1,0,0,0)
a <- factor(1:length(y)) 
fit <- glm(y~a,family=binomial) 
summary(fit)

Deviance Residuals: 
 0  0  0  0  0  0

Null deviance: 8.3178e+00  on 5  degrees of freedom

Residual deviance: 2.5720e-10  on 0  degrees of freedom

এনএন(এন-1)

> k2
 [1] 1 2 3 4 5 6 1 2 3 4 5 6
Levels: 1 2 3 4 5 6
> y2
 [1] 1 1 1 0 0 0 1 1 1 0 0 0
> fit3 = glm(y2 ~ k2, family = binomial)
> summary(fit3)    

    Null deviance: 1.6636e+01  on 11  degrees of freedom
    Residual deviance: 5.1440e-10  on  6  degrees of freedom

প্রকৃতপক্ষে, দেখা যাচ্ছে যে আর এর মধ্যে স্যাচুরেটেড মডেলটি ইনপুট ফর্মের উপর নির্ভর করে এমনকি তথ্যগুলি একই রকম হয়, যা খুব সুন্দর নয়। বিশেষত, উপরোক্ত উদাহরণে 12 টি পর্যবেক্ষণ এবং 6 টি ফ্যাক্টরের স্তর রয়েছে, সুতরাং স্যাচুরেটেড মডেলটির 12 টি নয়, 6 টি পরামিতি হওয়া উচিত ছিল In স্বতন্ত্র covariate নিদর্শন। আর কোডটি "স্বীকৃত" কেন জানি না যে ফ্যাক্টর কে 2 এর 6 টি স্বতন্ত্র স্তর রয়েছে, এবং তবুও স্যাচুরেটেড মডেলটি 12 টি পরামিতিগুলির সাথে লাগানো হয়েছিল।

এখন, আমরা যদি "দ্বিপদী" আকারে ঠিক একই তথ্য ব্যবহার করি, আমরা একটি সঠিক উত্তর পাব:

y_yes = 2 * c(1,1,1,0,0,0)
y_no = 2 * c(0,0,0,1,1,1)
x = factor(c(1:6))

> x
[1] 1 2 3 4 5 6
Levels: 1 2 3 4 5 6
> y_yes
[1] 2 2 2 0 0 0
> y_no
[1] 0 0 0 2 2 2

modelBinomialForm = glm(cbind(y_yes, y_no) ~ x, family=binomial)

Deviance Residuals: 
[1]  0  0  0  0  0  0

Coefficients:
              Estimate Std. Error z value Pr(>|z|)
(Intercept)  2.490e+01  1.096e+05       0        1
x2           1.375e-08  1.550e+05       0        1
x3           1.355e-08  1.550e+05       0        1
x4          -4.980e+01  1.550e+05       0        1
x5          -4.980e+01  1.550e+05       0        1
x6          -4.980e+01  1.550e+05       0        1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1.6636e+01  on 5  degrees of freedom
Residual deviance: 3.6749e-10  on 0  degrees of freedom

এখন আমরা দেখতে পাচ্ছি যে স্যাচুরেটেড মডেলের 6 টি প্যারামিটার রয়েছে এবং এটি লাগানো মডেলের সাথে মিলে যায়। সুতরাং, নাল বিচ্যুতি চালু রয়েছে (6 - 1) = 5 ডিএফ, এবং অবশিষ্ট ডিভিয়েশন চালু রয়েছে (6-6) = 0 ডিএফ।


Yআমি00
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.