একাধিক ভবিষ্যদ্বাণী নিয়ে একটি লজিস্টিক রিগ্রেশন মডেলটির ব্যাখ্যা করা


12

আমি Yপ্রবেশের নির্দিষ্ট সময়কালের মধ্যে নার্সিংহোমে নির্ভরশীল পরিবর্তনশীল মৃত্যুর সাথে মাল্টিভারিয়েট লজিস্টিক রিগ্রেশন সম্পাদন করেছি এবং নিম্নলিখিত ফলাফল পেয়েছি (নোটগুলি যদি এর মধ্যে শুরু Aহয় তবে Bশ্রেণিবদ্ধ হয় তবে নোট করুন )

Call:
glm(Y ~ A1 + B2 + B3 + B4 + B5 + A6 + A7 + A8 + A9, data=mydata, family=binomial)
Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.0728  -0.2167  -0.1588  -0.1193   3.7788  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)  20.048631  6.036637   3.321 0.000896 ***
A1           0.051167   0.016942   3.020 0.002527 ** 
B2          -0.664940   0.304299  -2.185 0.028878 *  
B3          -2.825281   0.633072  -4.463 8.09e-06 ***
B4          -2.547931   0.957784  -2.660 0.007809 ** 
B5          -2.862460   1.385118  -2.067 0.038774 *  
A6          -0.129808   0.041286  -3.144 0.001666 ** 
A7           0.020016   0.009456   2.117 0.034276 *  
A8          -0.707924   0.253396  -2.794 0.005210 ** 
A9           0.003453   0.001549   2.229 0.025837 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 485.10  on 2206  degrees of freedom
Residual deviance: 417.28  on 2197  degrees of freedom
AIC: 437.28

Number of Fisher Scoring iterations: 7

 (Intercept)           A1           B2           B3           B4           B5           A6           A7           A8           A9 
5.093426e+08 1.052499e+00 5.143045e-01 5.929197e-02 7.824340e-02 5.712806e-02 8.782641e-01 1.020218e+00 4.926657e-01 1.003459e+00 

                   2.5 %       97.5 %
(Intercept) 3.703525e+03 7.004944e+13
A1          1.018123e+00 1.088035e+00
B2          2.832698e-01 9.337710e-01
B3          1.714448e-02 2.050537e-01
B4          1.197238e-02 5.113460e-01
B5          3.782990e-03 8.627079e-01
A6          8.099945e-01 9.522876e-01
A7          1.001484e+00 1.039302e+00
A8          2.998207e-01 8.095488e-01
A9          1.000416e+00 1.006510e+00

আপনি দেখতে পাচ্ছেন, সমস্ত ভেরিয়েবলগুলি "উল্লেখযোগ্য" যাতে তাদের পি মানগুলি 0.05 এর স্বাভাবিক প্রান্তিকের নীচে থাকে। তবে সহগের দিকে তাকিয়ে, আমি এই ফলাফলগুলি কী করব তা পুরোপুরি নিশ্চিত নই। দেখে মনে হচ্ছে যদিও এই পরিবর্তনগুলি মডেলটিতে অবদান রাখে, প্রতিকূল অনুপাতের দিকে তাকালে, তারা সত্যই তেমন ভবিষ্যদ্বাণীপূর্ণ শক্তি বলে মনে হয় না। দ্রষ্টব্য, আমি যখন এউসি গণনা করেছি তখন আমি প্রায় 0.8 পেয়েছিলাম।

আমি কী বলতে পারি যে এই মডেলটি মৃত্যুর পূর্বাভাস দেওয়ার তুলনায় (যেমন প্রবীণরা নির্ধারিত সময়ের অতীতকে বেঁচে রাখবেন বলে ভবিষ্যদ্বাণী করা) আরও ভাল?


4
এটি কোনও "মাল্টিভারিয়েট" মডেল নয় কারণ আপনার কেবলমাত্র একটি ফলাফল / নির্ভরশীল পরিবর্তনশীল। বেশ কয়েকটি ভবিষ্যদ্বাণীকারীদের সাথে একটি মডেল ফিট করার জন্য তাকে "একাধিক" রিগ্রেশন বলা হয়।
গালা

আমি মন্তব্য এবং জবাবগুলির সত্যই প্রশংসা করি - আমি অবশ্যই rms প্যাকেজে এক নজরে নেব। তবে আমার প্রশ্নটি এখনও স্থায়ী- বেশিরভাগ প্রতিকূল অনুপাত <1, এর অর্থ কি এই মডেলটির সেই পরিবর্তনশীলগুলি ফলাফলের বিরুদ্ধে ভবিষ্যদ্বাণী করতে আরও ভাল?
ওর্ট

উত্তর:


18

আমি আপনাকে পরামর্শ দেব যে আপনি ফ্র্যাঙ্ক হ্যারেলের দুর্দান্ত আরএমএস প্যাকেজটি ব্যবহার করুন । এটিতে আপনার মডেলটিকে বৈধতা ও ক্যালিব্রেট করার জন্য অনেকগুলি কার্যকর ফাংশন রয়েছে। আমি যতদূর জানি, আপনি কেবলমাত্র সহগের উপর নির্ভর করে ভবিষ্যদ্বাণীমূলক পারফরম্যান্সটি মূল্যায়ন করতে পারবেন না। আরও, আমি আপনাকে পরামর্শ দেব যে আপনি মডেলটি যাচাই করতে বুটস্ট্র্যাপ ব্যবহার করুন। এটিসি বা কনকর্ড্যান্স-ইনডেক্স (সি-ইনডেক্স) ভবিষ্যদ্বাণীপূর্ণ পারফরম্যান্সের একটি দরকারী পরিমাপ। সি-ইনডেক্স বেশ উচ্চ কিন্তু অনেক ভবিষ্যদ্বাণীমূলক মডেল হিসাবে আপনার মডেলটির ফিটটি সম্ভবত ওভারপটিমাস্টিক (ওভারফিটিং) is এই ওভারোপটিজমটি বুটস্ট্র্যাপ ব্যবহার করে মূল্যায়ন করা যেতে পারে। তবে আমাকে একটি উদাহরণ দিন:0.8

#-----------------------------------------------------------------------------
# Load packages
#-----------------------------------------------------------------------------

library(rms)

#-----------------------------------------------------------------------------
# Load data
#-----------------------------------------------------------------------------

mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")

mydata$rank <- factor(mydata$rank)

#-----------------------------------------------------------------------------
# Fit logistic regression model
#-----------------------------------------------------------------------------

mylogit <- lrm(admit ~ gre + gpa + rank, x=TRUE, y=TRUE, data = mydata)
mylogit

                      Model Likelihood     Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
Obs           400    LR chi2      41.46    R2       0.138    C       0.693    
 0            273    d.f.             5    g        0.838    Dxy     0.386    
 1            127    Pr(> chi2) <0.0001    gr       2.311    gamma   0.387    
max |deriv| 2e-06                          gp       0.167    tau-a   0.168    
                                           Brier    0.195                     

          Coef    S.E.   Wald Z Pr(>|Z|)
Intercept -3.9900 1.1400 -3.50  0.0005  
gre        0.0023 0.0011  2.07  0.0385  
gpa        0.8040 0.3318  2.42  0.0154  
rank=2    -0.6754 0.3165 -2.13  0.0328  
rank=3    -1.3402 0.3453 -3.88  0.0001  
rank=4    -1.5515 0.4178 -3.71  0.0002 

নীচে আপনি ভ্যালুগুলির সাথে সম্পর্কিত স্বাভাবিক প্রতিরোধের সহগগুলি দেখতে পাবেন। উপরের ডানদিকে আপনি কয়েকটি বৈষম্যমূলক সূচকগুলি দেখছেন। সি-ইনডেক্স (AUC), এবং একটি সি-সূচক উল্লেখ করে যেহেতু একটি সি-সূচক -এর মানে র্যান্ডম বিভাজন -এর মানে নিখুঁত ভবিষ্যদ্বাণী। ভবিষ্যদ্বাণী করা সম্ভাব্যতা এবং পর্যবেক্ষিত প্রতিক্রিয়ার মধ্যে সোমার্সের র‌্যাঙ্কের সম্পর্ক সূচকটির সাথে index এর সহজ সম্পর্ক রয়েছে: । একজন এর ঘটে যখন মডেলের ভবিষ্যৎবাণী র্যান্ডম এবং যখন , মডেল পুরোপুরি পক্ষপাতমূলক হয়। এই ক্ষেত্রে, সি-সূচক হয়0.5 1 ডি x y D x y D x y = 2 ( সি - 0.5 ) ডি এক্স ওয়াই 0 ডি এক্স ইয় = 1 0.693pC0.51DxyDxyDxyDxy=2(c0.5)Dxy0Dxy=10.693 যা তুলনায় কিছুটা ভাল তবে এর সি-ইনডেক্স ব্যক্তিগুলির ফলাফলের পূর্বাভাস দেওয়ার জন্য যথেষ্ট ভাল।>0.8

যেমনটি উপরে বলা হয়েছে, মডেলটি সম্ভবত অত্যধিক সংবেদনশীল। আশাবাদকে মাপ দিতে আমরা এখন বুটস্ট্র্যাপ ব্যবহার করি:

#-----------------------------------------------------------------------------
# Validate model using bootstrap
#-----------------------------------------------------------------------------

my.valid <- validate(mylogit, method="boot", B=1000)
my.valid

          index.orig training    test optimism index.corrected    n
Dxy           0.3857   0.4033  0.3674   0.0358          0.3498 1000
R2            0.1380   0.1554  0.1264   0.0290          0.1090 1000
Intercept     0.0000   0.0000 -0.0629   0.0629         -0.0629 1000
Slope         1.0000   1.0000  0.9034   0.0966          0.9034 1000
Emax          0.0000   0.0000  0.0334   0.0334          0.0334 1000
D             0.1011   0.1154  0.0920   0.0234          0.0778 1000
U            -0.0050  -0.0050  0.0015  -0.0065          0.0015 1000
Q             0.1061   0.1204  0.0905   0.0299          0.0762 1000
B             0.1947   0.1915  0.1977  -0.0062          0.2009 1000
g             0.8378   0.9011  0.7963   0.1048          0.7331 1000
gp            0.1673   0.1757  0.1596   0.0161          0.1511 1000

আসুন on যা শীর্ষে রয়েছে মনোনিবেশ করা যাক । প্রথম কলামটি মূল সূচকটি বোঝায়, যা ছিল । নামক কলামটি মডেল দ্বারা অনুমান করা অতিমাত্রার পরিমাণ নির্দেশ করে। কলামটি আসল অনুমানের বিয়োগ আশাবাদ। এই ক্ষেত্রে, পক্ষপাত সংশোধন করা the মূলটির থেকে কিছুটা ছোট। পক্ষপাত সংশোধন করা সি-সূচক (এউসি) হ'ল । 0.3857 D x y c = 1 + D x yDxy0.3857optimismindex.correctedDxyc=1+Dxy2=0.6749

আমরা পুনরায় মডেলিং ব্যবহার করে একটি ক্রমাঙ্কন বক্রিয়া গণনা করতে পারি:

#-----------------------------------------------------------------------------
# Calibration curve using bootstrap
#-----------------------------------------------------------------------------

my.calib <- calibrate(mylogit, method="boot", B=1000)

par(bg="white", las=1)
plot(my.calib, las=1)

n=400   Mean absolute error=0.016   Mean squared error=0.00034
0.9 Quantile of absolute error=0.025

লগরেগ ক্যালিব্রেশন

প্লটটি এমন কিছু প্রমাণ সরবরাহ করে যা আমাদের মডেলগুলি অত্যধিক মানানসই: মডেলটি কম সম্ভাবনাকে হ্রাস করে এবং উচ্চ সম্ভাবনার চেয়ে বেশি মূল্য দেয়। প্রায় ।0.3

ভবিষ্যদ্বাণীমূলক মডেল বিল্ডিং একটি বড় বিষয় এবং আমি ফ্র্যাঙ্ক হ্যারেলের কোর্স নোটগুলি পড়ার পরামর্শ দিই ।


5
rms@COOLSerdash এবং নিক প্যাকেজটির জন্য দুর্দান্ত উদাহরণ এবং কীভাবে তা করার জন্য আপনাকে অনেক ধন্যবাদ ।
ফ্র্যাঙ্ক হ্যারেল

আপনার উত্তরের জন্য আপনাকে অনেক ধন্যবাদ, এটি আমাকে অনেক সাহায্য করেছে! আমার একটি তাত্ক্ষণিক প্রশ্ন আছে, আপনি প্রায় ০.৩০ এর কাছাকাছি অনুমানের দ্বারা কী বোঝাতে চান? এবং আপনি কি আমার গ্রাফটি একবার দেখে নিতে পারেন? s23.postimg.org/9cucdg6e3/calibration_curve.png এই আউটপুটটি আমার কীভাবে ব্যাখ্যা করা উচিত
CanCeylan

2
@ ক্যানকেলান আমার গ্রাফটিতে ০.০ এর আশেপাশে লাইনের একটি ছোট বক্ররেখা রয়েছে (রেখাটি আদর্শ লাইনের নীচে যায়)। আপনার গ্রাফ সম্পর্কিত: দয়া করে আপনার গ্রাফটি আপনার মূল প্রশ্নের সাথে যুক্ত করুন যাতে অন্যরাও এটি দেখতে পায়। দেখে মনে হচ্ছে আপনার মডেল পুরো স্থান জুড়ে নিয়মিতভাবে সম্ভাব্যতাগুলি অবমূল্যায়ন করছে।
COOLSerdash

@ COOLSerdash ধন্যবাদ আমি আমার প্রশ্ন আপডেট করেছি। তবে সেখান থেকে, আমি কীভাবে সিদ্ধান্ত নেব যে মডেলটি বাতিল করবেন বা এটি ব্যবহার করবেন? কারণ সি মানটি খারাপ নয় (0.7755), গড় নিখুঁত ত্রুটি (0.002) এবং গড় স্কোয়ার ত্রুটি (5e-05) খুব ছোট, তবে ক্যালিগ্রেশন গ্রাফটি দেখতে খারাপ দেখাচ্ছে। \
CanCeylan

@ ক্যানকেলান আপনার প্রশ্ন আপডেট করার জন্য ধন্যবাদ। হুম, আমি নিশ্চিত নই। ক্রমাঙ্কনের প্লটটি খুব ভাল দেখাচ্ছে না। আমি আরও মতামতের জন্য অপেক্ষা করব (ফ্র্যাঙ্ক হ্যারেল বা অন্যদের কাছ থেকে)। আমি একটি নির্দিষ্ট সুপারিশ দিতে যথেষ্ট আত্মবিশ্বাস বোধ করি না, দুঃখিত।
COOLSerdash

6

গুণাগুণগুলির ব্যাখ্যার উপর একটি নোট: পূর্বাভাসকারীরা সংখ্যা হিসাবে কীভাবে লেখা হয় তার উপর তারা নির্ভর করে। সুতরাং অবিচ্ছিন্ন পরিবর্তনশীলগুলির জন্য তারা যে এককগুলিতে পরিমাপ করা হয় তার উপর নির্ভর করে; শ্রেণিবদ্ধ পূর্বাভাসীদের জন্য, কোডিং স্কিম। এটা ভাবতে প্রলোভিত হবেন না, বলুন, এ 9 'গুরুত্বহীন' কারণ এটির 0.003453 এর সহগ ছোট — এ 9 কিছু আগ্রহের জনসংখ্যার আকারের বিভিন্ন আকারের মধ্যে হতে পারে অন্য অন্যান্য ভবিষ্যদ্বাণীকারী কেবল সামান্য পরিবর্তিত হয়, বা এটি হতে পারে খুব উচ্চ বা নিম্ন মানেরগুলিতে সেট করা সহজ যখন অন্যরা খুব বেশি পরিবর্তন করতে পারে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.