লজিস্টিক রিগ্রেশন: বার্নোল্লি বনাম বনোমিয়াল রেসপন্স ভেরিয়েবল


32

আমি নিম্নোক্ত দ্বিপদী প্রতিক্রিয়ার সাথে এবং আমার ভবিষ্যদ্বাণীকারী হিসাবে এবং সাথে লজিস্টিক রিগ্রেশন করতে চাই । X1X2

এখানে চিত্র বর্ণনা লিখুন

আমি নীচের বিন্যাসে বার্নোল্লি প্রতিক্রিয়াগুলির মতো একই ডেটা উপস্থাপন করতে পারি।

এখানে চিত্র বর্ণনা লিখুন

এই 2 ডেটা সেটগুলির জন্য লজিস্টিক রিগ্রেশন আউটপুটগুলি বেশিরভাগই একই। ডিভ্যান্সের অবশিষ্টাংশ এবং এআইসি আলাদা। (নাল বিচ্যুতি এবং অবশিষ্ট ডিভ্যান্সের মধ্যে পার্থক্য উভয় ক্ষেত্রেই একই - 0.2২।)

নিম্নলিখিতটি আর থেকে প্রাপ্ত রিগ্রেশন আউটপুটগুলি রয়েছে data ডেটা সেটগুলিকে বিনম.ডাটা এবং বার্ন.ডাটা বলা হয়।

এখানে দ্বিপদী আউটপুট।

Call:
glm(formula = cbind(Successes, Trials - Successes) ~ X1 + X2, 
    family = binomial, data = binom.data)

Deviance Residuals: 
[1]  0  0  0

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)  -2.9649    21.6072  -0.137    0.891
X1Yes        -0.1897     2.5290  -0.075    0.940
X2            0.3596     1.9094   0.188    0.851

(Dispersion parameter for binomial family taken to be 1)

Null deviance:  2.2846e-01  on 2  degrees of freedom
Residual deviance: -4.9328e-32  on 0  degrees of freedom
AIC: 11.473

Number of Fisher Scoring iterations: 4

এখানে বার্নোল্লি আউটপুট।

Call:
glm(formula = Success ~ X1 + X2, family = binomial, data = bern.data)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.6651  -1.3537   0.7585   0.9281   1.0108  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)  -2.9649    21.6072  -0.137    0.891
X1Yes        -0.1897     2.5290  -0.075    0.940
X2            0.3596     1.9094   0.188    0.851

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 15.276  on 11  degrees of freedom
Residual deviance: 15.048  on  9  degrees of freedom
AIC: 21.048

Number of Fisher Scoring iterations: 4

আমার প্রশ্নগুলো:

1) আমি দেখতে পাচ্ছি যে 2 পদ্ধতির মধ্যে পয়েন্টের অনুমান এবং মান ত্রুটিগুলি এই বিশেষ ক্ষেত্রে সমতুল্য। এই সমতাটি কি সাধারণভাবে সত্য?

2) প্রশ্ন # 1 এর উত্তর কীভাবে গাণিতিকভাবে ন্যায়সঙ্গত হতে পারে?

3) ডিভ্যান্সের অবশিষ্টাংশ এবং এআইসি আলাদা কেন?

উত্তর:


24

1) হ্যাঁ। আপনি একই সমবায়িকদের সাথে থাকা ব্যক্তিদের কাছ থেকে দ্বি-দ্বি ডেটা সমষ্টি / ডি-সমষ্টি (?) করতে পারেন। এটি এই দ্বারাই আসে যে দ্বিপদী মডেলের পর্যাপ্ত পরিসংখ্যান হ'ল প্রতিটি কোভারিয়েট ভেক্টরের মোট ইভেন্টের সংখ্যা; এবং বার্নোল্লি দ্বি-দ্বিখণ্ডিতের একটি বিশেষ ঘটনা মাত্র। স্বজ্ঞাতভাবে, প্রতিটি বার্নোলি বিচার যা দ্বিপাক্ষিক ফলাফল তৈরি করে তা স্বতন্ত্র, সুতরাং এগুলিকে একক ফলাফল হিসাবে গণ্য করার বা পৃথক পৃথক বিচার হিসাবে পৃথক হওয়া উচিত নয়।

2) আমরা আছে বলুন অনন্য covariate ভেক্টর , প্রতিটি যা একটি দ্বিপদ ফলাফল হয়েছে বিচারের অর্থাৎ আপনি একটি লজিস্টিক রিগ্রেশন নির্দিষ্ট কিছু মডেল, সুতরাং যদিও আমরা পরে দেখব যে এটি গুরুত্বপূর্ণ নয়।এক্স 1 , এক্স 2 , , এক্স এন এন আই ওয়াই আইবি আই এন ( এন আই , পি আই ) এল জি আই টি ( পি আই ) = কে কে = 1 β কে এক্স আই কেnx1,x2,,xnNi

YiBin(Ni,pi)
logit(pi)=k=1Kβkxik

এই মডেলের লগ-সম্ভাবনা হ'ল এবং আমরা আমাদের প্যারামিটারের অনুমানগুলি পেতে ( পদগুলিতে) সম্মানের সাথে এটি সর্বাধিক করি ।

(β;Y)=i=1nlog(NiYi)+Yilog(pi)+(NiYi)log(1pi)
βpi

এখন, বিবেচনা করুন যে প্রতিটি , আমরা স্বতন্ত্র বার্নোল্লি / বাইনারি ফলাফলগুলিতে বিভক্ত করেছি, যেমনটি আপনি করেছেন। বিশেষত, অর্থাৎ প্রথম 1s এবং বাকী 0 টি হয়। এটি হ'ল আপনি যা করেছেন - তবে আপনি প্রথম 0 এর মতো এবং বাকী 1s হিসাবে বা অন্য কোনও অর্ডারিং করতে পেরেছিলেন ?i=1,,nNi

Zi1,,ZiYi=1
Zi(Yi+1),,ZiNi=0
Yi(NiYi)

আপনার দ্বিতীয় মডেল বলছেন যে জন্য একই রিগ্রেশন মডেলের উপরে হিসাবে। এই মডেলের লগ-সম্ভাবনা হ'ল এবং যেভাবে আমরা আমাদের গুলি সংজ্ঞায়িত করেছি তাই এটি সরলীকৃত করা যেতে পারে যা দেখতে বেশ পরিচিত দেখা উচিত।

ZijBernoulli(pi)
pi
(β;Z)=i=1nj=1NiZijlog(pi)+(1Zij)log(1pi)
Zij
(β;Y)=i=1nYilog(pi)+(NiYi)log(1pi)

দ্বিতীয় মডেলটিতে অনুমানগুলি পেতে, আমরা এটি সম্মানের সাথে সর্বাধিক করি । এটি এবং প্রথম লগ-সম্ভাবনার মধ্যে একমাত্র পার্থক্যটি হ'ল , যা প্রতি সম্মান সহ ধ্রুবক , এবং তাই সর্বাধিকাকে প্রভাবিত করে না এবং আমরা একই অনুমানগুলি পেয়ে যাব।βlog(NiYi)β

3) প্রতিটি পর্যবেক্ষণ একটি বিচ্যুতি অবশিষ্ট আছে। দ্বিপদী মডেলে, তারা যেখানে আপনার মডেল থেকে অনুমান সম্ভাবনা। মনে রাখবেন যে আপনার দ্বিপদ মডেল (স্বাধীনতা 0 অবশিষ্ট ডিগ্রী) সম্পৃক্ত করা হয় এবং নিখুঁত ফিট রয়েছে: সব পর্যবেক্ষণের জন্য, তাই সকলের জন্য ।

Di=2[Yilog(Yi/Nip^i)+(NiYi)log(1Yi/Ni1p^i)]
p^ip^i=Yi/NiDi=0i

বের্নুলির মডেলে আপনার এখন অবশিষ্টাংশ ( দ্বিপদী তথ্য হিসাবে পরিবর্তে ), এগুলির প্রত্যেকটি হয় বা বা উপর নির্ভর করে এবং সম্ভবত উপরের মত নয় the এমনকি আপনি যদি এই ওভার যোগফল প্রতিটি বক্রতা অবশিষ্টাংশ একটি সমষ্টি পেতে , আপনি একই পাবেন না:

Dij=2[Zijlog(Zijp^i)+(1Zij)log(1Zij1p^i)]
i=1nNin
Dij=2log(p^i)
Dij=2log(1p^i)
Zij=10ji
Di=j=1NiDij=2[Yilog(1p^i)+(NiYi)log(11p^i)]

এআইসি পৃথক হওয়ার বিষয়টি (তবে বিবর্তনের পরিবর্তনটি নয়) আবার স্থির হয়ে যায় যে দুটি মডেলের লগ-সম্ভাবনার মধ্যে পার্থক্য ছিল। বিচ্যুতি গণনা করার সময়, এটি বাতিল হয়ে যায় কারণ একই ডেটা ভিত্তিক সমস্ত মডেলে এটি একই। এআইসিকে হিসাবে সংজ্ঞায়িত করা হয় এবং এটি শব্দটি এস এর মধ্যে পার্থক্য :

AIC=2K2

AICBernoulliAICBinomial=2i=1nlog(NiYi)=9.575

আপনার খুব বিস্তারিত উত্তরের জন্য ধন্যবাদ, মার্ক! আমার প্রতিক্রিয়াতে দেরি হওয়ার জন্য দুঃখিত - আমি ছুটিতে ছিলাম। 3) 2 মডেল ডিভ্যান্সের অবশিষ্টাংশ এবং এআইসির জন্য পৃথক ফলাফল দেয় তা কোনটি সঠিক বা আরও ভাল? ক) আমি যেমন বুঝতে পেরেছি, দু'জনের চেয়ে বেশি ডিভ্যান্সের অবশিষ্টাংশের সাথে পর্যবেক্ষণগুলি ফিটের অভাবকে ইঙ্গিত করতে পারে, তাই বিচ্যুততার অবশিষ্টাংশগুলির পরম মানগুলি বিবেচনা করে। খ) যেহেতু এআইসি বিভিন্ন মডেলের মধ্যে ফিটের তুলনা করতে ব্যবহৃত হয়, সম্ভবত কোনও "সঠিক" এআইসি নেই। আমি কেবল 2 দ্বিপদী মডেল বা 2 বার্নোল্লি মডেলের এআইসি তুলনা করব।
একজন বিজ্ঞানী

ক) বাইনারি ডেটা জন্য, হতে হবে> 2 পারেন (যদি এবং ) বা ( এবং )। আপনার মডেল জন্য পুরোপুরি দ্বিপদ ডেটা ফিট তাই এমনকি যদি তম covariate ভেক্টর (অর্থাত বলতে), তারপর গুলি আপনি ইচ্ছামত হিসেবে বরাদ্দ করেছি 1 । এই কারণে, আমি মনে করি বিভক্তি অবশিষ্টাংশ দ্বিপদী ডেটা দিয়ে আরও বোধগম্য হয়। তদুপরি, বাইনারি ডেটার জন্য বিচ্যুততার নিজস্ব বৈশিষ্ট্যগুলি নেই ...DijZij=1p^i<e1=0.368Zij=0p^i>1e1=0.632iYi/Ni=p^i<0.368Yi ZijDij>2
চিহ্ন


1
খ) হ্যাঁ, মডেলগুলির মধ্যে তুলনা করা তখনই বোধগম্য হয় যখন প্রতিটি মডেলের ফিট করার জন্য ব্যবহৃত ডেটা হুবহু একই থাকে। সুতরাং বার্নৌলির সাথে বার্নোলির সাথে বা দ্বিপদী সাথে দ্বিপদীটির সাথে তুলনা করুন। AIC
চিহ্নিত করুন

ধন্যবাদ, মার্ক! আপনার চিন্তাশীল এবং বিস্তারিত জবাব অনেক প্রশংসা করা হয়!
একজন বিজ্ঞানী

0

আমি কেবল শেষ অনুচ্ছেদে মন্তব্য করতে চাই, "এআইসি পৃথক হওয়ার বিষয়টি সত্য (তবে বিবর্তনের পরিবর্তনটি নয়) আবার স্থির হয়ে যায় যা দুটি মডেলের লগ-সম্ভাবনার মধ্যে পার্থক্য ছিল। বিচ্যুতির পরিবর্তনের গণনা করার সময়, এটি বাতিল হয়ে যায় কারণ একই ডেটা ভিত্তিক সমস্ত মডেলে এটি একইরকম " দ্বিপদী তথ্যের জন্য লগ-সম্ভাবনার ক্ষেত্রে শব্দটি) সুতরাং, বিবর্তনের পরিবর্তনটি ধ্রুবক মেয়াদ EX এর সাথে কোনও সম্পর্ক রাখে না The বিচ্যুতি একটি প্রদত্ত মডেলকে সম্পূর্ণ মডেলের সাথে তুলনা করে The এবং দ্বিপদী মডেলিং কিন্তু ডিভ্যান্সে পরিবর্তন পুরো মডেলের লগ-সম্ভাবনার মানগুলির মধ্যে পার্থক্যের কারণে নয়। এই মানগুলি বিচ্যুতি পরিবর্তনগুলি গণনা করে বাতিল করা হয়। অতএব, বার্নোল্লি এবং দ্বিপদী লজিস্টিক রিগ্রেশন মডেলগুলি পূর্বাভাসযুক্ত সম্ভাব্যতা পাই এবং পাই একইরূপে এক অভিন্ন বিচ্যুতির পরিবর্তন আনবে। প্রকৃতপক্ষে, প্রবিট এবং অন্যান্য লিঙ্ক ফাংশনের ক্ষেত্রে এটি সত্য।

LBm এবং lBf মেশিন থেকে শুরু করে মডেল এবং সম্পূর্ণ মডেল এফ থেকে বের্নোল্লি ডেটাতে লগ-সম্ভাবনার মানগুলি বোঝায়। বিচ্যুতি হয়

    DB=2(lBf - lBm)=-2(lBm – lBf).

যদিও বাইনারি ডেটার জন্য এলবিএফ শূন্য, আমরা ডিবিটিকে সহজীকরণ করি নি এবং এটি যেমন রাখি তেমন করি না। একই covariates সঙ্গে দ্বিপদী মডেলিং থেকে বিচ্যুতি হয়

    Db=2(lbf+Ex – (lbm+Ex))=2(lbf – lbm) = -2(lbm – lbf)

যেখানে এলবিএফ + প্রাক্তন এবং এলবিএম + প্রাক্তনটি দ্বিপদী ডেটাতে লাগানো পূর্ণ এবং এম মডেলের লগ-সম্ভাবনার মান। অতিরিক্ত ধ্রুবক শব্দটি (প্রাক্তন) ডিবি এর ডান হাত থেকে অদৃশ্য হয়ে যায়। এখন মডেল 1 থেকে মডেল 2 তে বিচ্যুতির পরিবর্তনগুলি দেখুন look বার্নোল্লি মডেলিং থেকে, আমাদের বিচ্যুতিতে পরিবর্তন এসেছে

    DBC=DB2-DB1=2(lBf – lBm2)-2(lBf – lBm1) =2(lBm1 – lBm2).

একইভাবে, দ্বিপদী ফিটিং থেকে বিচ্যুতি পরিবর্তন হয়

    DbC=DB2-DB1=2(lbf – lbm2)-2(lbf – lbm1) =2(lbm1 – lbm2).

এটি অবিলম্বে অনুসরণ করা হয়েছে যে বিবর্তন পরিবর্তনগুলি সম্পূর্ণ মডেল, এলবিএফ এবং এলবিএফ এর লগ-সম্ভাবনা অবদান থেকে মুক্ত are অতএব, আমরা ডিবিসি = ডিবিসি, lBm1 = lbm1 এবং lBm2 = lbm2 তে একই পরিবর্তন পাব। আমরা জানি যে এখানেই ঘটনা এবং কেন আমরা বার্নোল্লি এবং দ্বিপদী মডেলিং থেকে একই বিচ্যুতি পরিবর্তনগুলি পাচ্ছি। Lbf এবং lBf এর মধ্যে পার্থক্য বিভিন্ন বিচ্যুতির দিকে নিয়ে যায়।


6
আপনার নিজের উত্তরটির বিন্যাস সম্পাদনা করা কি সম্ভব? দুর্ভাগ্যক্রমে এই ফর্মটি খুব পাঠযোগ্য নয়। আমি আপনাকে অনুচ্ছেদে পাঠ্যটি ব্রেক করতে এবং সূত্রগুলিতে ফর্ম্যাটিং যুক্ত করতে উত্সাহিত করব । আপনি যে সংক্ষিপ্তসারগুলি ব্যবহার করেন তার অর্থ কী তা সর্বদা পরিষ্কার নয়। TEX
টিম

অনেক ধন্যবাদ, টিম। আমি টেক্স ফর্ম্যাটিংয়ের সাথে পরিচিত নই। আমি মূলত ওয়ার্ডে টাইপ করেছি, তবে আমি অনুলিপি এবং পেস্ট করতে পারিনি। আমি সমীকরণগুলি পাঠ্য থেকে পৃথক করেছি।
সায়েই

আপনি যদি এই অনুচ্ছেদটি ভুলভাবে পড়ে থাকেন তবে আমি নিশ্চিত নই: আমি বলেছিলাম "এআইসি আলাদা ( তবে বিবর্তনের পরিবর্তনটি নয় )", এবং অনুচ্ছেদের বাকী অংশটি ব্যাখ্যা করেছে যে দুটি মডেলের মধ্যে কেন এইআইসি আলাদা। আমি দাবি করিনি যে বিচ্যুতির পরিবর্তনটি স্থির মেয়াদে নির্ভর করে। আসলে, আমি বলেছিলাম " বিচ্যুতির পরিবর্তনের গণনা করার সময়, এই [অবিচ্ছিন্ন শব্দটি] বাতিল করা হয়েছে কারণ এটি একই তথ্যের উপর ভিত্তি করে সমস্ত মডেলে একই " "
মার্ক

সমস্যাটি হ'ল পাঠ্যের মধ্যে কেবল একটি "ধ্রুবক শব্দ" রয়েছে এবং এটি হ'ল সংযুক্তি পদ (দ্বিপদী সহগ)। আপনি যখন বলেন "এটি" বাতিল হয়ে গেছে, তখন বোঝা যাচ্ছে যে অবিচ্ছিন্ন শব্দটি বিচ্যুতিতে অন্তর্ভুক্ত রয়েছে। বার্নোল্লি এবং দ্বিপদী মডেলগুলির বিচ্যুতিগুলির মধ্যে পার্থক্য হ'ল সম্পূর্ণ মডেল থেকে লগ-সম্ভাবনা মান lbf এর অবদান। এলবিএফ একই তথ্যতে বিভিন্ন দ্বিপদী মডেল দ্বারা পৃথক হয় না এবং বিচ্যুতি পরিবর্তনের গণনা করার সময় এটি বাতিল হয়ে যায়।
সায়েই

আহ ঠিক আছে আমি কি বলতে চাইছি। বিচ্যুতির পরিবর্তনের প্রসঙ্গে রেখে আমি অনুরূপভাবে আমার উত্তর সম্পাদনা করেছি কারণ প্রশ্নকর্তা বিশেষভাবে এটি উল্লেখ করেছেন। বিচ্যুততার পরিবর্তন একই কারণ বিচ্যুতি স্থির মেয়াদের উপর নির্ভর করে না।
চিহ্নিত করুন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.