লজিস্টিক এবং লজিট-লিনিয়ার রিগ্রেশন দ্বারা অনুমান সহগগুলি কখন পৃথক হয়?

অবিচ্ছিন্ন অনুপাতে মডেলিং করার সময় (যেমন সমীক্ষা চতুর্ভুজগুলিতে আনুপাতিক উদ্ভিদ কভার, বা কোনও কার্যক্রমে জড়িত সময়ের অনুপাত), লজিস্টিক রিগ্রেশনকে অনুচিত বলে মনে করা হয় (যেমন ওয়ার্টন অ্যান্ড হুই (২০১১) আরকসিন অ্যাসিনাইন (বাস্তুশাস্ত্রে অনুপাতের বিশ্লেষণ ))। বরং লগিট-ট্রান্সফর্মেশন অনুপাতের পরে বা সম্ভবত বিটা রিগ্রেশন পরে ওএলএসের রিগ্রেশন আরও উপযুক্ত more

কি অধীনে অবস্থার logit-রৈখিক রিগ্রেশনের এবং লজিস্টিক রিগ্রেশন সহগ অনুমান ভিন্ন যখন আর এর ব্যবহার করে তা করতে lmএবং glm?

নিম্নলিখিত সিমুলেটেড ডেটাসেটটি ধরুন, যেখানে আমরা ধরে নিতে পারি যে pআমাদের কাঁচা ডেটা (অর্থাত্ ক্রমাগত অনুপাত, ): ${n_{successes}\over n_{trials}}$

set.seed(1)
x <- rnorm(1000)
a <- runif(1)
b <- runif(1)
logit.p <- a + b*x + rnorm(1000, 0, 0.2)
p <- plogis(logit.p)

plot(p ~ x, ylim=c(0, 1))

এখানে চিত্র বর্ণনা লিখুন

লগিট-লিনিয়ার মডেলটি ফিটিং করা, আমরা পাই:

summary(lm(logit.p ~ x))
## 
## Call:
## lm(formula = logit.p ~ x)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.64702 -0.13747 -0.00345  0.15077  0.73148 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.868148   0.006579   131.9   <2e-16 ***
## x           0.967129   0.006360   152.1   <2e-16 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
## 
## Residual standard error: 0.208 on 998 degrees of freedom
## Multiple R-squared:  0.9586, Adjusted R-squared:  0.9586 
## F-statistic: 2.312e+04 on 1 and 998 DF,  p-value: < 2.2e-16

লজিস্টিক রিগ্রেশন ফলন:

summary(glm(p ~ x, family=binomial))
## 
## Call:
## glm(formula = p ~ x, family = binomial)
## 
## Deviance Residuals: 
##      Min        1Q    Median        3Q       Max  
## -0.32099  -0.05475   0.00066   0.05948   0.36307  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  0.86242    0.07684   11.22   <2e-16 ***
## x            0.96128    0.08395   11.45   <2e-16 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 176.1082  on 999  degrees of freedom
## Residual deviance:   7.9899  on 998  degrees of freedom
## AIC: 701.71
## 
## Number of Fisher Scoring iterations: 5
## 
## Warning message:
## In eval(expr, envir, enclos) : non-integer #successes in a binomial glm!

লজিস্টিক রিগ্রেশন সহগের অনুমানগুলি লগইট-লিনিয়ার মডেলটির অনুমানের প্রতি সর্বদা নিরপেক্ষ থাকবে?

r regression logistic

— jbaums
সূত্র

একটি তাত্ত্বিক পার্থক্য দ্রষ্টব্য: অনুপাতের ক্ষেত্রে দ্বি-দ্বি মডেল প্রয়োগ করে আপনি ধরে নিয়েছেন যে প্রতিটি অনুপাতের পিছনে বিচারগুলি স্বাধীন, অর্থাৎ অনুপাতের পিছনে 0.1"ছিল", বলুন, একটি 10 টি সফল ট্রায়াল পেয়েছিল যা একটি সফল হয়েছিল। রৈখিক মডেলের জন্য, 0.1কেবল একটি মান, কিছু স্বেচ্ছাসেবক পরিমাপ।

— ttnphns

আমি ওপি দ্বারা যেভাবে অনুপাতের ক্ষেত্রে দ্বিপদী মডেল প্রয়োগ করা এমনকি বোধ করি তা সম্পর্কে আমি কিছুটা সন্দেহবাদী। সর্বোপরি, family=binomialবোঝা যাচ্ছে যে নির্ভরশীল চলক দ্বিপদী গণনা উপস্থাপন করে - অনুপাত নয়। এবং কীভাবে জানতে glmপারে যে 0.1এটি "দশজনের মধ্যে একজন" এবং "দশজনের মধ্যে দশ" নয়? যদিও অনুপাত নিজেই পৃথক হয় না, স্ট্যান্ডার্ড ত্রুটি কীভাবে গণনা করা হয় তার জন্য এটির প্রধান প্রভাব রয়েছে।

— ওল্ফগ্যাং 10

@ ওল্ফগ্যাং - আমি বুঝতে পারি (এবং আমার পোস্টে উল্লেখ করেছি) যে লজিস্টিক রিগ্রেশন সহ এই ধরণের ক্রমাগত অনুপাতের মডেল করা অনুচিত inappropriate আমি / যখন / কীভাবে সহগের পয়েন্টের অনুমানের পার্থক্য রয়েছে সে বিষয়ে আরও আগ্রহী ছিলাম।

— jbaums

@ ওল্ফগ্যাং, আপনি ঠিক বলেছেন তবে এটি বাস্তবায়নের উপর নির্ভর করে। কিছু প্রোগ্রাম বেসগুলির জায়গায় ডিভি এবং 1 এস হিসাবে অনুপাতগুলি ইনপুট করার অনুমতি দেয়, যখন ডেটাসেটটি আসল ঘাঁটি দ্বারা ভারিত হয়। সুতরাং দেখে মনে হচ্ছে আপনি অনুপাত বিশ্লেষণ করেছেন, গণনা নয়।

— ttnphns

@ttnphns একইভাবে, আর-তে একটি ডিভি হিসাবে অনুপাত প্রবেশ করতে পারে এবং যুক্তিতে বহু সংখ্যক বিচারযুক্ত ভেক্টর সরবরাহ করতে পারে weights(যদিও এটি আমার পোস্টে চেষ্টা করা হয়নি, যেখানে আমি ইচ্ছাকৃতভাবে ডেটাটি ভুলভাবে বিশ্লেষণ করেছি)।

— jbaums

উত্তর:

সম্ভবত "রিভার্স" ফ্যাশনে এটির উত্তর দেওয়া যেতে পারে - অর্থাৎ তারা কখন একই হয়?

এখন লজিস্টিক রিগ্রেশন ব্যবহৃত আইআরএলএস অ্যালগরিদম এখানে কিছু অন্তর্দৃষ্টি প্রদান করে। অভিযোজনে আপনি মডেল সহগগুলি যেমন প্রকাশ করতে পারেন:

{\hat{β}}_{l o g i s t i c} = {(X^{T} W X)}^{- 1} X^{T} W z

$\hat {\beta}_{logistic}=\left (X^TWX\right)^{-1} X^TWz$

যেখানে ই term শব্দটি এবং একটি সিউডো প্রতিক্রিয়া যেখানে ith উপাদান । নোট করুন যে যা লজিস্টিক রিগ্রেশনকে পরিমাণের একটি "লজিট টাইপ" এর ওজনযুক্ত ন্যূনতম স্কোয়ারের সাথে খুব মিল বলে মনে করে। নোট করুন যে সমস্ত সম্পর্ক লজিস্টিক রিগ্রেশনে অন্তর্নিহিত হয় (যেমন উপর নির্ভর করে যার উপর নির্ভর করে )। $W$ $W_{ii}=n_ip_i (1-p_i)$ $z$ $z_i=x_i^T\hat {\beta}_{logistic} +\frac {y_i -n_ip_i}{n_ip_i (1-p_i)}$ $var (z_i -x_i^T\hat {\beta})=W_{ii}^{-1}$ $z$ $\beta$ $z$

সুতরাং আমি সুপারিশ করব যে পার্থক্যটি বেশিরভাগ ওজনযুক্ত ন্যূনতম স্কোয়ার (লজিস্টিক) বনাম অদূরিত ন্যূনতম স্কোয়ার (লগিজগুলিতে) ব্যবহার করার ক্ষেত্রে। আপনি যদি কলটিতে লগইটগুলি ighted দ্বারা ওজন করেন (যেখানে "ইভেন্টগুলির সংখ্যা এবং " "ট্রায়ালগুলির সংখ্যা") আপনি পেয়ে যেতেন আরও অনুরূপ ফলাফল। $\log (y)-\log (n-y)$ $y (1-y/n)$ $y$ $n$ lm ()

— probabilityislogic
সূত্র

চিত্তাকর্ষক। আপনি দয়া করে প্রদত্ত সিমুলেটেড ডেটা ব্যবহার করে আর কোড দ্বারা আপনার শেষ বাক্যটি প্রদর্শন করতে পারেন? ধন্যবাদ!

— জেলিকেলকিট

আমি ভুল হলে এটি উল্লেখ করতে দ্বিধা করবেন না দয়া করে।

প্রথম, আমি তাই বলেছি, দ্বিতীয় ফিট, আপনি glmএকটি ভুল উপায়ে কল ! দ্বারা লজিস্টিক রিগ্রেশন ফিট করার জন্য glm, প্রতিক্রিয়াটি (বাইনারি) শ্রেণিবদ্ধ পরিবর্তনশীল হওয়া উচিত, তবে আপনি ব্যবহার করুন p, একটি সংখ্যার ভেরিয়েবল! আমাকে বলতে warningহবে যে ব্যবহারকারীদের তাদের ভুলগুলি জানাতে খুব নম্র ...

এবং, যেমনটি আপনি প্রত্যাশা করতে পারেন, আপনি কেবল COINCIDENCE দ্বারা দুটি ফিট দ্বারা সহগের সমান অনুমান পাবেন। যদি আপনি এর সাথে প্রতিস্থাপন logit.p <- a + b*x + rnorm(1000, 0, 0.2)করেন logit.p <- a + b*x + rnorm(1000, 0, 0.7), অর্থাত্ ত্রুটি শর্তটির পরিবর্তনের থেকে পরিবর্তিত হয়ে 0.2যান 0.7, তবে দুটি ফিটের ফলাফলগুলি বেশ আলাদা হবে, যদিও দ্বিতীয় ফিট ( glm) মোটেই অর্থহীন ...

(বাইনারি) শ্রেণিবিন্যাসের জন্য লজিস্টিক রিগ্রেশন ব্যবহৃত হয়, সুতরাং আপনার বর্ণনামূলক প্রতিক্রিয়া হওয়া উচিত, যেমন উপরে বর্ণিত আছে। উদাহরণস্বরূপ, প্রতিক্রিয়াটির পর্যবেক্ষণগুলি আপনার ডেটা অনুসারে "সাফল্য" বা "ব্যর্থতা" এর ধারাবাহিক না হয়ে হওয়া উচিত। প্রদত্ত শ্রেণীবদ্ধ ডেটা সেটের জন্য, আপনি কেবলমাত্র "প্রতিক্রিয়া = সাফল্য" বা "প্রতিক্রিয়া = ব্যর্থতা" এর জন্য কেবল একটি সামগ্রিক ফ্রিকোয়েন্সি গণনা করতে পারেন, বরং সিরিজটি করে। আপনি যে ডেটা তৈরি করেন তাতে কোনও শ্রেণিবদ্ধ ভেরিয়েবল নেই, সুতরাং লজিস্টিক রিগ্রেশন প্রয়োগ করা অসম্ভব। এখন আপনি দেখতে পাবেন, যদিও তাদের চেহারা একই রকম, লজিট-লিনিয়ার রিগ্রেশন (যেমন আপনি এটি ডাকছেন) রূপান্তরিত প্রতিক্রিয়া ব্যবহার করে (যেমন, প্রতিক্রিয়ার একটি সংখ্যাসূচক ভেরিয়েবল) ঠিক যেমন স্কয়ার বা স্ক্রিট রূপান্তর),

সাধারণত, লিনিয়ার রিগ্রেশন সাধারণ লেস্ট স্কোয়ার্স (ওএলএস) এর মাধ্যমে লাগানো হয়, যা রিগ্রেশন সমস্যার জন্য বর্গক্ষেত্র ক্ষয়কে হ্রাস করে; লজিস্টিক রিগ্রেশন ম্যাক্সিমাম সম্ভাব্যতা প্রাক্কলন (এমএলই) এর মাধ্যমে লাগানো হয়েছে, যা শ্রেণিবিন্যাস সমস্যার জন্য লগ-ক্ষয়কে হ্রাস করে। এখানে লোকস ফাংশন লস ফাংশন, দেব রামনান সম্পর্কিত একটি উল্লেখ রয়েছে । প্রথম উদাহরণে, আপনি pপ্রতিক্রিয়া হিসাবে বিবেচনা করেন এবং ওএলএস এর মাধ্যমে একটি সাধারণ লিনিয়ার রিগ্রেশন মডেল ফিট করেন; দ্বিতীয় উদাহরণে, আপনি বলছেন Rযে আপনি লজিস্টিক রিগ্রেশন মডেলটি ফিট করছেন family=binomial, সুতরাং Rএমএলই দ্বারা মডেলটি ফিট করুন। আপনি দেখতে পাচ্ছেন, প্রথম মডেলটিতে আপনি টি-টেস্ট এবং এফ-পরীক্ষা পান, যা লিনিয়ার রিগ্রেশন-এর জন্য উপযুক্ত ওএলএসের শাস্ত্রীয় আউটপুট। দ্বিতীয় মডেলটিতে, সহগের তাত্পর্য টেস্টের zপরিবর্তে হয় istএটি লজিস্টিক রিগ্রেশন-এর MLE ফিটের ধ্রুপদী আউটপুট।

— JellicleCat
সূত্র

দুর্দান্ত প্রশ্ন (+1) এবং দুর্দান্ত উত্তর (+1)। আমি নতুন কিছু শিখেছি।

— আলেকসান্দ্র ব্লেক

আমি রাজি হবে। তবে logistic regression is a CLASSIFICATION problemএটি একটি অর্থে ভুল ব্যাখ্যা করা যেতে পারে যে এটি যতক্ষণ ভাল এটি শ্রেণিবদ্ধ করা যায় ততই মূল্যবান। যা ভাবা ভুল হবে, কারণ একটি মডেল তাত্ত্বিকভাবে "অনুকূল" এবং কীভাবে এটি সম্ভাবনার মডেলগুলি কখনও কখনও একটি খুব ভাল মডেলের চেয়ে খারাপ শ্রেণীবদ্ধ করতে পারে ।

— ttnphns

আপনার মন্তব্যের জন্য ধন্যবাদ! আমি মনে করি যদি প্রতিক্রিয়াটি শ্রেণিবদ্ধ হয় তবে এটিকে একটি শ্রেণিবিন্যাসের সমস্যা বলা একটি সম্মেলন convention মডেলটি ভাল অভিনয় করে বা না গুরুত্বপূর্ণ, তবে নামকরণকে প্রভাবিত করে না।

— জেলিকেলকিট

ধন্যবাদ @ জেলিকেলকিগ - আমি জানি যে এই ধরণের অনুপাতের তথ্য লজিস্টিক রিগ্রেশন-এর পক্ষে উপযুক্ত নয়, তবে যে পরিস্থিতিগুলির মধ্যে লগ-ট্রান্সফর্মড অনুপাতের সাথে সহগের অনুমানগুলি ওএলএসের চেয়ে পৃথক হবে সে সম্পর্কে আগ্রহী ছিল। আপনার উদাহরণের জন্য ধন্যবাদ - এটি স্পষ্ট যে বর্ধিত বৈচিত্রের সাথে, গুণাগুলির অনুমানগুলি ডাইভার্জ হয়।

— jbaums