বিটা রিগ্রেশনতে লগইট লিঙ্কটি কেন ব্যবহার করবেন?


14

অনুপাতের ফলাফলের জন্য সম্প্রতি, আমি একটি বিটা রিগ্রেশন মডেল বাস্তবায়নে আগ্রহী। মনে রাখবেন যে এই ফলাফল দ্বিপাক্ষিক প্রসঙ্গে মাপসই হবে না, কারণ এই প্রসঙ্গে একটি "সাফল্য" সম্পর্কিত কোনও অর্থবহ ধারণা নেই। বাস্তবে, ফলাফলটি আসলে সময়কালের অনুপাত; অংকটি সেকেন্ডের সংখ্যার এবং একটি নির্দিষ্ট শর্তটি সেকেন্ডের মোট সংখ্যার চেয়ে সক্রিয় থাকে যখন এই অবস্থাটি সক্রিয় হওয়ার জন্য যোগ্য ছিল। আমি অস্পষ্টদের জন্য ক্ষমা চাইছি, তবে আমি এই সূক্ষ্ম প্রসঙ্গে খুব বেশি মনোযোগ দিতে চাই না, কারণ আমি বুঝতে পারি যে বিটা রিগ্রেশন ছাড়াও এই জাতীয় প্রক্রিয়াটি বিভিন্নভাবে তৈরি করা যেতে পারে এবং এখনকার জন্য আমি তাত্ত্বিক বিশেষত আরও আগ্রহী এই জাতীয় মডেলটি বাস্তবায়নের জন্য আমার প্রয়াসে উত্থিত প্রশ্নগুলি (যদিও আমি অবশ্যই,

যাইহোক, আমি যে সকল সংস্থানগুলি সন্ধান করতে পেরেছি সেগুলির সমস্ত ইঙ্গিত দিয়েছে যে বিটা রিগ্রেশন সাধারণত লজিট (বা প্রবিট / ক্লোগলগ) লিঙ্কটি ব্যবহার করে উপযুক্ত হয় এবং পরামিতিগুলি লগ-প্রতিক্রিয়াগুলিতে পরিবর্তন হিসাবে ব্যাখ্যা করা হয়। যাইহোক, আমি এখনও একটি রেফারেন্স খুঁজে পাইনি যা কেন কেউ এই লিঙ্কটি ব্যবহার করতে চায় তার জন্য কোনও সত্যিক সমর্থন উপলব্ধি করে provides

আসল ফেরারী এবং ক্রিবারি-নেটো (2004) কাগজটি ন্যায়সঙ্গততা দেয় না; তারা কেবল খেয়াল করে যে লগইট ফাংশনটি "বিশেষত কার্যকর", ক্ষতিকারক পরামিতিগুলির প্রতিকূল অনুপাতের ব্যাখ্যার কারণে। অন্যান্য উত্সগুলি ব্যবধান (0,1) থেকে আসল লাইনে মানচিত্রের আকাঙ্ক্ষাকে বোঝায়। যাইহোক, আমরা ইতিমধ্যে একটি বিটা বিতরণ ধরে নিচ্ছি যে এই ধরণের ম্যাপিংয়ের জন্য আমাদের কী অগত্যা একটি লিঙ্ক ফাংশন প্রয়োজন? বিটা বিতরণ শুরু করার বিষয়টি ধরে ধরে লিংক ফাংশনটি আরোপিত বাধাগুলির উপরে এবং তার বাইরে কী কী সুবিধা সরবরাহ করে?আমি বেশ কয়েকটি দ্রুত সিমুলেশন চালিয়েছি এবং একটি পরিচয় লিঙ্কের সাথে (0,1) ব্যবধানের বাইরে ভবিষ্যদ্বাণীগুলি দেখিনি, এমনকি বিটা বিতরণগুলি থেকে সিমুলেট করার সময়ও যার সম্ভাব্যতা ভর প্রায় 0 বা 1 এর কাছাকাছি, তবে সম্ভবত আমার সিমুলেশনগুলি কিছু প্যাথলজিকে ধরার মতো সাধারণ ছিল না।

আমার কাছে মনে হয় যে ব্যক্তিরা, বাস্তবে, বিটা রিগ্রেশন মডেলগুলির (যেমন বৈষম্য অনুপাত হিসাবে) পরামিতি অনুমানগুলি ব্যাখ্যা করে যে তারা "সাফল্যের" প্রতিকূলতার সাথে নিখুঁতভাবে অনুমান করছে; অর্থাৎ, তারা দ্বিপদী মডেলের বিকল্প হিসাবে বিটা রিগ্রেশন ব্যবহার করছে। সম্ভবত এটি বিটা এবং দ্বিপদী বিতরণের মধ্যকার সম্পর্ককে কেন্দ্র করে কিছু প্রসঙ্গে উপযুক্ত, তবে আমার কাছে মনে হয় এটি সাধারণের চেয়ে বিশেষ ক্ষেত্রে হওয়া উচিত। ইন এই প্রশ্ন, একটি উত্তর বরং পরিণতি চেয়ে একটানা অনুপাত থেকে সম্মান সঙ্গে মতভেদ অনুপাত ব্যাখ্যা জন্য প্রদান করা হয়, কিন্তু এটি ব্যবহার করে, বলুন, একটি লগ উল্টোদিকে চেষ্টা করুন এবং জিনিষ এই ভাবে ব্যাখ্যা করা, অকারণে কষ্টকর হতে আমার মনে হচ্ছে বা পরিচয় লিঙ্ক এবং% পরিবর্তন বা ইউনিট-শিফ্টের ব্যাখ্যা।

সুতরাং, কেন আমরা বিটা রিগ্রেশন মডেলগুলির জন্য লগইট লিঙ্কটি ব্যবহার করব? দ্বিপদী মডেলগুলির সাথে এটি সম্পর্কযুক্ত করা কি কেবল সুবিধার বিষয় হিসাবে?

উত্তর:


8

লিঙ্ক ফাংশনটির ন্যায়সঙ্গতকরণ: একটি লিঙ্ক ফাংশন নিশ্চিত করে যে সমস্ত মানযুক্ত মান হয় সবসময় মধ্যে । কিছু অ্যাপ্লিকেশনগুলিতে এটি এতটা গুরুত্বপূর্ণ নাও হতে পারে, উদাহরণস্বরূপ, কারণ ভবিষ্যদ্বাণীগুলি বা কেবলমাত্র নমুনা দ্বারা মূল্যায়ন করা হয় বা 0 বা 1 এর খুব কাছাকাছি না হয় তবে কিছু অ্যাপ্লিকেশনে এটি ব্যাপার হতে পারে এবং আপনি সাধারণত আগাম জানেন না এটি গুরুত্বপূর্ণ কিনা বা আপনি আগে থেকেই জানেন না or না. আমি যে সাধারণ সমস্যাগুলি দেখেছি সেগুলির মধ্যে রয়েছে: নতুন মানগুলির পূর্বাভাসগুলি মূল্যায়ন করা যা মূল শেখার নমুনার সীমার বাইরে (সামান্য) হয় বা উপযুক্ত শুরু মানগুলি সন্ধান করে। পরেরটির জন্য বিবেচনা করুন:(μ):(0,1)আরμ^=-1(এক্সβ^)(0,1)এক্স

library("betareg")
data("GasolineYield", package = "betareg")
betareg(yield ~ batch + temp, data = GasolineYield, link = make.link("identity"))
## Error in optim(par = start, fn = loglikfun, gr = if (temporary_control$use_gradient) gradfun else NULL,  : 
##   initial value in 'vmmin' is not finite

তবে অবশ্যই, কেউ কেবল উভয় বিকল্প ব্যবহার করে দেখতে পারেন যে পরিচয় লিঙ্কে সমস্যা দেখা দেয় এবং / অথবা এটি মডেলের ফিটকে উন্নত করে কিনা।

পরামিতিগুলির ব্যাখ্যা: আমি সম্মত হই যে একটি পরিচয় লিঙ্কযুক্ত মডেলগুলির তুলনায় লিঙ্ক ফাংশনযুক্ত মডেলগুলিতে পরামিতিগুলি ব্যাখ্যা করা আরও কঠিন এবং অনুশীলনকারীরা প্রায়শই এটি ভুল হয়ে যায়। যাইহোক, আমি প্রায়শই লিনিয়ার সম্ভাব্যতা মডেলগুলিতে পরামিতিগুলির অপব্যাখ্যাগুলি দেখেছি (পরিচয়ের লিঙ্কযুক্ত বাইনারি রিগ্রেশনগুলি সাধারণত কমপক্ষে স্কোয়ার দ্বারা)। প্রেডিকশনগুলি 0 বা 1 এর নিকটবর্তী হয়ে যায় এবং একটিকে সত্যই সতর্ক হওয়া দরকার যদি প্রান্তিক প্রভাবগুলি ধ্রুবক হয় এমন অনুমানটি ধরে রাখতে পারে না। উদাহরণস্বরূপ, সাথে পর্যবেক্ষণের জন্য বৃদ্ধি এর হ্রাস করতে পারে না , বলুন,μ^=0.01এক্সμ^0.02। তবে প্রায়শই এই পরিস্থিতিতে খুব opালুভাবে চিকিত্সা করা হয়। অতএব, আমি যুক্তি দেব যে সীমিত প্রতিক্রিয়া মডেলের জন্য যে কোনও লিঙ্ক ফাংশন থেকে পরামিতিগুলি সাবধানতার সাথে ব্যাখ্যা করা দরকার এবং কিছু অনুশীলনের প্রয়োজন হতে পারে। আগ্রহের রেজিস্ট্রার কনফিগারেশনের প্রভাবগুলি দেখার জন্য আমার স্বাভাবিক পরামর্শটি (আপনার প্রশ্নের সাথে যুক্ত অন্যান্য আলোচনায় যেমন দেখানো হয়েছে) is এগুলি ব্যাখ্যা করা সহজ এবং বিভিন্ন লিঙ্ক ফাংশনের জন্য প্রায়শই (তবে সর্বদা নয়) বরং অনুরূপ (ব্যবহারিক দৃষ্টিকোণ থেকে) similar


10

এটি ভুল যে লজিস্টিক রিগ্রেশন কেবল বাইনারি ফলাফলের ডেটা মডেল করতে ব্যবহৃত হতে পারে। লজিস্টিক রিগ্রেশন মডেল যে কোনও তথ্যের জন্য উপযুক্ত যেখানে 1) ফলাফলের প্রত্যাশিত মান ভবিষ্যদ্বাণীকারীদের ফাংশন হিসাবে একটি লজিস্টিক বক্ররেখার অনুসরণ করে 2) ফলাফলের বৈচিত্র্য প্রত্যাশিত ফলাফলের বার হ'ল এক বিয়োগ প্রত্যাশিত ফলাফল (বা এর কিছু অংশ) 3) (2 এর ফলাফল) ডেটা 0 এবং 1 এর মধ্যে রয়েছে These তবে বৈজ্ঞানিক প্রশ্নের উত্তর দেওয়ার অর্থ একটি বৈজ্ঞানিক প্রশ্নের উত্তর দেওয়ার জন্য যুক্তিযুক্ত মডেলটিকে অবিলম্বে একটি বাস্তব (এবং কার্যকর করা / ব্যাখ্যা করা সহজ) হিসাবে অবজ্ঞা করার আগে কিছু অনুসন্ধানী পরিসংখ্যান এবং প্লট হাতে নেওয়া উচিত।

একটি লজিস্টিক রিগ্রেশন মডেল হ'ল জেনারালাইজড লিনিয়ার মডেল (জিএলএম) এর একটি বিশেষ কেস, এর অর্থ এই যে মডেলটির দ্বারা সামঞ্জস্যপূর্ণ পরামিতি অনুমান এবং অনুমান দেওয়া হয়। লজিস্টিক মডেলগুলি সাহিত্যের বেশ কয়েকটি জায়গায় মডেল অনুপাত, নিয়মিত পরিবর্তনশীল, হার, পরীক্ষার স্কোর, র‌্যাঙ্কস এবং সমস্ত ধরণের নন-বাইনারি ফলাফলগুলির মডেল হিসাবে ব্যবহৃত হয়।

দুঃখিত যে এই প্রতিক্রিয়াটি আপনার প্রশ্নটি পরে নিচে নামায় না, তবে পূর্বের যুক্তিটি উল্লেখ করা একটি ভুল ধারণা এনেছে যা মোকাবিলার পক্ষে মূল্যবান।

অনেক আর ব্যবহারকারী পরামর্শ দিয়েছেন যে লজিস্টিক মডেলগুলির সাথে অবিচ্ছিন্ন প্রতিক্রিয়া মানিয়ে আসা "সতর্কতা" দমন করা উচিত। একটি "রাস্তার মাঝখানে" পথটি পরিবর্তন family=binomialকরতে হয় family=quasibinomial। এই ডেটাগুলি সিমুলেটেড করা, একটি মডেল ফিট করা এবং সঠিক অনুমানের উদাহরণ এখানে দেখানো হয়েছে:

set.seed(123)
## logistic non-binary response
x <- rep(c(-2, 0, 2), each=50)
n <- length(x)
b0 <- 0
b1 <- 0.3
yhat <- plogis(b0 + b1*x)

do.one <- function(){
  e <- rnorm(n, 0, yhat*(1-yhat))
  y <- yhat + e

  yfixed <- pmin(y, 1)
  yfixed <- pmax(yfixed, 0)

  est <- glm(yfixed ~ x, family=quasibinomial())
  ci <- confint.default(est, level = 0.9)
  cov0 <- b0 > ci[1,1] & b0 < ci[1,2]
  cov1 <- b1 > ci[2,1] & b1 < ci[2,2]
  c(cov0, cov1)
}

reg <- replicate(10000, do.one())
rowMeans(reg)

সিআই-এর সঠিক 90% কভারেজ দেয়


1
আমি লজিস্টিক রিগ্রেশন মডেল সম্পর্কিত প্রদত্ত স্পষ্টির প্রশংসা করি। আপনি সঠিক যে এটি প্রায়শই ধরে নেওয়া হয় তার চেয়ে বেশি সাধারণ মডেল। আমি অবশ্য কোন উত্তর হিসাবে এই গ্রহণ করতে, দ্বিধাগ্রস্ত হই, কারণ মনে হয় এটা না যে বেশ যুক্তি যথেষ্ট লাইন বিকাশ। আমার কাছে মনে হচ্ছে আপনি বলছেন যে একটি বিটা মডেলের লগইট লিঙ্কটি নিয়ে আমার উদ্বেগ ভিত্তিহীন, কারণ লগইট লিঙ্কটি নন-বাইনারি ডেটাতে সূক্ষ্মভাবে কাজ করে। যা একটি যুক্তিসঙ্গত অবস্থান, তবে আমি মনে করি যে আমরা কেন একটি বিটা মডেলটিতে লজিট ব্যবহার করি এবং এটি কীভাবে ব্যাখ্যা করা যায় সে সম্পর্কে আমার প্রশ্নের উত্সাহটি পাইনি ।
রায়ান সিমন্স

1
প্রতিক্রিয়া জানাতে ধন্যবাদ। আমি এখানে আপনার যুক্তি সঙ্গে একমত। আমি মনে করি যে কোনও "শেখার সুযোগ" একটি উত্তর দেয় এবং এইভাবে একটি প্রশ্নের "সঠিকতা" এর বিভিন্ন ডিগ্রি সহ অনেকগুলি সম্ভাব্য উত্তর থাকতে পারে। আমি আপনার প্রশ্নটি স্পর্শ করি নি, এটি একটি ভাল, সুতরাং "রাইটার" উত্তরটি এখনও দেখাতে পারে। আমি নিজে এ সম্পর্কে কৌতূহলী, তাই এই বিষয়টি আরও কিছুটা পড়ার চেষ্টা করছি।
অ্যাডমো
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.