লজিট-ট্রান্সফর্মড লিনিয়ার রিগ্রেশন, লজিস্টিক রিগ্রেশন এবং লজিস্টিক মিশ্র মডেলের মধ্যে পার্থক্য কী?


10

ধরুন আমার 10 জন শিক্ষার্থী রয়েছে, যারা প্রতিটি 20 টি গণিতের সমস্যাগুলি সমাধান করার চেষ্টা করে। সমস্যাগুলি সঠিক বা ভুল (লম্বাডাটাতে) স্কোর করা হয় এবং প্রতিটি শিক্ষার্থীর পারফরম্যান্স একটি নির্ভুলতা পরিমাপ (সাবজডাটা) দ্বারা সংক্ষিপ্ত করা যায়। নীচে 1, 2 এবং 4 টি মডেলগুলি পৃথক পৃথক ফলাফলের উপস্থিতি দেখায় তবে আমি বুঝতে পারি যে তারা একই জিনিস করছে doing কেন তারা বিভিন্ন ফলাফল উত্পাদন করছে? (আমি রেফারেন্সের জন্য মডেল 3 অন্তর্ভুক্ত করেছি))

library(lme4)

set.seed(1)
nsubjs=10
nprobs=20
subjdata = data.frame('subj'=rep(1:nsubjs),'iq'=rep(seq(80,120,10),nsubjs/5))
longdata = subjdata[rep(seq_len(nrow(subjdata)), each=nprobs), ]
longdata$correct = runif(nsubjs*nprobs)<pnorm(longdata$iq/50-1.4)
subjdata$acc = by(longdata$correct,longdata$subj,mean)
model1 = lm(logit(acc)~iq,subjdata)
model2 = glm(acc~iq,subjdata,family=gaussian(link='logit'))
model3 = glm(acc~iq,subjdata,family=binomial(link='logit'))
model4 = lmer(correct~iq+(1|subj),longdata,family=binomial(link='logit'))

আমি বিটা রিগ্রেশনও চেষ্টা করেছিলাম, তবে একটি ত্রুটি পেয়েছি ... library(betareg) model5 = betareg(acc~scale(iq),subjdata)
ব্যবহারকারীর ২০০61

library(car)প্রয়োজনীয়, লগইট ফাংশন জন্য।
ব্যবহারকারী20061

1
এটি সম্পর্কিত প্রশ্নগুলির জন্য আমার দুটি উত্তর পড়তে আপনাকে সহায়তা করতে পারে: লজিট এবং প্রবিট মডেলগুলির মধ্যে পার্থক্য (যা সাধারণভাবে লিঙ্ক ফাংশন এবং জিএলআইএমগুলি নিয়ে আলোচনা করে - শেষে একটি মন্তব্য বিশেষত আপনার 1 এবং 3 সম্বোধন করে), এবং সাধারণীকরণীয় রৈখিক মডেলগুলির মধ্যে পার্থক্য & সাধারণ রৈখিক মিশ্র মডেলগুলি (যা আপনার 4 টি 1 এবং 3 এর থেকে আলাদা কী তা নিয়ে আলোচনা করে)।
গুং - মনিকা পুনরায়

উত্তর:


15

মডেল 1 এবং 2 পৃথক কারণ প্রথম প্রতিক্রিয়ার রূপান্তর করে এবং দ্বিতীয়টি তার প্রত্যাশিত মানটিকে রূপান্তর করে।

মডেল 1 প্রতিটি প্রতিক্রিয়ার logit জন্য সাধারণত বিতরণ করা হয় তার গড় সঙ্গে ভবিষ্যদ্বাণীকারী এবং সহগ ভেক্টরগুলির একটি লিনিয়ার ফাংশন। এবং সেইজন্য মডেল 2 এর জন্য প্রতিক্রিয়া নিজেই সাধারণত বিতরণ করা হয় লগিট এর পূর্বাভাসক এবং সহগামী ভেক্টরগুলির লিনিং ফাংশন হিসাবে রয়েছে এবং তাই

logitYiN(μi,σ2)
μi=xiβ
Yi=logit1(xiβ+εi)
YiN(μi,σ2)
logitμi=xiβ
Yi=logit1(xiβ)+εi

সুতরাং ভেরিয়েন্স কাঠামো আলাদা হবে। মডেল 2 থেকে অনুকরণটি কল্পনা করুন: বৈকল্পিক প্রত্যাশিত মানের চেয়ে স্বতন্ত্র হবে; যদিও প্রতিক্রিয়াগুলির প্রত্যাশিত মান 0 এবং 1 এর মধ্যে হবে তবে প্রতিক্রিয়াগুলি সমস্ত হবে না।

আপনার মডেল 4 এর মতো সাধারণ রৈখিক মিশ্র মডেলগুলি আবার আলাদা কারণ তাদের এলোমেলো প্রভাব রয়েছে: দেখুন এখানে & এখানে


আপনাকে অনেক ধন্যবাদ - এটি মডেল 1 এবং মডেল 2 কে খুব স্পষ্টভাবে আলাদা করে দেয় আপনার যুক্তি যে মডেল 2 [0,1] এর বাইরে থাকার জন্য কিছু নির্ভুলতার স্কোরগুলি (যদিও তাদের প্রত্যাশিত মান নয়) বিশেষভাবে সহায়ক (এবং এটি আমার উদ্দেশ্যে অযোগ্য ঘোষণা করে) )। আমি বিশ্বাস করি মডেল 1 এর বিপরীতে অনুরূপ অন্তর্দৃষ্টি ব্যবহার করা যেতে পারে: এর সম্ভাব্য পূর্বাভাস যথাযথ স্কোরের পরিসর [0,1] নয় (0,1] এ পড়বে। সীমিত সংখ্যক প্রশ্ন সহ, কোনও মডেলকে কিছু নির্ভুলতার স্কোর 0 বা 1 হওয়ার পূর্বাভাস দেওয়া উচিত, এবং দ্বিপদী বিতরণ ঠিক তা করতে পারে।
ব্যবহারকারী20061

2
উল্লেখ্য আপনি সাধারণত (আপনার কাঁচা ডেটা বিরুদ্ধে logit লিঙ্ক সহ দ্বিপদ GLM মাপসই করা উচিত longdata), না আপনার মডেল 3. হিসেবে অনুপাত
পুনর্বহাল মনিকা - Scortchi

7

@ স্পোর্টচিকে +1, যিনি একটি খুব স্পষ্ট এবং সংক্ষিপ্ত উত্তর সরবরাহ করেছেন। আমি কয়েকটি পরিপূরক পয়েন্ট করতে চাই। প্রথমত, আপনার দ্বিতীয় মডেলের জন্য, আপনি উল্লেখ করছেন যে আপনার প্রতিক্রিয়া বিতরণটি গাউসিয়ান (ওরফে, সাধারণ)। এটি অবশ্যই ভুল হতে পারে, কারণ প্রতিটি উত্তর সঠিক বা ভুল হিসাবে গোল হয়। অর্থাৎ, প্রতিটি উত্তর একটি বার্নোল্লি বিচার। সুতরাং, আপনার প্রতিক্রিয়া বিতরণ একটি দ্বিপদী। এই ধারণাটি আপনার কোডেও সঠিকভাবে প্রতিফলিত হয়েছে। এর পরে, প্রতিক্রিয়া বিতরণকে নিয়ন্ত্রণ করে এমন সম্ভাবনাটি সাধারণত বিতরণ করা হয়, সুতরাং লিংকটি প্রবিট হওয়া উচিত, লজিট নয়। শেষ অবধি, যদি এটি বাস্তব পরিস্থিতি হয় তবে আপনাকে বিষয় এবং প্রশ্ন উভয়ের জন্য এলোমেলো প্রভাবের জন্য অ্যাকাউন্টিং করতে হবে, কারণ এগুলির অভিন্ন হওয়ার সম্ভাবনা খুব কম। আপনি যেভাবে এই ডেটাগুলি তৈরি করেছেন, প্রতিটি ব্যক্তির একমাত্র প্রাসঙ্গিক দিক হ'ল তাদের আইকিউ, যা আপনি স্পষ্টভাবে হিসাব করেছেন। সুতরাং, মডেলের কোনও এলোমেলো প্রভাব দ্বারা এটির জন্য আর কিছু অবশিষ্ট নেই nothing এটি প্রশ্নগুলির ক্ষেত্রেও সত্য, কারণ প্রশ্নে অসুবিধাজনিত এলোমেলো প্রকরণগুলি আপনার কোডে ডেটা উত্পন্ন করার প্রক্রিয়ার অংশ নয়।

আমি এখানে পিচ্ছিল করা মানে না। আমি স্বীকার করেছি যে আপনার সেটআপটি কেবল আপনার প্রশ্নের সুবিধার্থে ডিজাইন করা হয়েছে এবং এটি সেই উদ্দেশ্যে কাজ করেছে; @ স্কোর্টচি আপনার প্রশ্নগুলিকে খুব কম সংঘাতের সাথে সরাসরি সমাধান করতে সক্ষম হয়েছিল। যাইহোক, আমি এই বিষয়গুলি উল্লেখ করছি কারণ তারা যে পরিস্থিতিটি নিয়ে আপনি ঝাঁপিয়ে পড়ছেন তা বোঝার জন্য অতিরিক্ত সুযোগগুলি সরবরাহ করে এবং কারণ আপনি বুঝতে পারেন নি যে আপনার কোডটি আপনার গল্পের লাইনের কিছু অংশের সাথে মেলে তবে অন্যের সাথে নয়।


আমার কোড সম্পর্কে এই ধরনের সতর্ক ধারণা জন্য আপনাকে ধন্যবাদ। অনুভূতি সংক্রান্ত ডেটা নিয়ে কাজ করা কেউ হিসাবে, আমি ভেবে অভিমান করি যে জাল তথ্য উত্পন্ন করার বিষয়ে আমার কোনও দক্ষতা নেই এবং এটি আপনার চিহ্নিত ত্রুটিগুলি এখানে প্রদর্শন করে। যদিও, আমার অবিশ্বাস্য স্তরের বোঝাপড়াটি নিজেই প্রকাশ পাচ্ছে।
ব্যবহারকারী ২০০200

ধন্যবাদ গুং, অতিরিক্ত তথ্যটি দরকারী ছিল এবং অন্যকে (কমপক্ষে আমাকে) পুরো পরিস্থিতিটি কিছুটা আরও ভালভাবে বুঝতে সহায়তা করে। জিএলএম পদ্ধতির বিষয়ে একটি হ্যান্ডেল পাওয়া শক্ত।
ক্রিস্টোফার পোইল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.