লজিস্টিক রিগ্রেশন - ত্রুটি শর্ত এবং এর বিতরণ


31

লজিস্টিক রিগ্রেশন (এবং এটি অনুমান করা বিতরণ) এ ত্রুটির শব্দ বিদ্যমান কিনা তা নিয়ে আমি বিভিন্ন জায়গায় পড়েছি যে:

  1. কোনও ত্রুটি শর্ত বিদ্যমান নেই
  2. ত্রুটির শব্দটির দ্বি-দ্বি বিতরণ (প্রতিক্রিয়া ভেরিয়েবলের বিতরণ অনুসারে) রয়েছে
  3. ত্রুটি শব্দটির একটি লজিস্টিক বিতরণ রয়েছে

কেউ দয়া করে স্পষ্ট করতে পারেন?


6
লজিস্টিক রিগ্রেশন - বা প্রকৃতপক্ষে আরও সাধারণভাবে জিএলএমগুলির সাথে - পর্যবেক্ষণের দিক দিয়ে ভাবনা সাধারণত কার্যকর নয় yi|x "মানে + ত্রুটি" হিসাবে। শর্তযুক্ত বিতরণের ক্ষেত্রে বিবেচনা করা ভাল। 'ত্রুটি শব্দটির অস্তিত্ব নেই' বলে আমি এতদূর যেতে পারব না কারণ 'এই পদগুলিতে চিন্তা করা কেবল সহায়ক নয়'। সুতরাং আমি এটি খুব বেশি বলব না যে এটি 1 বা 2 এর মধ্যে একটি পছন্দ হিসাবে আমি বলব সাধারণত "উপরের কোনওটিই না" বলাই ভাল। যাইহোক, ডিগ্রি নির্বিশেষে যে কেউ "১" এর পক্ষে তর্ক করতে পারে of বা "2.", যদিও, "3." অবশ্যই ভুল। তুমি কোথায় দেখলে?
গ্লেন_বি -রিনস্টেট মনিকা

1
@ গ্লেন_বি: (২) এর পক্ষে কেউ তর্ক করতে পারে? আমি লোকদের এটি বলতে জানি কিন্তু এটির জিজ্ঞাসা করা হলে কখনই এটির পক্ষে নয়।
Scortchi - পুনর্বহাল মনিকা

3
@ Glen_b তিনটি বিবৃতিতে গঠনমূলক ব্যাখ্যা রয়েছে যাতে তারা সত্য। (3) এ সম্বোধন করা হয়েছে en.wikipedia.org/wiki/Logistic_distribution#Applications এবং en.wikipedia.org/wiki/Discrete_choice#Binary_Choice
শুক্র

@ হুবার: আমি আমার উত্তরটি সংশোধন করেছি (3), যা ভালভাবে ভাবা হয়নি; তবে এখনও কী (2) সঠিক হতে পারে তা নিয়ে আশ্চর্য হয়ে পড়েছেন।
স্কোর্টচি - মনিকা পুনরায় ইনস্টল করুন

2
@ স্কোর্টচি যদিও আপনি ঠিক বলেছেন যে (২) ভুল আছে, আমরা যদি এটি ব্যাখ্যা করে বলি যে একটি পর্যবেক্ষণ এবং তার প্রত্যাশার মধ্যে পার্থক্যটি প্রত্যাশা দ্বারা অনুবাদ করা দ্বিপদী বিতরণ রয়েছে , তবে এটি (তুচ্ছ) সঠিক হবে। (2) এর প্রথমসূত্র মন্তব্যটি দৃ strongly়ভাবে প্রস্তাব দেয় এটি হ'ল উদ্দেশ্য interpretation নোট করুন যে অন্যান্য দরকারী "ত্রুটির শর্তাদি" সংজ্ঞায়িত করা যেতে পারে, যেমন হোসমার ও লেমেশোতে বর্ণিত χ2 এবং ডিভ্যান্স ত্রুটি শর্তগুলি (এবং সেখানে আলোচিত উপযুক্ত ক্যাভেটগুলির সাপেক্ষে, তাদের স্কোয়ারগুলিতে আনুমানিক χ2 বিতরণ থাকে)।
হোবল

উত্তর:


25

লিনিয়ার রিগ্রেশন পর্যবেক্ষণগুলি অনুমানকারী মানগুলিতে শর্তসাপেক্ষ একটি পরামিতি সহ গাউসীয় বিতরণ অনুসরণ করে বলে মনে করা হয়। আপনি যদি পর্যবেক্ষণগুলি থেকে গড় বিয়োগ করেন তবে ত্রুটি পাবেন get : গড়ের শূন্যের সাথে গাউসিয়ান বিতরণ এবং ভবিষ্যদ্বাণীকারী মানগুলির থেকে পৃথক — এটি ভবিষ্যদ্বাণীমূলক মানগুলির কোনও সেটগুলিতে ত্রুটিগুলি একই বন্টনকে অনুসরণ করে।

লজিস্টিক রিগ্রেশন পর্যবেক্ষণে একটি বের্নুলির বন্টন অনুসরণ করতে অধিকৃত হয় একটি গড় প্যারামিটার (ক সম্ভাব্যতা) predictor মান উপর শর্তাধীন সঙ্গে। সুতরাং একটি গড় নির্ণয় কোনো predictor মানের জন্য π : মাত্র দুটি সম্ভাব্য ত্রুটি আছে 1 - π সম্ভাব্যতা সঙ্গে ঘটছে π , & 0 - π সম্ভাব্যতা সঙ্গে ঘটছে 1 - π । অন্যান্য predictor মানের জন্য ত্রুটি হতে হবে 1 - π ' সম্ভাব্যতা সঙ্গে ঘটছে π 'y{0,1}π1ππ0π1π1ππ, & সম্ভাব্যতা সঙ্গে ঘটছে 1 - π ' । সুতরাং পূর্বাভাসক মানগুলির চেয়ে পৃথক কোনও সাধারণ ত্রুটি বিতরণ নেই, এ কারণেই লোকেরা বলে "কোনও ত্রুটি শর্ত বিদ্যমান নেই" (1)।0π1π

"ত্রুটির শব্দটির দ্বি দ্বি বিতরণ রয়েছে" (২) কেবল justালু — "গাউসীয় মডেলগুলিতে গাউসিয়ান ত্রুটি রয়েছে, দ্বি দ্বিপদী মডেলের দ্বিপদী ত্রুটি রয়েছে"। (অথবা @ শুভর ইঙ্গিত হিসাবে, এটি "পর্যবেক্ষণ এবং এর প্রত্যাশার মধ্যে পার্থক্যের প্রত্যাশার দ্বি দ্বিপদী বিতরণ রয়েছে" বোঝানো যেতে পারে।)

"ত্রুটির শব্দটির একটি লজিস্টিক বিতরণ থাকে" (3) মডেলটি থেকে লজিস্টিক রিগ্রেশন উত্স থেকে উদ্ভূত হয় যেখানে আপনি পর্যবেক্ষণ করেন যে লজিস্টিক বিতরণের পরে ত্রুটিযুক্ত একটি সুপ্ত পরিবর্তনশীল কিছু প্রান্তিক ছাড়িয়েছে কিনা। সুতরাং এটি উপরে বর্ণিত একই ত্রুটি নয়। (আইএমও বলা সেই প্রসঙ্গের বাইরে বা সুপ্ত ভেরিয়েবলের সুস্পষ্ট উল্লেখ ছাড়াই বলা একটি অদ্ভুত বিষয় বলে মনে হবে))

† আপনি যদি একই predictor মান পর্যবেক্ষণ, একই সম্ভাব্যতা দান π প্রত্যেকের জন্য, তারপর তাদের যোগফল Σ Y সম্ভাব্যতা সঙ্গে একটি দ্বিপদ বিন্যাস অনুসরণ করে π এবং না। বিচারের কে । বিবেচনা Σ Y - π একই সিদ্ধান্তে ত্রুটির বিশালাকার হিসাবে।kπyπkykπ


1
আপনি 'কোনও ত্রুটি শর্ত উপস্থিত নেই' অংশটি সম্পর্কে একটি সাধারণ উদাহরণ সরবরাহ করতে পারেন। এটি যেভাবে লেখা হয়েছে তা বুঝতে আমার সমস্যা হচ্ছে।
quirik

অনুগ্রহ করে মডেলটি কিছু দোরগোড়ায় ব্যবহার করা হলে @ স্কার্টচি আমাকে মামলা অনুসরণ করতে সমস্যা হচ্ছে, 0.5 বলুন। তারপর ত্রুটি পারেন 1 বা 0 এই তারপর প্যারামিটার 1- একটি বের্নুলির দৈব চলক বিবেচনা করা যেতে পারে যখন প্রকৃত লেবেল 1 কে? π
wabbit

17

এটি এর আগেও coveredাকা পড়ে গেছে। পূর্বাভাসিত মান থাকতে বাধ্য এমন একটি মডেলের সম্ভবত একটি অ্যাডিটিভ ত্রুটি শব্দ থাকতে পারে না যা ভবিষ্যদ্বাণীগুলি [ 0 , 1 ] এর বাইরে চলে যেতে পারে । বাইনারি লজিস্টিক মডেলের সর্বাধিক সহজ উদাহরণটি ভাবেন - এমন একটি মডেল যা কেবলমাত্র একটি বাধা থাকে containing এটি বার্নোল্লি এক-নমুনা সমস্যার সমতুল্য, প্রায়শই বলা হয় (এই সাধারণ ক্ষেত্রে) দ্বিপদী সমস্যা কারণ (1) সমস্ত তথ্য নমুনার আকার এবং ইভেন্টের সংখ্যার মধ্যে থাকে বা (২) বার্নোল্লি বিতরণ একটি বিশেষ কেস দ্বি দ্বি বিতরণের এন = 1 দিয়ে[0,1][0,1]n=1। এই পরিস্থিতিতে কাঁচা ডেটা বাইনারি মানগুলির একটি সিরিজ, এবং প্রত্যেকের অজানা প্যারামিটার সহ একটি বার্নোলি বিতরণ রয়েছে যা ঘটনার সম্ভাবনার প্রতিনিধিত্ব করে। বের্নুলি বিতরণে কোনও ত্রুটি শর্ত নেই, কেবল একটি অজানা সম্ভাবনা রয়েছে। লজিস্টিক মডেল একটি সম্ভাবনার মডেল।θ


9

আমার কাছে লজিস্টিক, লিনিয়ার, পোয়েসন রিগ্রেশন ইত্যাদির একীকরণ ... সর্বদা জেনারালাইজড লিনিয়ার মডেল কাঠামোটিতে গড় এবং তারতম্যের দিক থেকে চলেছে। আমরা আমাদের ডেটাগুলির জন্য সম্ভাব্য বন্টন, অবিচ্ছিন্ন উপাত্তের জন্য সাধারণ, দ্বৈতপ্রাকৃতির জন্য বার্নোল্লি, গণনাগুলির জন্য পোইসন ইত্যাদি নির্দিষ্ট করে শুরু করি ... তারপরে আমরা একটি লিঙ্ক ফাংশন নির্দিষ্ট করি যা লিনিয়ার ভবিষ্যদ্বাণীটির সাথে কীভাবে এর সাথে সম্পর্কিত তা বর্ণনা করে:

g(μi)=α+xiTβ

লিনিয়ার রিগ্রেশন এর জন্য, g(μi)=μi

g(μi)=log(μi1μi)

g(μi)=log(μi)

ত্রুটি শব্দটি লেখার ক্ষেত্রে যে বিষয়টি শুধুমাত্র বিবেচনা করতে সক্ষম হতে পারে তা হ'ল:

yi=g1(α+xiTβ)+ei where E(ei)=0 and Var(ei)=σ2(μi). For example, for logistic regression, σ2(μi)=μi(1μi)=g1(α+xiTβ)(1g1(α+xiTβ)). But, you cannot explicitly state that ei has a Bernoulli distribution as mentioned above.

Note, however, that basic Generalized Linear Models only assume a structure for the mean and variance of the distribution. It can be shown that the estimating equations and the Hessian matrix only depend on the mean and variance you assume in your model. So you don't necessarily need to be concerned with the distribution of ei for this model because the higher order moments don't play a role in the estimation of the model parameters.


0
  1. No errors exist. We are modeling the mean! The mean is just a true number.
  2. This doesn't make sense to me.
  3. Think the response variable as a latent variable. If you assume the error term is normally distributed, then the model becomes a probit model. If you assume the distribution of the error term is logistic, then the model is logistic regression.

2
I fail to see how this helps one understand a probability model. Probability models are simpler than this makes it seem.
Frank Harrell
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.