মধ্যে পার্থক্য কি Logit এবং Probit মডেল ?
লজিস্টিক রিগ্রেশন কখন ব্যবহার করতে হবে এবং কখন প্রবিট ব্যবহার করতে হবে তা জানার ক্ষেত্রে আমি এখানে আরও আগ্রহী।
আর এর সাহায্যে এটিকে সংজ্ঞায়িত করে এমন কোনও সাহিত্য থাকলে তাও সহায়ক হবে।
মধ্যে পার্থক্য কি Logit এবং Probit মডেল ?
লজিস্টিক রিগ্রেশন কখন ব্যবহার করতে হবে এবং কখন প্রবিট ব্যবহার করতে হবে তা জানার ক্ষেত্রে আমি এখানে আরও আগ্রহী।
আর এর সাহায্যে এটিকে সংজ্ঞায়িত করে এমন কোনও সাহিত্য থাকলে তাও সহায়ক হবে।
উত্তর:
তারা মূলত লিঙ্ক ফাংশনে পৃথক।
লগিতে:
প্রবিটে: (ক্রমবর্ধমান সাধারণ পিডিএফ)
অন্য উপায়ে, লজিস্টিকের কিছুটা চাটুকার লেজ রয়েছে। অর্থাত্ প্রোবাইট বক্ররেখাটি লজিট বক্রের চেয়ে বেশি দ্রুত অক্ষের কাছে পৌঁছে।
প্রবিটের চেয়ে লগিটের সহজ ব্যাখ্যা রয়েছে। লজিস্টিক রিগ্রেশনকে মডেলিং লগ প্রতিক্রিয়া হিসাবে ব্যাখ্যা করা যেতে পারে (উদাহরণস্বরূপ যারা 25 দিন সিগারেট খায়> 65 বছর বয়সের আগে মারা যাওয়ার সম্ভাবনা 6 গুণ বেশি)। সাধারণত লোকেরা লগিট দিয়ে মডেলিং শুরু করে। লগইট বনাম প্রবিটের জন্য সিদ্ধান্ত নিতে আপনি প্রতিটি মডেলের সম্ভাবনা মানটি ব্যবহার করতে পারেন।
একটি স্ট্যান্ডার্ড লিনিয়ার মডেল (উদাহরণস্বরূপ, একটি সাধারণ রিগ্রেশন মডেল) দুটি 'অংশ' বলে মনে করা যেতে পারে। এগুলিকে স্ট্রাকচারাল উপাদান এবং এলোমেলো উপাদান বলা হয় । উদাহরণস্বরূপ:
প্রথম দুটি পদ (যা, ) গঠন করে কাঠামোগত উপাদান এবং (যা সাধারণত বিতরণ করা ত্রুটির শব্দটি নির্দেশ করে) এলোমেলো উপাদান। যখন প্রতিক্রিয়া ভেরিয়েবলটি সাধারণত বিতরণ করা হয় না (উদাহরণস্বরূপ, যদি আপনার প্রতিক্রিয়া পরিবর্তনশীল বাইনারি হয়) এই পদ্ধতির আর বৈধতা নাও থাকতে পারে। সাধারণ রৈখিক মডেল
β 0 + β 1 এক্স ε জি ( μ ) = β 0 + β 1 এক্স β 0 + β 1 এক্স জি ( ) μ
লিঙ্ক ফাংশনটি জিএলআইএমসের মূল চাবিকাঠি: যেহেতু প্রতিক্রিয়া ভেরিয়েবলের বিতরণটি স্বাভাবিক নয়, তাই এটি আমাদের কাঠামোগত উপাদানটিকে প্রতিক্রিয়াতে সংযুক্ত করতে দেয় - এটি তাদের 'লিঙ্ক' করে (তাই নামটি)। এটি আপনার প্রশ্নের মূল চাবিকাঠি, যেহেতু লগইট এবং প্রবিট হ'ল লিঙ্ক (যেমন @ভিনাক্স ব্যাখ্যা করেছেন), এবং লিঙ্ক ফাংশনগুলি বোঝার ফলে কোনটি কখন ব্যবহার করতে হবে তা বুদ্ধি করে আমাদের চয়ন করতে সহায়তা করবে। যদিও অনেকগুলি লিঙ্ক ফাংশন থাকতে পারে যা গ্রহণযোগ্য হতে পারে, প্রায়শই এমন একটি থাকে যা বিশেষ। আগাছাগুলিতে খুব বেশি দূরে যেতে না চাইলে (এটি খুব প্রযুক্তিগত হতে পারে) ভবিষ্যদ্বাণী করা গড়, , অগত্যা গণিতগতভাবে প্রতিক্রিয়া বিতরণের ক্যানোনিকাল অবস্থান প্যারামিটারের মতো হবে না ;β ( 0 , 1 ) এলএন ( - এলএন ( 1 - μ ) )। এর "সুবিধাটি হ'ল একটি ন্যূনতম পর্যায়ে পরিসংখ্যান " ( জার্মান রডরিগেজ )। বাইনারি প্রতিক্রিয়া ডেটার জন্য প্রমিত লিঙ্ক (আরও নির্দিষ্টভাবে, দ্বিপদী বিতরণ) হ'ল লজিট। তবে, প্রচুর ফাংশন রয়েছে যা কাঠামোগত উপাদানটিকে ব্যবধানে মানচিত্র তৈরি করতে পারে , এবং এইভাবে গ্রহণযোগ্য হবে; প্রবিটটিও জনপ্রিয়, তবে আরও কিছু অপশন রয়েছে যা কখনও কখনও ব্যবহৃত হয় (যেমন পরিপূরক লগ লগ, , প্রায়শই ক্লোজলগ নামে পরিচিত)। সুতরাং, সম্ভাব্য লিঙ্ক ফাংশন প্রচুর এবং লিঙ্ক ফাংশন পছন্দ খুব গুরুত্বপূর্ণ হতে পারে। এর কিছু সংমিশ্রণের ভিত্তিতে পছন্দটি করা উচিত:
এই ধারণাগুলি আরও স্পষ্টভাবে বুঝতে (আমাকে ক্ষমা করুন) বোঝার জন্য কিছুটা ধারণাগত পটভূমি আবৃত করার পরে, আমি ব্যাখ্যা করব যে কীভাবে এই বিবেচনাগুলি আপনার লিঙ্কের পছন্দকে গাইড করতে ব্যবহার করা যেতে পারে। (আমাকে দয়া করে নোট করুন যে আমি মনে করি @ ডেভিডের মন্তব্যটি সঠিকভাবে কেন বিভিন্ন লিঙ্কগুলি অনুশীলনে বেছে নেওয়া হয়েছে )) শুরু করার জন্য, যদি আপনার প্রতিক্রিয়া পরিবর্তনশীল একটি বার্নোল্লি বিচারের ফলাফল (যা, বা ) হয় তবে আপনার প্রতিক্রিয়া বিতরণ হবে দ্বিপদী এবং আপনি আসলে যা মডেলিং করছেন তা হ'ল পর্যবেক্ষণের (অর্থাৎ ) হওয়ার সম্ভাবনা। ফলস্বরূপ, যেকোন ক্রিয়াকলাপ যা ব্যবধানে আসল নম্বর লাইন, মানচিত্র করে1 1 π ( Y = 1 ) ( - ∞ , + ∞ ) ( 0 , 1 )কাজ করবে.
আপনার সংক্ষিপ্ত তত্ত্বের দৃষ্টিকোণ থেকে, আপনি যদি আপনার সহযাত্রীদের সাফল্যের সম্ভাবনার সাথে সরাসরি সংযুক্ত হিসাবে ভাবছেন তবে আপনি সাধারণত লজিস্টিক রিগ্রেশন বেছে নেবেন কারণ এটি আধ্যাত্মিক লিঙ্ক link তবে, নিম্নলিখিত উদাহরণটি বিবেচনা করুন: আপনাকে high_Blood_Pressure
কিছু সমবায়িকদের একটি ফাংশন হিসাবে মডেল করতে বলা হয় । রক্তচাপ নিজেই সাধারণত জনসংখ্যায় বিতরণ করা হয় (তবে আমি এটি আসলে জানি না, তবে এটি প্রথম যুক্তিযুক্ত মনে হয়) তবে চিকিত্সকরা গবেষণার সময় এটিকে দ্বিধায়িত করেছেন (এটি কেবলমাত্র 'হাই-বিপি' বা 'নরমাল' রেকর্ড করা হয়েছে) )। সেক্ষেত্রে তাত্ত্বিক কারণে প্রবিটটি অগ্রাধিকারযোগ্য prior @ এলভিস এর অর্থ "আপনার বাইনারি ফলাফলটি একটি লুকানো গাউসিয়ান ভেরিয়েবলের উপর নির্ভর করে" byপ্রতিসম , আপনি যদি বিশ্বাস করেন যে সাফল্যের সম্ভাবনা শূন্য থেকে আস্তে আস্তে বেড়েছে, তবে এটি যখন একটির কাছে পৌঁছে যায় তখন আরও দ্রুত বন্ধ হয়ে যায়, ক্লোগলগের জন্য বলা হয়, ইত্যাদি etc.
সবশেষে, নোট করুন যে মডেলটির ডেটাগুলিতে পরীক্ষামূলকভাবে কোনও লিঙ্ক নির্বাচন করতে সহায়তা করার সম্ভাবনা নেই, যদি না প্রশ্নে থাকা লিঙ্ক ফাংশনের আকারগুলি যথেষ্ট পরিমাণে পৃথক হয় (যার মধ্যে লজিট এবং প্রবিট না হয়)। উদাহরণস্বরূপ, নিম্নলিখিত সিমুলেশন বিবেচনা করুন:
set.seed(1)
probLower = vector(length=1000)
for(i in 1:1000){
x = rnorm(1000)
y = rbinom(n=1000, size=1, prob=pnorm(x))
logitModel = glm(y~x, family=binomial(link="logit"))
probitModel = glm(y~x, family=binomial(link="probit"))
probLower[i] = deviance(probitModel)<deviance(logitModel)
}
sum(probLower)/1000
[1] 0.695
এমনকি যখন আমরা জানি যে ডেটাগুলি একটি প্রবিট মডেল দ্বারা উত্পাদিত হয়েছিল এবং আমাদের 1000 টি ডাটা পয়েন্ট রয়েছে, তবে প্রবাইট মডেলটি কেবলমাত্র একটি তুচ্ছ পরিমাণে 70% সময়ের চেয়ে ভাল ফিট করে এবং তারপরেও। শেষ পুনরাবৃত্তি বিবেচনা করুন:
deviance(probitModel)
[1] 1025.759
deviance(logitModel)
[1] 1026.366
deviance(logitModel)-deviance(probitModel)
[1] 0.6076806
এর কারণটি হ'ল লগিট এবং প্রবিট লিঙ্ক ফাংশনগুলি একই রকম আউটপুট দেয় যখন একই অনুরূপ আউটপুট দেয়।
লগইট এবং প্রবিট ফাংশনগুলি কার্যত অভিন্ন, যেমন @ভিনাকস বলেছে যে লগইট যখন 'কোণার দিকে' পরিণত হয় তখন সীমানা থেকে কিছুটা দূরে থাকে। (দ্রষ্টব্য যে সর্বোত্তমভাবে সারিবদ্ধ করার জন্য, অবশ্যই জন্য সংশ্লিষ্ট মানের গুন হতে হবে এছাড়াও, আমি ক্লোগলগটি কিছুটা উপরে সরিয়ে দিতে পারতাম যাতে তারা উপরে থাকে) একে অপরের আরও, তবে চিত্রটি আরও পাঠযোগ্য রাখার জন্য আমি এটিকে পাশে রেখে দিয়েছি)) লক্ষ করুন যে ক্লোগলগটি অসামান্য, অন্যদিকে নয়; এটি 0 থেকে প্রথম দিকে টানতে শুরু করে তবে আরও ধীরে ধীরে এবং 1 এর কাছাকাছি পৌঁছে যায় এবং তারপরে তীক্ষ্ণভাবে ঘুরে যায়। ≈ 1.7
লিঙ্ক ফাংশন সম্পর্কে আরও কয়েকটি জিনিস বলা যেতে পারে। প্রথমত, একটি লিঙ্ক ফাংশন হিসাবে পরিচয় ফাংশন ( ) বিবেচনা করা আমাদের সাধারণ রৈখিক মডেলের বিশেষ কেস হিসাবে স্ট্যান্ডার্ড লিনিয়ার মডেলটি বুঝতে সহায়তা করে (যা প্রতিক্রিয়া বিতরণ স্বাভাবিক, এবং লিঙ্ক পরিচয় ফাংশন)। এছাড়া চিনতে যে instantiates যাই হোক না কেন রূপান্তর লিংক সঠিকভাবে প্রয়োগ করা হয় গুরুত্বপূর্ণ প্যারামিটার প্রতিক্রিয়া বন্টন (অর্থাৎ, শাসক ), প্রকৃত প্রতিক্রিয়া ডেটাμ μ = ছ - 1 ( β 0 + + β 1 এক্স ) π ( ওয়াই ) = Exp ( β 0 + + β 1 এক্স )। পরিশেষে, কারণ বাস্তবে আমাদের কাছে রূপান্তর করার অন্তর্নিহিত প্যারামিটারটি কখনই নেই, এই মডেলগুলির আলোচনায়, প্রায়শই যা প্রকৃত লিঙ্ক হিসাবে বিবেচিত হয় তা অন্তর্নিহিত রেখে যায় এবং মডেলটির পরিবর্তে কাঠামোগত উপাদানটিতে লিঙ্ক ফাংশনের বিপরীত দ্বারা প্রতিনিধিত্ব করা হয় । এটি হ'ল:
উদাহরণস্বরূপ, লজিস্টিক রিগ্রেশন সাধারণত উপস্থাপিত হয়:
পরিবর্তে:
সাধারণীভূত রৈখিক মডেলটির দ্রুত এবং স্পষ্ট, তবে দৃ ,় ওভারভিউয়ের জন্য, ফিটজমুরিস, লেয়ার্ড এবং ওয়ার (2004) এর অধ্যায় 10 দেখুন (যার উপরে আমি এই উত্তরের অংশগুলির জন্য ঝুঁকেছি, যদিও যেহেতু এটি আমার নিজস্ব রূপান্তর - এবং অন্যান্য - উপাদান, যে কোনও ভুল আমার নিজস্ব হবে)। এই মডেলগুলিকে আর-তে কীভাবে ফিট করতে যায়, বেস প্যাকেজে ফাংশন ? গ্লোমের ডকুমেন্টেশন পরীক্ষা করে দেখুন ।
(একটি চূড়ান্ত নোট পরে যুক্ত করা হয়েছে :) আমি মাঝে মধ্যে লোকদের বলতে শুনি যে আপনার প্রব্যাকটি ব্যবহার করা উচিত নয়, কারণ এটি ব্যাখ্যা করা যায় না। এটি সত্য নয়, যদিও বিটার ব্যাখ্যা কম স্বজ্ঞাত। লজিস্টিক রিগ্রেশন সঙ্গে, একটি এক একক পরিবর্তন একটি সঙ্গে যুক্ত করা হয় 'সাফল্য' (অথবা, একটি লগ মতভেদ পরিবর্তন মতভেদ মধ্যে ধা পরিবর্তন), সব অন্য সমান হচ্ছে। একটি প্রোবিট সহ, এটি এর পরিবর্তিত হবে । ( উদাহরণস্বরূপ, 1 এবং 2 এর স্কোর সহ একটি ডেটাসেটে দুটি পর্যবেক্ষণের কথা ভাবেন)) এগুলিকে পূর্বাভাসিত সম্ভাবনায় রূপান্তর করতে, আপনি সেগুলি সাধারণ সিডিএফের মাধ্যমে পাস করতে পারেনβ 1 Exp ( β 1 ) β 1 z- র z- র z- র, বা একটি টেবিল উপর তাদের তাকান।
(@ ভিনউক্স এবং @ এলভিস উভয়কেই +1। এখানে আমি এই বিষয়গুলি সম্পর্কে ভাবতে এবং তারপরে লজিট এবং প্রবিটের মধ্যে থাকা পছন্দকে সম্বোধন করার জন্য একটি বিস্তৃত কাঠামো সরবরাহ করার চেষ্টা করেছি))
ভিনাক্স উত্তর ছাড়াও, যা ইতিমধ্যে সর্বাধিক গুরুত্বপূর্ণটি বলে:
লগিট রিগ্রেশনের সহগ ffic প্রতিকূলতার অনুপাতের ক্ষেত্রে প্রাকৃতিক ব্যাখ্যা রয়েছে;
যখন আপনি মনে করেন যে আপনার বাইনারি ফলাফলটি কোনও গোপন গাউসিয়ান পরিবর্তনশীল [eq এর উপর নির্ভর করে) তখন প্রাকৃতিক মডেলটি প্রাকৃতিক মডেল । 1] একটি পদ্ধতিতে : ঠিক যখন ।ϵ ∼ এন ( 0 , 1 ) ওয়াই = 1 জেড > 0
আরো সাধারণভাবে, এবং আরো অনেক কিছু স্বাভাবিকভাবেই, probistic রিগ্রেশন আরো প্রাকৃতিক মডেল যদি আপনি মনে করেন যে পরিণতি হয় ঠিক যখন কিছু একটি থ্রেশহোল্ড অতিক্রম করে সঙ্গে, । এটি সহজে বর্ণিত যে এটি পূর্বোক্ত ক্ষেত্রে হ্রাস করা যেতে পারে: কে ; এই সমীকরণটি পরীক্ষা করা সহজ [eq। 1] এখনও ধরে আছে (সহগের পুনরুদ্ধার এবং ইন্টারসেপ্ট অনুবাদ) transla এই মডেলগুলি করা হয়েছে, উদাহরণস্বরূপ, চিকিত্সা প্রসঙ্গে, যেখানে একটি অবিচ্ছিন্ন পরিবর্তনশীল হবে এবং উদাহরণস্বরূপ এমন একটি রোগ যা যখন কিছু "প্যাথলজিকাল প্রান্তিক" অতিক্রম করে।
উভয় লগইট এবং প্রবিট মডেল কেবলমাত্র মডেল । "সমস্ত মডেল ভুল, কিছু দরকারী", যেমন বক্স একবার বলেছিল! দুটি মডেলই আপনাকে ফলাফলের এর প্রভাবের অস্তিত্ব সনাক্ত করতে অনুমতি দেবে ; কিছু বিশেষ ক্ষেত্রে বাদে এগুলির কোনওটিই "সত্যই সত্য" হবে না এবং তাদের ব্যাখ্যাটি সতর্কতার সাথে করা উচিত।
আপনার বক্তব্য প্রসঙ্গে
লজিস্টিক রিগ্রেশন কখন ব্যবহার করতে হবে এবং কখন প্রবিট ব্যবহার করতে হবে তা জানতে আমি এখানে আরও আগ্রহী
এখানে ইতিমধ্যে অনেকগুলি উত্তর রয়েছে যা দুজনের মধ্যে বেছে নেওয়ার সময় বিবেচনার জন্য বিষয়গুলি নিয়ে আসে তবে একটি গুরুত্বপূর্ণ বিবেচনা রয়েছে যা এখনও বলা হয়নি: যখন আপনার আগ্রহ মিশ্র প্রভাবগুলির লজিস্টিক ব্যবহার করে বাইনারি ডেটাতে-ক্লাস্টার সংস্থাগুলির দিকে নজর রাখে বা প্রবিট মডেলগুলি, প্রবিট মডেলটিকে প্রাধান্য দেওয়ার জন্য একটি তাত্ত্বিক ভিত্তি রয়েছে। অবশ্যই এই হল, অভিমানী কোন নেই অবরোহমার্গী লজিস্টিক মডেল করা উচিত ছিল (যেমন আপনি একটি সিমুলেশন করছেন এবং এটি সত্য মডেল হতে জানা) জন্য কারণ।
প্রথমত , কেন এটি সত্য তা প্রথম দেখার জন্য যে এই দুটি মডেলই চৌম্বকীয় ক্রমাগত রিগ্রেশন মডেল হিসাবে দেখা যায়। উদাহরণ হিসাবে ক্লাস্টার পর্যবেক্ষণের জন্য সরল রৈখিক মিশ্র প্রভাবগুলির মডেলটি বিবেচনা করুন :
যেখানে হ'ল ক্লাস্টার র্যান্ডম এফেক্ট এবং ত্রুটি শব্দ। তারপরে লজিস্টিক এবং প্রবিট রিগ্রেশন মডেল উভয়ই সমতুল্যভাবে এই মডেল থেকে উত্পন্ন এবং থ্রেশহোল্ডিং হিসাবে 0 তে সূচিত হয়:
যদি পরিভাষাটি সাধারণত বিতরণ করা হয় তবে আপনার একটি প্রবিট রিগ্রেশন রয়েছে এবং যদি এটি যৌক্তিকভাবে বিতরণ করা হয় তবে আপনার একটি লজিস্টিক রিগ্রেশন মডেল রয়েছে। যেহেতু স্কেল সনাক্ত করা যায় নি, এই অবশিষ্টাংশ ত্রুটিগুলি যথাক্রমে স্ট্যান্ডার্ড নরমাল এবং স্ট্যান্ডার্ড লজিস্টিক হিসাবে নির্দিষ্ট করা হয়।
পিয়ারসন (১৯০০) দেখিয়েছেন যে যদি মাল্টিভারিয়েট স্বাভাবিক তথ্য উত্পন্ন হয় এবং শ্রেণিবদ্ধ হিসাবে প্রান্তিক করা হয় তবে অন্তর্নিহিত ভেরিয়েবলগুলির মধ্যে পারস্পরিক সম্পর্কগুলি এখনও পরিসংখ্যানগতভাবে চিহ্নিত করা হয়েছিল - এই পারস্পরিক সম্পর্কগুলিকে বহুভৌজিক পারস্পরিক সম্পর্ক বলা হয় এবং বাইনারি ক্ষেত্রে সুনির্দিষ্টভাবে এগুলিকে বলা হয় টেটারাকোরিক সম্পর্ক । এর অর্থ হ'ল, একটি প্রবিট মডেলটিতে অন্তর্নিহিত সাধারণত বিতরণ করা ভেরিয়েবলগুলির অন্তর্নিহিত সহাবস্থান সহগ:
সনাক্ত করা হয়েছে যার অর্থ হল যে প্রবিট ক্ষেত্রে আপনি অন্তর্নিহিত সুপ্ত ভেরিয়েবলের যৌথ বন্টনকে পুরোপুরি বৈশিষ্ট্যযুক্ত করতে পারেন ।
লজিস্টিক মডেলটিতে লজিস্টিক মডেলটিতে এলোমেলো প্রভাবের পার্থক্যটি চিহ্নিত করা হলেও এটি নির্ভরতা কাঠামোর (এবং তাই যৌথ বন্টন) পুরোপুরি চিহ্নিত করে না, যেহেতু এটি একটি সাধারণ এবং লজিস্টিক র্যান্ডম ভেরিয়েবলের মধ্যে একটি মিশ্রণ the সম্পত্তি যে এটি সম্পূর্ণরূপে তার গড় এবং covariance ম্যাট্রিক্স দ্বারা নির্দিষ্ট করা হয়। অন্তর্নিহিত সুপ্ত ভেরিয়েবলগুলির জন্য এই অদ্ভুত প্যারাম্যাট্রিক অনুমানটি লক্ষ্য করা লজিস্টিক মডেলটিতে এলোমেলো প্রভাবগুলির ব্যাখ্যা সাধারণভাবে ব্যাখ্যা করার পক্ষে কম স্পষ্ট করে তোলে।
পূর্ববর্তী (দুর্দান্ত) উত্তরে যে গুরুত্বপূর্ণ পয়েন্টটি সম্বোধন করা হয়নি তা হ'ল আসল অনুমানের পদক্ষেপ। বহু বহুবিধ লগইট মডেলগুলির একটি পিডিএফ রয়েছে যা সংহত করা সহজ, যা পছন্দ সম্ভাবনার একটি বদ্ধ-ফর্ম প্রকাশের দিকে নিয়ে যায়। সাধারণ বিতরণের ঘনত্বের ফাংশনটি এত সহজে সংহত হয় না, তাই প্রবিট মডেলগুলিতে সাধারণত সিমুলেশন প্রয়োজন। সুতরাং উভয় মডেল বাস্তব বিশ্বের পরিস্থিতির বিমূর্ততা থাকলেও লগইট সাধারণত বড় সমস্যাগুলিতে (একাধিক বিকল্প বা বড় ডেটাসেট) ব্যবহার করতে দ্রুত হয়।
এটি আরও পরিষ্কারভাবে দেখতে, কোনও নির্দিষ্ট ফলাফলের নির্বাচিত হওয়ার সম্ভাবনাটি হ'ল ফাংশন
প্রবিট মডেলগুলির জন্য এই জাতীয় কোনও সুবিধাজনক ফর্ম বিদ্যমান নেই।
আমি যা বলতে চাই তা কোনওভাবেই এটিকে অবৈধ করে দেয় যা এতদূর বলা হয়েছে। আমি কেবল এটিই উল্লেখ করতে চাই যে প্রবিট মডেলগুলি IIA (অপ্রাসঙ্গিক বিকল্পগুলির স্বাধীনতা) অনুমানগুলি থেকে ভোগেনা এবং লগইট মডেলটি করে।
ট্রেনের দুর্দান্ত বইয়ের একটি উদাহরণ ব্যবহার করা। যদি আমার একটি লজিট থাকে যা পূর্বাভাস দেয় যে আমি আমার গাড়িতে নীল বাস চালাচ্ছি বা চালাচ্ছি কিনা, লাল বাস যুক্ত এবং গাড়ী এবং নীল উভয় দিক থেকে আনুপাতিকভাবে টানা হবে। তবে একটি প্রবিট মডেল ব্যবহার করে আপনি এই সমস্যাটি এড়াতে পারেন। সংক্ষেপে, উভয় থেকে আনুপাতিকভাবে আঁকার পরিবর্তে, আপনি নীল বাস থেকে আরও আঁকতে পারেন কারণ তারা কাছাকাছি বিকল্প রয়েছে।
আপনি যে ত্যাগটি করেন তা হ'ল উপরে বর্ণিত কোনও বন্ধ ফর্ম সমাধান নেই। আইআইএ সংক্রান্ত সমস্যা নিয়ে আমি যখন উদ্বিগ্ন তখন প্রোবাইটটি আমার গোটো হয়ে যায়। এটি বলার অপেক্ষা রাখে না যে লগিট ফ্রেমওয়ার্কে (জিইভি বিতরণ) আইআইএর কাছাকাছি যাওয়ার কোনও উপায় নেই। তবে আমি সবসময় সমস্যার ধরণের উপায় হিসাবে এই ধরণের মডেলের দিকে নজর রেখেছি। আপনি যে গণনাগত গতি পেতে পারেন তা দিয়ে আমি বলব প্রবিট দিয়ে যান।
লজিট এবং প্রবিটের মধ্যে সর্বাধিক পরিচিত একটি পার্থক্য হ'ল (তাত্ত্বিক) রিগ্রেশন রেসিডুয়াল বিতরণ: প্রবিটের জন্য সাধারণ, লগিটের জন্য লজিস্টিক (দয়া করে দেখুন: কোপ জি। ইকোনোমেট্রিক্স চিচেস্টারের একটি পরিচিতি, উইলি: ২০০৮: ২৮০)।
আমি এই প্রশ্নের একটি ব্যবহারিক উত্তর অফার করি, যা কেবলমাত্র "কখন লজিস্টিক রিগ্রেশন ব্যবহার করতে হবে এবং কখন প্রবিট ব্যবহার করতে হবে" -এর উপর দৃষ্টি নিবদ্ধ করে, পরিসংখ্যান সংক্রান্ত বিবরণ না পেয়ে বরং সংখ্যার ভিত্তিতে সিদ্ধান্তের দিকে মনোনিবেশ করে। উত্তরটি দুটি প্রধান বিষয়ের উপর নির্ভর করে: আপনার কি শৃঙ্খলাভিত্তিক অগ্রাধিকার রয়েছে এবং আপনি কেবলমাত্র কোন মডেলটির জন্য আপনার ডেটা আরও ভাল ফিট করে তার যত্ন নিচ্ছেন?
বেসিক পার্থক্য
উভয় লগইট এবং প্রবিট মডেল পরিসংখ্যানগত মডেল সরবরাহ করে যা নির্ভরশীল প্রতিক্রিয়া পরিবর্তনশীল 0 বা 1 হওয়ার সম্ভাবনা দেয় যা তারা খুব অনুরূপ এবং প্রায়শই ব্যবহারিকভাবে সনাক্তকারী ফলাফল দেওয়া হয়, তবে সম্ভাব্যতা গণনা করতে তারা বিভিন্ন ফাংশন ব্যবহার করে বলে তাদের ফলাফলগুলি কখনও কখনও সামান্য হয় আলাদা।
ডিসিপ্লিনারি পছন্দ
কিছু একাডেমিক শাখা সাধারণত একটি বা অন্য পছন্দ। যদি আপনি একটি নির্দিষ্ট traditionalতিহ্যগত পছন্দ সহ একটি ফলাফলকে একাডেমিকিক শৃঙ্খলে প্রকাশ করতে বা উপস্থাপন করতে যাচ্ছেন, তবে আপনার পছন্দটিকে আদেশ দিন যাতে আপনার অনুসন্ধানগুলি আরও সহজেই গ্রহণযোগ্য হয়। উদাহরণস্বরূপ ( পদ্ধতি পরামর্শদাতাদের কাছ থেকে ),
লজিট - লজিস্টিক রিগ্রেশন নামেও পরিচিত - মহামারীবিজ্ঞানের মতো স্বাস্থ্য বিজ্ঞানের ক্ষেত্রে বেশি জনপ্রিয় কারণ আংশিক অনুপাতের ক্ষেত্রে সহগের ব্যাখ্যা দেওয়া যেতে পারে। আরও উন্নত ইকোনোমেট্রিক সেটিংসে (হিটারোস্কেস্টেস্টিক প্রবিট মডেল হিসাবে পরিচিত) অবিচ্ছিন্ন ত্রুটি পরিবর্তনের জন্য প্রব্যাট মডেলগুলিকে সাধারণকরণ করা যেতে পারে এবং তাই অর্থনীতিবিদ এবং রাজনৈতিক বিজ্ঞানীরা কিছু প্রসঙ্গে ব্যবহার করতে পারেন।
মুল বক্তব্যটি হ'ল ফলাফলের পার্থক্যগুলি এতটাই সামান্য যে আপনার সাধারণ দর্শকদের জন্য আপনার ফলাফলগুলি বোঝার ক্ষমতা দুটি পদ্ধতির মধ্যে সামান্য পার্থক্যকে ছাড়িয়ে যায়।
আপনার যত্ন নেওয়া সমস্ত যদি ভাল ফিট হয় ...
যদি আপনার গবেষণাটি এমন কোনও শৃঙ্খলে থাকে যা এক বা অন্যটিকে পছন্দ করে না, তবে এই প্রশ্নটি সম্পর্কে আমার গবেষণা (যা ভাল, লজিট বা প্রবট) এটি আমাকে এই সিদ্ধান্তে নিয়ে গেছে যে প্রব্যাকটি ব্যবহার করা ভাল যেহেতু প্রায় সবসময়ই হবে লগইট মডেলের তুলনায় সমান বা উচ্চতর ডেটাতে একটি পরিসংখ্যানগত ফিট দিন। লজিট মডেলগুলি আরও ভাল ফিট করার ক্ষেত্রে সবচেয়ে উল্লেখযোগ্য ব্যতিক্রম হ'ল "চরম স্বাধীন ভেরিয়েবল" (যা আমি নীচে ব্যাখ্যা করি) এর ক্ষেত্রে।
আমার উপসংহারটি হান, ইডি ও সায়ার, আর।, ২০০৫-এ প্রায় সম্পূর্ণ (অন্যান্য বহু উত্স অনুসন্ধানের পরে) ভিত্তিক Pro প্রোবিত এবং লগইটের মডেলগুলি: মাল্টিভারিয়েট রাজ্যে পার্থক্য। Http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.32929866&rep=rep1&type=pdf এ উপলব্ধ । লগইট বনাম প্রবিট মাল্টিভারিয়েট মডেলগুলি ডেটাতে আরও ভাল ফিট করে কিনা (এই সিদ্ধান্তগুলি অবিচ্ছিন্ন মডেলের ক্ষেত্রেও প্রযোজ্য, তবে এগুলি কেবল দুটি স্বতন্ত্র ভেরিয়েবলের জন্য সিমুলেটেড এফেক্টস) সম্পর্কিত আমার এই নিবন্ধের ব্যবহারিক সিদ্ধান্তের সংক্ষিপ্তসারগুলি এখানে:
বেশিরভাগ পরিস্থিতিতে লগইট এবং প্রবিট মডেলগুলি নিম্নলিখিত দুটি ব্যতিক্রম সহ ডেটা সমানভাবে ফিট করে।
"চরম স্বতন্ত্র ভেরিয়েবল" এর ক্ষেত্রে লগইট অবশ্যই ভাল । এগুলি স্বতন্ত্র ভেরিয়েবল যেখানে একটি বিশেষত বড় বা ছোট মান অত্যধিকভাবে নির্ধারিত করে যে নির্ভরশীল ভেরিয়েবলটি 0 বা 1 হয় কিনা, বেশিরভাগ অন্যান্য ভেরিয়েবলের প্রভাবগুলিকে ওভাররাইড করে। হান এবং সোয়ার আনুষ্ঠানিকভাবে এটি সংজ্ঞায়িত করেন (পৃষ্ঠা 4):
একটি চূড়ান্ত স্বতন্ত্র পরিবর্তনশীল স্তরটি তিনটি ইভেন্টের সাথে জড়িত। প্রথমত, একটি চূড়ান্ত স্বতন্ত্র পরিবর্তনশীল স্তরটি একটি স্বাধীন ভেরিয়েবলের উপরের বা নিম্ন চূড়ায় ঘটে। উদাহরণস্বরূপ, বলুন যে স্বাধীন ভেরিয়েবল এক্সটি 1, 2 এবং 3.2 এর মান গ্রহণ করবে। চরম স্বতন্ত্র পরিবর্তনশীল স্তরটি x = 3.2 (বা x = 1) এর মানগুলিকে অন্তর্ভুক্ত করবে। দ্বিতীয়ত, মোট এন এর যথেষ্ট পরিমাণ (যেমন, 60%) অবশ্যই এই স্তরে থাকতে হবে। তৃতীয়ত, এই স্তরে সাফল্যের সম্ভাবনা নিজেই চূড়ান্ত হওয়া উচিত (উদাহরণস্বরূপ, 99% এর বেশি)।
হাহান এবং সয়িরের বিশ্লেষণের ভিত্তিতে, আমার উপসংহারটি সর্বদা চূড়ান্ত স্বতন্ত্র ভেরিয়েবলগুলির ক্ষেত্রে বাদ দিয়ে প্রবিট মডেলগুলি ব্যবহার করা হয়, যার ক্ষেত্রে লগইট চয়ন করা উচিত । চরম স্বতন্ত্র ভেরিয়েবলগুলি সমস্ত সাধারণ নয় এবং এটি সনাক্ত করা খুব সহজ হওয়া উচিত। থাম্বের এই নিয়মটি দিয়ে, মডেলটি এলোমেলো প্রভাবগুলির মডেল কিনা তা বিবেচনা করে না। যেসব ক্ষেত্রে কোনও মডেল একটি এলোমেলো প্রভাবের মডেল (যেখানে প্রবিটকে অগ্রাধিকার দেওয়া হয়) তবে সেখানে চূড়ান্ত স্বতন্ত্র ভেরিয়েবল রয়েছে (যেখানে লজিটকে অগ্রাধিকার দেওয়া হয়), যদিও হান এবং সায়ার এ সম্পর্কে মন্তব্য করেননি, তাদের নিবন্ধ থেকে আমার ধারণাটি যে প্রভাবটি চূড়ান্ত স্বতন্ত্র ভেরিয়েবলগুলি বেশি প্রভাবশালী এবং তাই লজিট পছন্দ করা হবে।
নীচে, আমি এমন একটি অনুমানকারীকে ব্যাখ্যা করি যা বিশেষ কেস হিসাবে প্রবিট এবং লগইট করে এবং যেখানে কোনটি পরীক্ষা করতে পারে যা আরও উপযুক্ত।
প্রবিট এবং লগইট উভয়ই একটি সুপ্ত পরিবর্তনশীল মডেলটিতে বাসা বাঁধতে পারে,
যেখানে পর্যবেক্ষণের উপাদান
ক্লিন অ্যান্ড স্পাডি-তে, পরিবর্তে মানদণ্ডের ক্রিয়াটি
তারা খুব অনুরূপ।
বা সমতুল্য:
লজিস্টিক এবং প্রবিটের মধ্যে পার্থক্য লজিস্টিক এবং সাধারণ বিতরণের মধ্যে পার্থক্য থাকে। অনেক কিছুই নেই। একবারে অ্যাডজাস্ট হয়ে গেলে তারা এটিকে দেখতে দেখতে:
লজিস্টিকের ভারী লেজ থাকে। এটি ক্ষুদ্র (<1%) বা উচ্চ (> 99%) সম্ভাব্যতার ইভেন্টগুলি কীভাবে লাগানো হবে এটি কিছুটা প্রভাব ফেলতে পারে। ব্যবহারিকভাবে, বেশিরভাগ পরিস্থিতিতে পার্থক্যটিও লক্ষণীয় নয়: লগইট এবং প্রবিট মূলত একই জিনিসটির পূর্বাভাস দেয়। দেখুন http://scholarworks.rit.edu/cgi/viewcontent.cgi?article=2237&context=article
: "দার্শনিকভাবে", লজিস্টিক রিগ্রেশন সর্বাধিক এনট্রপি নীতিকে সমতূল্য হচ্ছে সমর্থনযোগ্য হতে পারে http://www.win-vector.com/blog/2011/09/the-equivalence-of-logistic-regression-and-maximum -entropy-মডেল /
গণনার ক্ষেত্রে: লজিস্টিক সহজ কারণ লজিস্টিক বিতরণের সামগ্রিক বিতরণ একটি সাধারণ সূত্রের বিপরীতে বন্ধ সূত্র রয়েছে। আপনি যখন বহুমাত্রিক দিকে যান তখন সাধারণ বিতরণগুলির ভাল বৈশিষ্ট্য থাকে, এ কারণেই প্রায়শই উন্নত ক্ষেত্রে অগ্রাধিকার দেওয়া হয়।