লগইট এবং প্রবিট মডেলগুলির মধ্যে পার্থক্য


299

মধ্যে পার্থক্য কি Logit এবং Probit মডেল ?

লজিস্টিক রিগ্রেশন কখন ব্যবহার করতে হবে এবং কখন প্রবিট ব্যবহার করতে হবে তা জানার ক্ষেত্রে আমি এখানে আরও আগ্রহী।

আর এর সাহায্যে এটিকে সংজ্ঞায়িত করে এমন কোনও সাহিত্য থাকলে তাও সহায়ক হবে।


5
দু'জনের ফলাফলের মধ্যে খুব কমই কোনও পার্থক্য রয়েছে (দেখুন

1
আমার একবারে একটি বিস্তৃত (বায়োসেসে) ডেটাসেট ছিল যেখানে আমরা প্রবটকে কিছুটা ভালভাবে দেখতে পেতাম, তবে এটি সিদ্ধান্তে কোনও পার্থক্য রাখেনি।
কেজেটিল বি হালওয়ারসেন

1
অলিয়াস শাহ: এবং এটিই হ'ল আমার ডেটা প্রবিটের সাহায্যে কেন প্রান্তিকভাবে (প্রান্তিকভাবে) আরও ভাল --- কারণ একটি নির্দিষ্ট মাত্রার উপরে, মৃত্যুহার 100%, এবং কিছু পরিমাণের নীচে, মৃত্যুহার 0%, সুতরাং আমরা ধীর পন্থাটি দেখতে পাই না লগিট!
কেজেটিল বি হালওয়ারসেন

3
আসল উপাত্তের জন্য, লগইট বা প্রবিট উভয় থেকে উত্পন্ন ডেটা সহ বিরোধিতা দ্বারা, ইস্যুটির একটি বিবেচ্য পদ্ধতির মডেল তুলনা চালানো হবে। আমার অভিজ্ঞতা হিসাবে, ডেটা খুব কমই দুটি মডেলের একটির দিকে ঝুঁকছে।
শি'য়ান

2
আমি শুনেছি যে লজিস্টিক বিতরণের ব্যবহারিক ব্যবহারের সাদৃশ্য সাধারণ সিডিএফ এবং এর থেকে আরও সহজতম বন্টন ফাংশনের সাথে দেখা দেয়। প্রকৃতপক্ষে সাধারণ সিডিএফ একটি অবিচ্ছেদ্য থাকে যা অবশ্যই মূল্যায়ন করা উচিত - যা আমি অনুমান করি যে দিনগুলিতে গণনা ব্যয়বহুল ছিল।
ডিভি_বিএন

উত্তর:


144

তারা মূলত লিঙ্ক ফাংশনে পৃথক।

লগিতে: Pr(Y=1X)=[1+eXβ]1

প্রবিটে: (ক্রমবর্ধমান সাধারণ পিডিএফ)Pr(Y=1X)=Φ(Xβ)

অন্য উপায়ে, লজিস্টিকের কিছুটা চাটুকার লেজ রয়েছে। অর্থাত্ প্রোবাইট বক্ররেখাটি লজিট বক্রের চেয়ে বেশি দ্রুত অক্ষের কাছে পৌঁছে।

প্রবিটের চেয়ে লগিটের সহজ ব্যাখ্যা রয়েছে। লজিস্টিক রিগ্রেশনকে মডেলিং লগ প্রতিক্রিয়া হিসাবে ব্যাখ্যা করা যেতে পারে (উদাহরণস্বরূপ যারা 25 দিন সিগারেট খায়> 65 বছর বয়সের আগে মারা যাওয়ার সম্ভাবনা 6 গুণ বেশি)। সাধারণত লোকেরা লগিট দিয়ে মডেলিং শুরু করে। লগইট বনাম প্রবিটের জন্য সিদ্ধান্ত নিতে আপনি প্রতিটি মডেলের সম্ভাবনা মানটি ব্যবহার করতে পারেন।


6
আপনার উত্তর ভিনাক্সের জন্য ধন্যবাদ। তবে লগিট কখন ব্যবহার করতে হবে, এবং প্রবিটটি ব্যবহার করতে হবে তাও আমি জানতে চাই। আমি জানি লগিট প্রবটের চেয়ে বেশি জনপ্রিয়, এবং বেশিরভাগ ক্ষেত্রে আমরা লজিট রিগ্রেশন ব্যবহার করি। তবে কিছু ক্ষেত্রে রয়েছে যেখানে প্রবিট মডেলগুলি আরও কার্যকর। আপনি কি দয়া করে আমাকে বলতে পারেন those কেসগুলি কী। এবং কীভাবে নিয়মিত মামলাগুলি থেকে এই কেসগুলি পৃথক করবেন।
বেটা

5
আপনি যখন বক্ররেখার লেজের অংশটি নিয়ে উদ্বিগ্ন হন, কোনও সময় লজিট বা প্রবটের বিষয়টি নির্বাচন করে। প্রবিট বা লগিট নির্বাচন করার কোনও সঠিক নিয়ম নেই। আপনি সম্ভাবনা (বা লগ সম্ভাবনা) বা এআইসি দেখে মডেল নির্বাচন করতে পারেন।
ভিনক্স

12
পরামর্শের জন্য ধন্যবাদ! আপনি কীভাবে লগইট বনাম প্রবিটের মধ্যে নির্বাচন করবেন তা বিশদ বর্ণনা করতে পারেন? বিশেষত: (1) আপনি যখন বক্ররেখার লেজের অংশের সাথে সম্পর্কিত হন তখন আমি কীভাবে বলব? (২) সম্ভাবনা, লগ সম্ভাবনা বা এআইসি দেখে আমি কীভাবে একটি মডেল নির্বাচন করব? বিশেষত আমার কী দেখতে হবে এবং কোন মডেলটি ব্যবহার করবেন সে সম্পর্কে আমার সিদ্ধান্তকে কীভাবে প্রভাবিত করা উচিত?
DW

ঠিক আছে, প্রবটের তুলনায় কোন লগইট ব্যর্থ হয়েছে আপনি উদাহরণ দিতে পারেন? আপনার মনে থাকা বিষয়গুলি আমি খুঁজে পাচ্ছি না।
কাজের জায়গায়

1
@ ফ্লাইস এয়ার ম্যাট্রিক্স ট্রান্সপোজকে বোঝায় । এক্সXX
ম্যাথম্যানিক

445

একটি স্ট্যান্ডার্ড লিনিয়ার মডেল (উদাহরণস্বরূপ, একটি সাধারণ রিগ্রেশন মডেল) দুটি 'অংশ' বলে মনে করা যেতে পারে। এগুলিকে স্ট্রাকচারাল উপাদান এবং এলোমেলো উপাদান বলা হয় । উদাহরণস্বরূপ: প্রথম দুটি পদ (যা, ) গঠন করে কাঠামোগত উপাদান এবং (যা সাধারণত বিতরণ করা ত্রুটির শব্দটি নির্দেশ করে) এলোমেলো উপাদান। যখন প্রতিক্রিয়া ভেরিয়েবলটি সাধারণত বিতরণ করা হয় না (উদাহরণস্বরূপ, যদি আপনার প্রতিক্রিয়া পরিবর্তনশীল বাইনারি হয়) এই পদ্ধতির আর বৈধতা নাও থাকতে পারে। সাধারণ রৈখিক মডেল
β 0 + β 1 এক্স ε জি ( μ ) = β 0 + β 1 এক্স β 0 + β 1 এক্স জি ( ) μ

Y=β0+β1X+εwhere εN(0,σ2)
β0+β1Xε(জিএলআইএম) এ জাতীয় কেসগুলি সমাধান করার জন্য তৈরি করা হয়েছিল এবং লগইট এবং প্রবাইট মডেলগুলি হ'ল জিএলআইএমগুলির বিশেষ কেসগুলি যা বাইনারি ভেরিয়েবলগুলির জন্য উপযুক্ত (বা প্রক্রিয়াটির সাথে কিছু অভিযোজন সহ মাল্টি-বিভাগের প্রতিক্রিয়া ভেরিয়েবল)। একটি জিএলআইএমের তিনটি অংশ রয়েছে, একটি কাঠামোগত উপাদান , একটি লিঙ্ক ফাংশন এবং প্রতিক্রিয়া বিতরণ । উদাহরণস্বরূপ: এখানে আবার কাঠামোগত উপাদান, লিঙ্ক ফাংশন, এবং
g(μ)=β0+β1X
β0+β1Xg()μকোভেরিয়েট স্পেসের একটি নির্দিষ্ট বিন্দুতে শর্তযুক্ত প্রতিক্রিয়া বিতরণের একটি মাধ্যম। স্ট্রাকচারাল উপাদানটি সম্পর্কে আমরা এখানে যেভাবে চিন্তা করি তার সাথে স্ট্যান্ডার্ড লিনিয়ার মডেলগুলি নিয়ে আমরা কীভাবে চিন্তা করি তার থেকে আসলেই আলাদা হয় না; আসলে, এটি জিএলআইএমগুলির অন্যতম দুর্দান্ত সুবিধা। কারণ অনেক বিতরণের ক্ষেত্রে বৈকল্পিকটি শর্তযুক্ত গড়ের সাথে ফিট করে (এবং আপনি প্রতিক্রিয়া বিতরণকে নির্দিষ্ট করেছিলেন) তবে আপনি স্বয়ংক্রিয়ভাবে একটি রৈখিক মডেলের র্যান্ডম উপাদানটির এনালগের জন্য অ্যাকাউন্ট করেছেন (এনবি: এটি হতে পারে অনুশীলনে আরও জটিল)।

লিঙ্ক ফাংশনটি জিএলআইএমসের মূল চাবিকাঠি: যেহেতু প্রতিক্রিয়া ভেরিয়েবলের বিতরণটি স্বাভাবিক নয়, তাই এটি আমাদের কাঠামোগত উপাদানটিকে প্রতিক্রিয়াতে সংযুক্ত করতে দেয় - এটি তাদের 'লিঙ্ক' করে (তাই নামটি)। এটি আপনার প্রশ্নের মূল চাবিকাঠি, যেহেতু লগইট এবং প্রবিট হ'ল লিঙ্ক (যেমন @ভিনাক্স ব্যাখ্যা করেছেন), এবং লিঙ্ক ফাংশনগুলি বোঝার ফলে কোনটি কখন ব্যবহার করতে হবে তা বুদ্ধি করে আমাদের চয়ন করতে সহায়তা করবে। যদিও অনেকগুলি লিঙ্ক ফাংশন থাকতে পারে যা গ্রহণযোগ্য হতে পারে, প্রায়শই এমন একটি থাকে যা বিশেষ। আগাছাগুলিতে খুব বেশি দূরে যেতে না চাইলে (এটি খুব প্রযুক্তিগত হতে পারে) ভবিষ্যদ্বাণী করা গড়, , অগত্যা গণিতগতভাবে প্রতিক্রিয়া বিতরণের ক্যানোনিকাল অবস্থান প্যারামিটারের মতো হবে না ;β ( 0 , 1 ) এলএন ( - এলএন ( 1 - μ ) )μ। এর "সুবিধাটি হ'ল একটি ন্যূনতম পর্যায়ে পরিসংখ্যান " ( জার্মান রডরিগেজ )। বাইনারি প্রতিক্রিয়া ডেটার জন্য প্রমিত লিঙ্ক (আরও নির্দিষ্টভাবে, দ্বিপদী বিতরণ) হ'ল লজিট। তবে, প্রচুর ফাংশন রয়েছে যা কাঠামোগত উপাদানটিকে ব্যবধানে মানচিত্র তৈরি করতে পারে , এবং এইভাবে গ্রহণযোগ্য হবে; প্রবিটটিও জনপ্রিয়, তবে আরও কিছু অপশন রয়েছে যা কখনও কখনও ব্যবহৃত হয় (যেমন পরিপূরক লগ লগ, , প্রায়শই ক্লোজলগ নামে পরিচিত)। সুতরাং, সম্ভাব্য লিঙ্ক ফাংশন প্রচুর এবং লিঙ্ক ফাংশন পছন্দ খুব গুরুত্বপূর্ণ হতে পারে। এর কিছু সংমিশ্রণের ভিত্তিতে পছন্দটি করা উচিত: β(0,1)ln(ln(1μ))

  1. প্রতিক্রিয়া বিতরণ জ্ঞান,
  2. তাত্ত্বিক বিবেচনা, এবং
  3. ডেটা মাপের অভিজ্ঞতা।

এই ধারণাগুলি আরও স্পষ্টভাবে বুঝতে (আমাকে ক্ষমা করুন) বোঝার জন্য কিছুটা ধারণাগত পটভূমি আবৃত করার পরে, আমি ব্যাখ্যা করব যে কীভাবে এই বিবেচনাগুলি আপনার লিঙ্কের পছন্দকে গাইড করতে ব্যবহার করা যেতে পারে। (আমাকে দয়া করে নোট করুন যে আমি মনে করি @ ডেভিডের মন্তব্যটি সঠিকভাবে কেন বিভিন্ন লিঙ্কগুলি অনুশীলনে বেছে নেওয়া হয়েছে )) শুরু করার জন্য, যদি আপনার প্রতিক্রিয়া পরিবর্তনশীল একটি বার্নোল্লি বিচারের ফলাফল (যা, বা ) হয় তবে আপনার প্রতিক্রিয়া বিতরণ হবে দ্বিপদী এবং আপনি আসলে যা মডেলিং করছেন তা হ'ল পর্যবেক্ষণের (অর্থাৎ ) হওয়ার সম্ভাবনা। ফলস্বরূপ, যেকোন ক্রিয়াকলাপ যা ব্যবধানে আসল নম্বর লাইন, মানচিত্র করে1 1 π ( Y = 1 ) ( - , + ) ( 0 , 1 )011π(Y=1)(,+)(0,1)কাজ করবে.

আপনার সংক্ষিপ্ত তত্ত্বের দৃষ্টিকোণ থেকে, আপনি যদি আপনার সহযাত্রীদের সাফল্যের সম্ভাবনার সাথে সরাসরি সংযুক্ত হিসাবে ভাবছেন তবে আপনি সাধারণত লজিস্টিক রিগ্রেশন বেছে নেবেন কারণ এটি আধ্যাত্মিক লিঙ্ক link তবে, নিম্নলিখিত উদাহরণটি বিবেচনা করুন: আপনাকে high_Blood_Pressureকিছু সমবায়িকদের একটি ফাংশন হিসাবে মডেল করতে বলা হয় । রক্তচাপ নিজেই সাধারণত জনসংখ্যায় বিতরণ করা হয় (তবে আমি এটি আসলে জানি না, তবে এটি প্রথম যুক্তিযুক্ত মনে হয়) তবে চিকিত্সকরা গবেষণার সময় এটিকে দ্বিধায়িত করেছেন (এটি কেবলমাত্র 'হাই-বিপি' বা 'নরমাল' রেকর্ড করা হয়েছে) )। সেক্ষেত্রে তাত্ত্বিক কারণে প্রবিটটি অগ্রাধিকারযোগ্য prior @ এলভিস এর অর্থ "আপনার বাইনারি ফলাফলটি একটি লুকানো গাউসিয়ান ভেরিয়েবলের উপর নির্ভর করে" byপ্রতিসম , আপনি যদি বিশ্বাস করেন যে সাফল্যের সম্ভাবনা শূন্য থেকে আস্তে আস্তে বেড়েছে, তবে এটি যখন একটির কাছে পৌঁছে যায় তখন আরও দ্রুত বন্ধ হয়ে যায়, ক্লোগলগের জন্য বলা হয়, ইত্যাদি etc.

সবশেষে, নোট করুন যে মডেলটির ডেটাগুলিতে পরীক্ষামূলকভাবে কোনও লিঙ্ক নির্বাচন করতে সহায়তা করার সম্ভাবনা নেই, যদি না প্রশ্নে থাকা লিঙ্ক ফাংশনের আকারগুলি যথেষ্ট পরিমাণে পৃথক হয় (যার মধ্যে লজিট এবং প্রবিট না হয়)। উদাহরণস্বরূপ, নিম্নলিখিত সিমুলেশন বিবেচনা করুন:

set.seed(1)
probLower = vector(length=1000)

for(i in 1:1000){      
    x = rnorm(1000)
    y = rbinom(n=1000, size=1, prob=pnorm(x))

    logitModel  = glm(y~x, family=binomial(link="logit"))
    probitModel = glm(y~x, family=binomial(link="probit"))

    probLower[i] = deviance(probitModel)<deviance(logitModel)
}

sum(probLower)/1000
[1] 0.695

এমনকি যখন আমরা জানি যে ডেটাগুলি একটি প্রবিট মডেল দ্বারা উত্পাদিত হয়েছিল এবং আমাদের 1000 টি ডাটা পয়েন্ট রয়েছে, তবে প্রবাইট মডেলটি কেবলমাত্র একটি তুচ্ছ পরিমাণে 70% সময়ের চেয়ে ভাল ফিট করে এবং তারপরেও। শেষ পুনরাবৃত্তি বিবেচনা করুন:

deviance(probitModel)
[1] 1025.759
deviance(logitModel)
[1] 1026.366
deviance(logitModel)-deviance(probitModel)
[1] 0.6076806

এর কারণটি হ'ল লগিট এবং প্রবিট লিঙ্ক ফাংশনগুলি একই রকম আউটপুট দেয় যখন একই অনুরূপ আউটপুট দেয়।

এখানে চিত্র বিবরণ লিখুন

লগইট এবং প্রবিট ফাংশনগুলি কার্যত অভিন্ন, যেমন @ভিনাকস বলেছে যে লগইট যখন 'কোণার দিকে' পরিণত হয় তখন সীমানা থেকে কিছুটা দূরে থাকে। (দ্রষ্টব্য যে সর্বোত্তমভাবে সারিবদ্ধ করার জন্য, অবশ্যই জন্য সংশ্লিষ্ট মানের গুন হতে হবে এছাড়াও, আমি ক্লোগলগটি কিছুটা উপরে সরিয়ে দিতে পারতাম যাতে তারা উপরে থাকে) একে অপরের আরও, তবে চিত্রটি আরও পাঠযোগ্য রাখার জন্য আমি এটিকে পাশে রেখে দিয়েছি)) লক্ষ করুন যে ক্লোগলগটি অসামান্য, অন্যদিকে নয়; এটি 0 থেকে প্রথম দিকে টানতে শুরু করে তবে আরও ধীরে ধীরে এবং 1 এর কাছাকাছি পৌঁছে যায় এবং তারপরে তীক্ষ্ণভাবে ঘুরে যায়। 1.7β11.7

লিঙ্ক ফাংশন সম্পর্কে আরও কয়েকটি জিনিস বলা যেতে পারে। প্রথমত, একটি লিঙ্ক ফাংশন হিসাবে পরিচয় ফাংশন ( ) বিবেচনা করা আমাদের সাধারণ রৈখিক মডেলের বিশেষ কেস হিসাবে স্ট্যান্ডার্ড লিনিয়ার মডেলটি বুঝতে সহায়তা করে (যা প্রতিক্রিয়া বিতরণ স্বাভাবিক, এবং লিঙ্ক পরিচয় ফাংশন)। এছাড়া চিনতে যে instantiates যাই হোক না কেন রূপান্তর লিংক সঠিকভাবে প্রয়োগ করা হয় গুরুত্বপূর্ণ প্যারামিটার প্রতিক্রিয়া বন্টন (অর্থাৎ, শাসক ), প্রকৃত প্রতিক্রিয়া ডেটাμ μ = - 1 ( β 0 + + β 1 এক্স ) π ( ওয়াই ) = Exp ( β 0 + + β 1 এক্স )g(η)=ημ। পরিশেষে, কারণ বাস্তবে আমাদের কাছে রূপান্তর করার অন্তর্নিহিত প্যারামিটারটি কখনই নেই, এই মডেলগুলির আলোচনায়, প্রায়শই যা প্রকৃত লিঙ্ক হিসাবে বিবেচিত হয় তা অন্তর্নিহিত রেখে যায় এবং মডেলটির পরিবর্তে কাঠামোগত উপাদানটিতে লিঙ্ক ফাংশনের বিপরীত দ্বারা প্রতিনিধিত্ব করা হয় । এটি হ'ল: উদাহরণস্বরূপ, লজিস্টিক রিগ্রেশন সাধারণত উপস্থাপিত হয়: পরিবর্তে:

μ=g1(β0+β1X)
এলএন(π(ওয়াই)
π(Y)=exp(β0+β1X)1+exp(β0+β1X)
ln(π(Y)1π(Y))=β0+β1X

সাধারণীভূত রৈখিক মডেলটির দ্রুত এবং স্পষ্ট, তবে দৃ ,় ওভারভিউয়ের জন্য, ফিটজমুরিস, লেয়ার্ড এবং ওয়ার (2004) এর অধ্যায় 10 দেখুন (যার উপরে আমি এই উত্তরের অংশগুলির জন্য ঝুঁকেছি, যদিও যেহেতু এটি আমার নিজস্ব রূপান্তর - এবং অন্যান্য - উপাদান, যে কোনও ভুল আমার নিজস্ব হবে)। এই মডেলগুলিকে আর-তে কীভাবে ফিট করতে যায়, বেস প্যাকেজে ফাংশন ? গ্লোমের ডকুমেন্টেশন পরীক্ষা করে দেখুন ।

(একটি চূড়ান্ত নোট পরে যুক্ত করা হয়েছে :) আমি মাঝে মধ্যে লোকদের বলতে শুনি যে আপনার প্রব্যাকটি ব্যবহার করা উচিত নয়, কারণ এটি ব্যাখ্যা করা যায় না। এটি সত্য নয়, যদিও বিটার ব্যাখ্যা কম স্বজ্ঞাত। লজিস্টিক রিগ্রেশন সঙ্গে, একটি এক একক পরিবর্তন একটি সঙ্গে যুক্ত করা হয় 'সাফল্য' (অথবা, একটি লগ মতভেদ পরিবর্তন মতভেদ মধ্যে ধা পরিবর্তন), সব অন্য সমান হচ্ছে। একটি প্রোবিট সহ, এটি এর পরিবর্তিত হবে । ( উদাহরণস্বরূপ, 1 এবং 2 এর স্কোর সহ একটি ডেটাসেটে দুটি পর্যবেক্ষণের কথা ভাবেন)) এগুলিকে পূর্বাভাসিত সম্ভাবনায় রূপান্তর করতে, আপনি সেগুলি সাধারণ সিডিএফের মাধ্যমে পাস করতে পারেনβ 1 Exp ( β 1 ) β 1 z- র z- র z- রX1β1exp(β1)β1 zz, বা একটি টেবিল উপর তাদের তাকান। z

(@ ভিনউক্স এবং @ এলভিস উভয়কেই +1। এখানে আমি এই বিষয়গুলি সম্পর্কে ভাবতে এবং তারপরে লজিট এবং প্রবিটের মধ্যে থাকা পছন্দকে সম্বোধন করার জন্য একটি বিস্তৃত কাঠামো সরবরাহ করার চেষ্টা করেছি))


79
ধন্যবাদ বন্ধুরা. আমি আনন্দিত এটি একসাথে ভাল এসেছিল; আপনি কীভাবে প্রশ্নগুলির উত্তর দেওয়ার পাশাপাশি অন্যের উত্তর জিজ্ঞাসা ও পড়ার মাধ্যমে সিভিতে জিনিসগুলি শিখতে পারবেন তার এটি একটি দুর্দান্ত উদাহরণ : আমি এই তথ্যটি আগেই জানতাম, তবে আমি যথেষ্ট ঠান্ডা লিখতে পারিনি। সুতরাং আমি কীভাবে উপাদানটি সংগঠিত করতে এবং পরিষ্কারভাবে সামনে রেখে দিয়েছি, এবং প্রক্রিয়াটিতে এই ধারণাগুলি আমার জন্য আরও দৃified় করে তুলতে আমার পুরানো গ্রন্থগুলির মধ্য দিয়ে কিছুটা সময় ব্যয় করেছি।
গাং

6
@ গুং এই ব্যাখ্যার জন্য ধন্যবাদ, এটি সাধারণভাবে জিএলএমগুলির স্পষ্ট বর্ণন যা আমি পেরেছি।
fmark

@ শুভ "যখন প্রতিক্রিয়া ভেরিয়েবলটি সাধারণত বিতরণ করা হয় না (উদাহরণস্বরূপ, যদি আপনার প্রতিক্রিয়া পরিবর্তনশীল বাইনারি হয়) এই পদ্ধতির [মানক ওএলএস] আর বৈধ হতে পারে না।" আমি আপনাকে (আবার!) বিরক্ত করার জন্য দুঃখিত, তবে আমি এইটিকে কিছুটা বিভ্রান্তিকর বলে মনে করি। আমি বুঝতে পারি যে ওএলএস-এর নির্ভরশীল চলকের উপর কোনও শর্তহীন বিতরণমূলক অনুমান নেই । এই উদ্ধৃতিটির অর্থ কি বোঝানো হচ্ছে যেহেতু প্রতিক্রিয়াটি এত বন্যভাবে অ-স্বাভাবিক (যেমন একটি বাইনারি ভেরিয়েবল) তাই এর শর্তযুক্ত বিতরণ দেওয়া (এবং সেইজন্য অবশিষ্টাংশের বিতরণ) সম্ভবত স্বাভাবিকতার কাছে যেতে পারে না? X
ল্যান্ড্রোনি

7
@ল্যান্ড্রোনি, আপনি এর জন্য একটি নতুন প্রশ্ন জিজ্ঞাসা করতে পারেন। সংক্ষেপে, যদি আপনার প্রতিক্রিয়া বাইনারি হয় তবে Y দেওয়া X = xi এর শর্তাধীন বিতরণ সম্ভবত স্বাভাবিকতার কাছে যেতে পারে না; এটি সর্বদা দ্বিপদী হবে কাঁচা অবশিষ্টাংশের বিতরণও কখনই স্বাভাবিকতার দিকে যায় না। তারা সর্বদা পাই এবং (1-পিআই) থাকবে। স্যাম্পলিং বন্টন ওয়াই এর শর্তাধীন গড় দেওয়া এক্স = একাদশ (অর্থাত, পাই) এর, স্বাভাবিক দিকে এগিয়ে যাব যদিও।
গাং

2
আমি ল্যান্ড্রোনির উদ্বেগের কিছুটা ভাগ করছি: সর্বোপরি, একটি সাধারণভাবে বিতরণ করা ফলাফল অ-সাধারণভাবে বিতরণকৃত অবশিষ্টাংশ এবং একটি সাধারণভাবে বিতরণ করা ফলাফল সাধারণত বিতরণকৃত অবশিষ্টাংশ থাকতে পারে। ফলাফলটি নিয়ে সমস্যাটি তার পরিসরের চেয়ে তার প্রতি বিতরণ সম্পর্কে কম বলে মনে হচ্ছে ।
অ্যালেক্সিস

47

ভিনাক্স উত্তর ছাড়াও, যা ইতিমধ্যে সর্বাধিক গুরুত্বপূর্ণটি বলে:

  • লগিট রিগ্রেশনের সহগ ffic প্রতিকূলতার অনুপাতের ক্ষেত্রে প্রাকৃতিক ব্যাখ্যা রয়েছে;β

  • যখন আপনি মনে করেন যে আপনার বাইনারি ফলাফলটি কোনও গোপন গাউসিয়ান পরিবর্তনশীল [eq এর উপর নির্ভর করে) তখন প্রাকৃতিক মডেলটি প্রাকৃতিক মডেল । 1] একটি পদ্ধতিতে : ঠিক যখন ।ϵ এন ( 0 , 1 ) ওয়াই = 1 জেড > 0Z=Xβ+ϵ ϵN(0,1)Y=1Z>0

  • আরো সাধারণভাবে, এবং আরো অনেক কিছু স্বাভাবিকভাবেই, probistic রিগ্রেশন আরো প্রাকৃতিক মডেল যদি আপনি মনে করেন যে পরিণতি হয় ঠিক যখন কিছু একটি থ্রেশহোল্ড অতিক্রম করে সঙ্গে, । এটি সহজে বর্ণিত যে এটি পূর্বোক্ত ক্ষেত্রে হ্রাস করা যেতে পারে: কে ; এই সমীকরণটি পরীক্ষা করা সহজ [eq। 1] এখনও ধরে আছে (সহগের পুনরুদ্ধার এবং ইন্টারসেপ্ট অনুবাদ) transla এই মডেলগুলি করা হয়েছে, উদাহরণস্বরূপ, চিকিত্সা প্রসঙ্গে, যেখানে একটি অবিচ্ছিন্ন পরিবর্তনশীল হবে এবং উদাহরণস্বরূপ এমন একটি রোগ যা যখন1Z0=Xβ0+ϵ0cϵN(0,σ2)Z0Z=1σ(Z0c)Z0YZ0 কিছু "প্যাথলজিকাল প্রান্তিক" অতিক্রম করে।

উভয় লগইট এবং প্রবিট মডেল কেবলমাত্র মডেল । "সমস্ত মডেল ভুল, কিছু দরকারী", যেমন বক্স একবার বলেছিল! দুটি মডেলই আপনাকে ফলাফলের এর প্রভাবের অস্তিত্ব সনাক্ত করতে অনুমতি দেবে ; কিছু বিশেষ ক্ষেত্রে বাদে এগুলির কোনওটিই "সত্যই সত্য" হবে না এবং তাদের ব্যাখ্যাটি সতর্কতার সাথে করা উচিত।XY


17
এটি লক্ষণীয়ও যে, প্রবিট বনাম লজিট মডেলগুলির ব্যবহার ভারতে শৃঙ্খলাবদ্ধ traditionতিহ্য দ্বারা প্রভাবিত হয়। উদাহরণস্বরূপ, অর্থনীতিবিদ বিশ্লেষণকে আরও অনেক বেশি ব্যবহার করেছেন বলে মনে হয় যখন সাইকোমেট্রিক্সে গবেষকরা বেশিরভাগ লজিট মডেলগুলিতে নির্ভর করেন।
ডেভিড

মুদ্রা উল্টানোর পেছনের মডেলটি কী?
স্ক্যান করুন

32

আপনার বক্তব্য প্রসঙ্গে

লজিস্টিক রিগ্রেশন কখন ব্যবহার করতে হবে এবং কখন প্রবিট ব্যবহার করতে হবে তা জানতে আমি এখানে আরও আগ্রহী

এখানে ইতিমধ্যে অনেকগুলি উত্তর রয়েছে যা দুজনের মধ্যে বেছে নেওয়ার সময় বিবেচনার জন্য বিষয়গুলি নিয়ে আসে তবে একটি গুরুত্বপূর্ণ বিবেচনা রয়েছে যা এখনও বলা হয়নি: যখন আপনার আগ্রহ মিশ্র প্রভাবগুলির লজিস্টিক ব্যবহার করে বাইনারি ডেটাতে-ক্লাস্টার সংস্থাগুলির দিকে নজর রাখে বা প্রবিট মডেলগুলি, প্রবিট মডেলটিকে প্রাধান্য দেওয়ার জন্য একটি তাত্ত্বিক ভিত্তি রয়েছে। অবশ্যই এই হল, অভিমানী কোন নেই অবরোহমার্গী লজিস্টিক মডেল করা উচিত ছিল (যেমন আপনি একটি সিমুলেশন করছেন এবং এটি সত্য মডেল হতে জানা) জন্য কারণ।

প্রথমত , কেন এটি সত্য তা প্রথম দেখার জন্য যে এই দুটি মডেলই চৌম্বকীয় ক্রমাগত রিগ্রেশন মডেল হিসাবে দেখা যায়। উদাহরণ হিসাবে ক্লাস্টার পর্যবেক্ষণের জন্য সরল রৈখিক মিশ্র প্রভাবগুলির মডেলটি বিবেচনা করুন :ij

yij=μ+ηj+εij

যেখানে হ'ল ক্লাস্টার র্যান্ডম এফেক্ট এবং ত্রুটি শব্দ। তারপরে লজিস্টিক এবং প্রবিট রিগ্রেশন মডেল উভয়ই সমতুল্যভাবে এই মডেল থেকে উত্পন্ন এবং থ্রেশহোল্ডিং হিসাবে 0 তে সূচিত হয়:ηjN(0,σ2)jεij

yij={1if   yij00if   yij<0

যদি পরিভাষাটি সাধারণত বিতরণ করা হয় তবে আপনার একটি প্রবিট রিগ্রেশন রয়েছে এবং যদি এটি যৌক্তিকভাবে বিতরণ করা হয় তবে আপনার একটি লজিস্টিক রিগ্রেশন মডেল রয়েছে। যেহেতু স্কেল সনাক্ত করা যায় নি, এই অবশিষ্টাংশ ত্রুটিগুলি যথাক্রমে স্ট্যান্ডার্ড নরমাল এবং স্ট্যান্ডার্ড লজিস্টিক হিসাবে নির্দিষ্ট করা হয়।εij

পিয়ারসন (১৯০০) দেখিয়েছেন যে যদি মাল্টিভারিয়েট স্বাভাবিক তথ্য উত্পন্ন হয় এবং শ্রেণিবদ্ধ হিসাবে প্রান্তিক করা হয় তবে অন্তর্নিহিত ভেরিয়েবলগুলির মধ্যে পারস্পরিক সম্পর্কগুলি এখনও পরিসংখ্যানগতভাবে চিহ্নিত করা হয়েছিল - এই পারস্পরিক সম্পর্কগুলিকে বহুভৌজিক পারস্পরিক সম্পর্ক বলা হয় এবং বাইনারি ক্ষেত্রে সুনির্দিষ্টভাবে এগুলিকে বলা হয় টেটারাকোরিক সম্পর্ক । এর অর্থ হ'ল, একটি প্রবিট মডেলটিতে অন্তর্নিহিত সাধারণত বিতরণ করা ভেরিয়েবলগুলির অন্তর্নিহিত সহাবস্থান সহগ:

ICC=σ^2σ^2+1

সনাক্ত করা হয়েছে যার অর্থ হল যে প্রবিট ক্ষেত্রে আপনি অন্তর্নিহিত সুপ্ত ভেরিয়েবলের যৌথ বন্টনকে পুরোপুরি বৈশিষ্ট্যযুক্ত করতে পারেন

লজিস্টিক মডেলটিতে লজিস্টিক মডেলটিতে এলোমেলো প্রভাবের পার্থক্যটি চিহ্নিত করা হলেও এটি নির্ভরতা কাঠামোর (এবং তাই যৌথ বন্টন) পুরোপুরি চিহ্নিত করে না, যেহেতু এটি একটি সাধারণ এবং লজিস্টিক র‌্যান্ডম ভেরিয়েবলের মধ্যে একটি মিশ্রণ the সম্পত্তি যে এটি সম্পূর্ণরূপে তার গড় এবং covariance ম্যাট্রিক্স দ্বারা নির্দিষ্ট করা হয়। অন্তর্নিহিত সুপ্ত ভেরিয়েবলগুলির জন্য এই অদ্ভুত প্যারাম্যাট্রিক অনুমানটি লক্ষ্য করা লজিস্টিক মডেলটিতে এলোমেলো প্রভাবগুলির ব্যাখ্যা সাধারণভাবে ব্যাখ্যা করার পক্ষে কম স্পষ্ট করে তোলে।


6
অন্যান্য পরিস্থিতি রয়েছে যেখানে প্রবিটকেও পছন্দ করা উচিত। একনোমেট্রিক সিলেকশন মডেল (অর্থাত্ হেকম্যান) কেবল প্রবিট মডেল ব্যবহার করে প্রমাণিত। আমি এ সম্পর্কে কম নিশ্চিত, তবে আমি এমন কিছু এসইএম মডেলগুলিকেও বিশ্বাস করি যেখানে বাইনারি ভেরিয়েবলগুলি অন্তঃসত্ত্বা থাকে তবে প্রবীট মডেলটি সর্বাধিক সম্ভাবনা অনুমানের জন্য প্রয়োজনীয় মাল্টিভিয়ারেট স্বাভাবিকতা অনুমানের কারণে ব্যবহার করে।
অ্যান্ডি ডাব্লু

1
@ অ্যান্ডিডাব্লু, আপনি বাইনারি এসএমএস সম্পর্কে ঠিক বলেছেন - এবং এটি আমি এখানে তৈরি করা বিন্দুর সাথে ঘনিষ্ঠভাবে জড়িত - সেখানে অনুমান (এবং পরবর্তী ব্যাখ্যা) অন্তর্নিহিত পারস্পরিক সম্পর্কগুলি চিহ্নিত করা হয়েছে এবং যৌথ বন্টনকে সম্পূর্ণরূপে বৈশিষ্ট্যযুক্ত করে তোলে ।
ম্যাক্রো

29

পূর্ববর্তী (দুর্দান্ত) উত্তরে যে গুরুত্বপূর্ণ পয়েন্টটি সম্বোধন করা হয়নি তা হ'ল আসল অনুমানের পদক্ষেপ। বহু বহুবিধ লগইট মডেলগুলির একটি পিডিএফ রয়েছে যা সংহত করা সহজ, যা পছন্দ সম্ভাবনার একটি বদ্ধ-ফর্ম প্রকাশের দিকে নিয়ে যায়। সাধারণ বিতরণের ঘনত্বের ফাংশনটি এত সহজে সংহত হয় না, তাই প্রবিট মডেলগুলিতে সাধারণত সিমুলেশন প্রয়োজন। সুতরাং উভয় মডেল বাস্তব বিশ্বের পরিস্থিতির বিমূর্ততা থাকলেও লগইট সাধারণত বড় সমস্যাগুলিতে (একাধিক বিকল্প বা বড় ডেটাসেট) ব্যবহার করতে দ্রুত হয়।

এটি আরও পরিষ্কারভাবে দেখতে, কোনও নির্দিষ্ট ফলাফলের নির্বাচিত হওয়ার সম্ভাবনাটি হ'ল ফাংশনxε

P=I[ε>βx]f(ε)dε
If(x)

P=ε=βxf(ε)dε=1F(βx)=11exp(βx)

প্রবিট মডেলগুলির জন্য এই জাতীয় কোনও সুবিধাজনক ফর্ম বিদ্যমান নেই।


4
প্রকৃত ঘটনাটি প্রব্যাক দ্বারা আরও ভাল মডেলিং করা সত্ত্বেও, বহুগুণীয় লগইট ফাংশনগুলি স্থানিক বিযুক্ত পছন্দের সমস্যাগুলি অনুমান করার জন্য ধ্রুপদীভাবে ব্যবহৃত হয়।
fmark

আপনি ডিসি মডেলের মধ্যে স্থানিক উপাদানগুলি কীভাবে অন্তর্ভুক্ত করবেন? আমি খুবই আগ্রহী.
গ্রেগম্যাকফার্লেনে

2
তবে, পছন্দের পরিস্থিতিতে প্রবিট আরও নমনীয়, তাই আজ মুর ব্যবহৃত হয়! বহুজাতিক লজিট অপ্রাসঙ্গিক বিকল্পের অপ্রাসঙ্গিকতার ধারণা অনুধাবন করে, যা সর্বদা অনুগতভাবে ন্যায়সঙ্গত হয় না।
কেজেটিল বি হালওয়ারসেন

1
আপনি ঠিক বলেছেন যে আইআইএ সবসময় ন্যায়সঙ্গত হয় না, এবং আপনি এটিও ঠিক বলেছেন যে আধুনিক অনুমানকারীগুলির সাথে প্রোব মডেলগুলি যুক্তিসঙ্গতভাবে দ্রুত अनुमान করা যায়। তবে জিইভি মডেলগুলি আইআইএ সমস্যা সমাধান করে এবং নির্দিষ্ট পরিস্থিতিতে পছন্দের কাঠামোকে আরও ভালভাবে উপস্থাপন করতে পারে। আমিও নিশ্চিত নই যে প্রব্যাকটি "আজ আরও বেশি ব্যবহৃত হয়"; আমার ক্ষেত্রে (পরিবহন মডেলিং), প্রবাইট মডেলগুলি অভিনবত্ব থেকে যায়।
গ্রেগম্যাকফার্লেনে

13

আমি যা বলতে চাই তা কোনওভাবেই এটিকে অবৈধ করে দেয় যা এতদূর বলা হয়েছে। আমি কেবল এটিই উল্লেখ করতে চাই যে প্রবিট মডেলগুলি IIA (অপ্রাসঙ্গিক বিকল্পগুলির স্বাধীনতা) অনুমানগুলি থেকে ভোগেনা এবং লগইট মডেলটি করে।

ট্রেনের দুর্দান্ত বইয়ের একটি উদাহরণ ব্যবহার করা। যদি আমার একটি লজিট থাকে যা পূর্বাভাস দেয় যে আমি আমার গাড়িতে নীল বাস চালাচ্ছি বা চালাচ্ছি কিনা, লাল বাস যুক্ত এবং গাড়ী এবং নীল উভয় দিক থেকে আনুপাতিকভাবে টানা হবে। তবে একটি প্রবিট মডেল ব্যবহার করে আপনি এই সমস্যাটি এড়াতে পারেন। সংক্ষেপে, উভয় থেকে আনুপাতিকভাবে আঁকার পরিবর্তে, আপনি নীল বাস থেকে আরও আঁকতে পারেন কারণ তারা কাছাকাছি বিকল্প রয়েছে।

আপনি যে ত্যাগটি করেন তা হ'ল উপরে বর্ণিত কোনও বন্ধ ফর্ম সমাধান নেই। আইআইএ সংক্রান্ত সমস্যা নিয়ে আমি যখন উদ্বিগ্ন তখন প্রোবাইটটি আমার গোটো হয়ে যায়। এটি বলার অপেক্ষা রাখে না যে লগিট ফ্রেমওয়ার্কে (জিইভি বিতরণ) আইআইএর কাছাকাছি যাওয়ার কোনও উপায় নেই। তবে আমি সবসময় সমস্যার ধরণের উপায় হিসাবে এই ধরণের মডেলের দিকে নজর রেখেছি। আপনি যে গণনাগত গতি পেতে পারেন তা দিয়ে আমি বলব প্রবিট দিয়ে যান।


1
আপনি কি "অপ্রাসঙ্গিক বিকল্পের স্বাধীনতা" ব্যাখ্যা করতে পারেন, দয়া করে?
স্ক্যান করুন

3
দ্রষ্টব্য যে এখনও বহুজাতিক প্রবিট মডেলটি অনুমান করা সম্ভব যা আইআইএ অনুমানের একটি বৈকল্পিক প্রয়োগ করে (যেমন স্টাটাতে এমপ্রোবিট কমান্ডে)। বহুজাতিক নীতিতে IIA কে সরিয়ে দিতে আপনাকে অবশ্যই প্রতিক্রিয়ার ভেরিয়েবলের প্রতিটি বিকল্পের জন্য সুপ্ত পরিবর্তনশীল ত্রুটির ভেরিয়েন্স-কোভারিয়েন্স ম্যাট্রিক্সের মডেল করতে হবে।
কেনজি

8

লজিট এবং প্রবিটের মধ্যে সর্বাধিক পরিচিত একটি পার্থক্য হ'ল (তাত্ত্বিক) রিগ্রেশন রেসিডুয়াল বিতরণ: প্রবিটের জন্য সাধারণ, লগিটের জন্য লজিস্টিক (দয়া করে দেখুন: কোপ জি। ইকোনোমেট্রিক্স চিচেস্টারের একটি পরিচিতি, উইলি: ২০০৮: ২৮০)।


2
তবে কীভাবে আমরা জানব যে আমাদের ডেটাতে তাত্ত্বিক স্বাভাবিক বা লজিস্টিক অবশিষ্টাংশ বিতরণ হওয়া উচিত? উদাহরণস্বরূপ যখন আমি একটি মুদ্রা ফ্লিপ করি।
স্ক্যান

8

আমি এই প্রশ্নের একটি ব্যবহারিক উত্তর অফার করি, যা কেবলমাত্র "কখন লজিস্টিক রিগ্রেশন ব্যবহার করতে হবে এবং কখন প্রবিট ব্যবহার করতে হবে" -এর উপর দৃষ্টি নিবদ্ধ করে, পরিসংখ্যান সংক্রান্ত বিবরণ না পেয়ে বরং সংখ্যার ভিত্তিতে সিদ্ধান্তের দিকে মনোনিবেশ করে। উত্তরটি দুটি প্রধান বিষয়ের উপর নির্ভর করে: আপনার কি শৃঙ্খলাভিত্তিক অগ্রাধিকার রয়েছে এবং আপনি কেবলমাত্র কোন মডেলটির জন্য আপনার ডেটা আরও ভাল ফিট করে তার যত্ন নিচ্ছেন?

বেসিক পার্থক্য

উভয় লগইট এবং প্রবিট মডেল পরিসংখ্যানগত মডেল সরবরাহ করে যা নির্ভরশীল প্রতিক্রিয়া পরিবর্তনশীল 0 বা 1 হওয়ার সম্ভাবনা দেয় যা তারা খুব অনুরূপ এবং প্রায়শই ব্যবহারিকভাবে সনাক্তকারী ফলাফল দেওয়া হয়, তবে সম্ভাব্যতা গণনা করতে তারা বিভিন্ন ফাংশন ব্যবহার করে বলে তাদের ফলাফলগুলি কখনও কখনও সামান্য হয় আলাদা।

ডিসিপ্লিনারি পছন্দ

কিছু একাডেমিক শাখা সাধারণত একটি বা অন্য পছন্দ। যদি আপনি একটি নির্দিষ্ট traditionalতিহ্যগত পছন্দ সহ একটি ফলাফলকে একাডেমিকিক শৃঙ্খলে প্রকাশ করতে বা উপস্থাপন করতে যাচ্ছেন, তবে আপনার পছন্দটিকে আদেশ দিন যাতে আপনার অনুসন্ধানগুলি আরও সহজেই গ্রহণযোগ্য হয়। উদাহরণস্বরূপ ( পদ্ধতি পরামর্শদাতাদের কাছ থেকে ),

লজিট - লজিস্টিক রিগ্রেশন নামেও পরিচিত - মহামারীবিজ্ঞানের মতো স্বাস্থ্য বিজ্ঞানের ক্ষেত্রে বেশি জনপ্রিয় কারণ আংশিক অনুপাতের ক্ষেত্রে সহগের ব্যাখ্যা দেওয়া যেতে পারে। আরও উন্নত ইকোনোমেট্রিক সেটিংসে (হিটারোস্কেস্টেস্টিক প্রবিট মডেল হিসাবে পরিচিত) অবিচ্ছিন্ন ত্রুটি পরিবর্তনের জন্য প্রব্যাট মডেলগুলিকে সাধারণকরণ করা যেতে পারে এবং তাই অর্থনীতিবিদ এবং রাজনৈতিক বিজ্ঞানীরা কিছু প্রসঙ্গে ব্যবহার করতে পারেন।

মুল বক্তব্যটি হ'ল ফলাফলের পার্থক্যগুলি এতটাই সামান্য যে আপনার সাধারণ দর্শকদের জন্য আপনার ফলাফলগুলি বোঝার ক্ষমতা দুটি পদ্ধতির মধ্যে সামান্য পার্থক্যকে ছাড়িয়ে যায়।

আপনার যত্ন নেওয়া সমস্ত যদি ভাল ফিট হয় ...

যদি আপনার গবেষণাটি এমন কোনও শৃঙ্খলে থাকে যা এক বা অন্যটিকে পছন্দ করে না, তবে এই প্রশ্নটি সম্পর্কে আমার গবেষণা (যা ভাল, লজিট বা প্রবট) এটি আমাকে এই সিদ্ধান্তে নিয়ে গেছে যে প্রব্যাকটি ব্যবহার করা ভাল যেহেতু প্রায় সবসময়ই হবে লগইট মডেলের তুলনায় সমান বা উচ্চতর ডেটাতে একটি পরিসংখ্যানগত ফিট দিন। লজিট মডেলগুলি আরও ভাল ফিট করার ক্ষেত্রে সবচেয়ে উল্লেখযোগ্য ব্যতিক্রম হ'ল "চরম স্বাধীন ভেরিয়েবল" (যা আমি নীচে ব্যাখ্যা করি) এর ক্ষেত্রে।

আমার উপসংহারটি হান, ইডি ও সায়ার, আর।, ২০০৫-এ প্রায় সম্পূর্ণ (অন্যান্য বহু উত্স অনুসন্ধানের পরে) ভিত্তিক Pro প্রোবিত এবং লগইটের মডেলগুলি: মাল্টিভারিয়েট রাজ্যে পার্থক্য। Http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.32929866&rep=rep1&type=pdf এ উপলব্ধ । লগইট বনাম প্রবিট মাল্টিভারিয়েট মডেলগুলি ডেটাতে আরও ভাল ফিট করে কিনা (এই সিদ্ধান্তগুলি অবিচ্ছিন্ন মডেলের ক্ষেত্রেও প্রযোজ্য, তবে এগুলি কেবল দুটি স্বতন্ত্র ভেরিয়েবলের জন্য সিমুলেটেড এফেক্টস) সম্পর্কিত আমার এই নিবন্ধের ব্যবহারিক সিদ্ধান্তের সংক্ষিপ্তসারগুলি এখানে:

  • বেশিরভাগ পরিস্থিতিতে লগইট এবং প্রবিট মডেলগুলি নিম্নলিখিত দুটি ব্যতিক্রম সহ ডেটা সমানভাবে ফিট করে।

  • "চরম স্বতন্ত্র ভেরিয়েবল" এর ক্ষেত্রে লগইট অবশ্যই ভাল । এগুলি স্বতন্ত্র ভেরিয়েবল যেখানে একটি বিশেষত বড় বা ছোট মান অত্যধিকভাবে নির্ধারিত করে যে নির্ভরশীল ভেরিয়েবলটি 0 বা 1 হয় কিনা, বেশিরভাগ অন্যান্য ভেরিয়েবলের প্রভাবগুলিকে ওভাররাইড করে। হান এবং সোয়ার আনুষ্ঠানিকভাবে এটি সংজ্ঞায়িত করেন (পৃষ্ঠা 4):

একটি চূড়ান্ত স্বতন্ত্র পরিবর্তনশীল স্তরটি তিনটি ইভেন্টের সাথে জড়িত। প্রথমত, একটি চূড়ান্ত স্বতন্ত্র পরিবর্তনশীল স্তরটি একটি স্বাধীন ভেরিয়েবলের উপরের বা নিম্ন চূড়ায় ঘটে। উদাহরণস্বরূপ, বলুন যে স্বাধীন ভেরিয়েবল এক্সটি 1, 2 এবং 3.2 এর মান গ্রহণ করবে। চরম স্বতন্ত্র পরিবর্তনশীল স্তরটি x = 3.2 (বা x = 1) এর মানগুলিকে অন্তর্ভুক্ত করবে। দ্বিতীয়ত, মোট এন এর যথেষ্ট পরিমাণ (যেমন, 60%) অবশ্যই এই স্তরে থাকতে হবে। তৃতীয়ত, এই স্তরে সাফল্যের সম্ভাবনা নিজেই চূড়ান্ত হওয়া উচিত (উদাহরণস্বরূপ, 99% এর বেশি)।

  • মাঝারি বা বড় নমুনা আকারের সাথে "র্যান্ডম এফেক্টস মডেলগুলি" এর ক্ষেত্রে প্রবিটটি আরও ভাল (এটি ছোট নমুনা আকারের জন্য লজিটের সমান)। ফিক্সড এফেক্টস মডেলগুলির জন্য, প্রবিট এবং লজিট সমানভাবে ভাল। হান এবং সোয়ের তাদের নিবন্ধে "র্যান্ডম এফেক্টস মডেল" বলতে কী বোঝায় তা আমি সত্যিই বুঝতে পারি না। যদিও অনেক সংজ্ঞা দেওয়া হয় ( এই স্ট্যাক এক্সচেঞ্জের প্রশ্নে ) তবে এই শব্দটির সংজ্ঞা আসলে অস্পষ্ট এবং অসঙ্গত । তবে লজিট যেহেতু এই ক্ষেত্রে প্রবিটের তুলনায় কখনই উন্নত নয়, তাই কেবল প্রবিটটি বেছে নিয়ে বিন্দুটি মূলে রেন্ডার করা হয়।

হাহান এবং সয়িরের বিশ্লেষণের ভিত্তিতে, আমার উপসংহারটি সর্বদা চূড়ান্ত স্বতন্ত্র ভেরিয়েবলগুলির ক্ষেত্রে বাদ দিয়ে প্রবিট মডেলগুলি ব্যবহার করা হয়, যার ক্ষেত্রে লগইট চয়ন করা উচিত । চরম স্বতন্ত্র ভেরিয়েবলগুলি সমস্ত সাধারণ নয় এবং এটি সনাক্ত করা খুব সহজ হওয়া উচিত। থাম্বের এই নিয়মটি দিয়ে, মডেলটি এলোমেলো প্রভাবগুলির মডেল কিনা তা বিবেচনা করে না। যেসব ক্ষেত্রে কোনও মডেল একটি এলোমেলো প্রভাবের মডেল (যেখানে প্রবিটকে অগ্রাধিকার দেওয়া হয়) তবে সেখানে চূড়ান্ত স্বতন্ত্র ভেরিয়েবল রয়েছে (যেখানে লজিটকে অগ্রাধিকার দেওয়া হয়), যদিও হান এবং সায়ার এ সম্পর্কে মন্তব্য করেননি, তাদের নিবন্ধ থেকে আমার ধারণাটি যে প্রভাবটি চূড়ান্ত স্বতন্ত্র ভেরিয়েবলগুলি বেশি প্রভাবশালী এবং তাই লজিট পছন্দ করা হবে।


5

নীচে, আমি এমন একটি অনুমানকারীকে ব্যাখ্যা করি যা বিশেষ কেস হিসাবে প্রবিট এবং লগইট করে এবং যেখানে কোনটি পরীক্ষা করতে পারে যা আরও উপযুক্ত।

প্রবিট এবং লগইট উভয়ই একটি সুপ্ত পরিবর্তনশীল মডেলটিতে বাসা বাঁধতে পারে,

yi=xiβ+εi,εiG(),

যেখানে পর্যবেক্ষণের উপাদান

yi=1(yi>0).

G

(β)=yilogG(xiβ)+(1yi)log[1G(xiβ)].

G

ক্লিন অ্যান্ড স্পাডি-তে, পরিবর্তে মানদণ্ডের ক্রিয়াটি

(β)=yilogG^(xiβ)+(1yi)log[1G^(xiβ)],

G^()

G^(z)=i=1NyiK(zxiβh)j=1NK(zxjβh),

Khβhh

জি^আমি

জিβজি


5

তারা খুব অনুরূপ।

ওয়াই=1এক্সএসএক্স

পি(ওয়াই=1|এক্স)=পি(এস<βএক্স)

বা সমতুল্য:

পি(ওয়াই=1|এক্স)=পি(βএক্স-এস>0)

এস

  • এস
  • এস

β

=βএক্স-এসএক্স-এস

  • >0ওয়াই=1
  • <0ওয়াই=0

লজিস্টিক এবং প্রবিটের মধ্যে পার্থক্য লজিস্টিক এবং সাধারণ বিতরণের মধ্যে পার্থক্য থাকে। অনেক কিছুই নেই। একবারে অ্যাডজাস্ট হয়ে গেলে তারা এটিকে দেখতে দেখতে: এখানে চিত্র বর্ণনা লিখুন

লজিস্টিকের ভারী লেজ থাকে। এটি ক্ষুদ্র (<1%) বা উচ্চ (> 99%) সম্ভাব্যতার ইভেন্টগুলি কীভাবে লাগানো হবে এটি কিছুটা প্রভাব ফেলতে পারে। ব্যবহারিকভাবে, বেশিরভাগ পরিস্থিতিতে পার্থক্যটিও লক্ষণীয় নয়: লগইট এবং প্রবিট মূলত একই জিনিসটির পূর্বাভাস দেয়। দেখুন http://scholarworks.rit.edu/cgi/viewcontent.cgi?article=2237&context=article

: "দার্শনিকভাবে", লজিস্টিক রিগ্রেশন সর্বাধিক এনট্রপি নীতিকে সমতূল্য হচ্ছে সমর্থনযোগ্য হতে পারে http://www.win-vector.com/blog/2011/09/the-equivalence-of-logistic-regression-and-maximum -entropy-মডেল /

গণনার ক্ষেত্রে: লজিস্টিক সহজ কারণ লজিস্টিক বিতরণের সামগ্রিক বিতরণ একটি সাধারণ সূত্রের বিপরীতে বন্ধ সূত্র রয়েছে। আপনি যখন বহুমাত্রিক দিকে যান তখন সাধারণ বিতরণগুলির ভাল বৈশিষ্ট্য থাকে, এ কারণেই প্রায়শই উন্নত ক্ষেত্রে অগ্রাধিকার দেওয়া হয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.