লগইট ফাংশন বাইনারি ডেটাগুলির রিগ্রেশন মডেলিংয়ের জন্য সর্বদা সেরা?


15

আমি এই সমস্যাটি নিয়ে ভাবছিলাম বাইনারি ডেটা মডেলিংয়ের জন্য স্বাভাবিক লজিস্টিক ফাংশনটি হ'ল: তবে লগিট ফাংশনটি যা কোনও এস-আকৃতির বক্ররেখা, ডেটা মডেলিংয়ের জন্য সর্বদা সেরা? হতে পারে আপনার বিশ্বাস করার কারণ আছে যে আপনার ডেটা সাধারণ এস-আকৃতির বক্ররেখা অনুসরণ করে না তবে ডোমেনের সাথে একটি ভিন্ন ধরণের বক্ররেখা(0,1)

log(p1p)=β0+β1X1+β2X2+
(0,1)

এ নিয়ে কি কোনও গবেষণা আছে? হতে পারে আপনি এটি একটি প্রবট ফাংশন বা অনুরূপ কিছু হিসাবে মডেল করতে পারেন, তবে এটি সম্পূর্ণ অন্য কিছু হলে কী হবে? এটি প্রভাবগুলির আরও ভাল অনুমানের দিকে নিয়ে যেতে পারে? আমার কেবল একটি চিন্তাভাবনা ছিল, এবং আমি এই নিয়ে কোনও গবেষণা আছে কিনা তা অবাক করি।



2
@ ম্যাক্রো আমার মনে হয় না এটি হুবহু সদৃশ। এই প্রশ্নটি কেবল লজিট এবং প্রবিট সম্পর্কে; এটি অন্য বিকল্পগুলির জন্যও জিজ্ঞাসা করে।
পিটার ফ্লুম - মনিকা পুনরায়

আমি এই খোলা ছেড়ে ভোট দিচ্ছি। প্রধান পার্থক্য যা আমি দেখছি তা হল এই প্রশ্নটি বিভিন্ন সম্ভাব্য লিঙ্ক ফাংশনগুলির বিষয় নিয়ে পরিসংখ্যানগুলিতে গবেষণা চাচ্ছে। এটি একটি সূক্ষ্ম পার্থক্য, তবে এটি যথেষ্ট হতে পারে। @ গ্লেন, আপনি অন্য প্রশ্নটি পর্যালোচনা করতে চাইতে পারেন, যদি আপনি এটি ইতিমধ্যে না দেখে থাকেন। আমার উত্তরে আমি বিভিন্ন সম্ভাব্য লিঙ্কগুলি নিয়ে কথা বলি। আপনি যদি মনে করেন যে এই প্রশ্নটি সত্যিই আলাদা নয়, এটি পতাকাঙ্কিত করুন & মোডগুলি এটি বন্ধ করতে পারে; আপনি কী জিজ্ঞাসা করছেন এবং যে প্রশ্নটি আরও পরিষ্কার তা আপনি কীভাবে আলাদা করার উপায় সম্পর্কে ভাবতে পারেন, আপনি এটি সম্পাদনা করতে চাইতে পারেন।
গুং - মনিকা পুনরায়

আমি জানি এটি লগইট বনাম প্রবিট প্রশ্নের যথাযথ নকল নয় তবে আমি ভেবেছিলাম গুংয়ের উত্তর, যা লিঙ্কিত প্রশ্নটি জিজ্ঞাসা করা হয়েছে তার উপরে এবং তার বাইরে চলে গেছে, বেশিরভাগ এখানে এখানে জিজ্ঞাসা করা হয়েছিল যা সম্বোধন করে, এজন্যই আমি নকল হিসাবে বন্ধ করেছিলাম। সম্ভবত অন্যান্য ঘনিষ্ঠভাবে সম্পর্কিত থ্রেড রয়েছে তবে এটিই প্রথম মনে আসে।
ম্যাক্রো

মন্তব্যের জন্য ধন্যবাদ। আমি বিশ্বাস করি আমার প্রশ্নটি আগের প্রশ্নের চেয়ে আলাদা। আমি প্রবিট এবং লগ-লগ রূপান্তরগুলির সাথে খুব পরিচিত, এবং পূর্ববর্তী প্রশ্ন থেকে আলোচনার বিষয়টি আমার জন্য খুব তথ্যপূর্ণ ছিল। যাইহোক, আমি অন্যান্য লিঙ্ক ফাংশনগুলিতে আগ্রহী (সম্ভবত প্যারামিমেট্রিক নন?) যেগুলি সম্ভব, এমন পরিস্থিতিতে আপনি যা জানেন বা নাও থাকতে পারেন এমন সম্ভাবনা বক্ররেখা একটি ভিন্ন বিতরণ অনুসরণ করে। আমি মনে করি যখন covariates মধ্যে মিথস্ক্রিয়া জড়িত এটি একটি গুরুত্বপূর্ণ ভূমিকা নিতে পারে। @ ডেভিড জে হ্যারিসের উত্তরটিও সহায়ক সহায়ক ...
গ্লেন

উত্তর:


15

লোকেরা তাদের ডেটা ০ থেকে ১ এর মধ্যে রাখার জন্য সমস্ত ধরণের ফাংশন ব্যবহার করে থাকে যখন আপনি মডেলটি আনেন তখন লগ-প্রতিক্রিয়াগুলি প্রাকৃতিকভাবেই গণিত থেকে বেরিয়ে আসে (একে "ক্যানোনিকাল লিঙ্ক ফাংশন" বলা হয়) তবে আপনি পরীক্ষার জন্য একেবারেই মুক্ত you're অন্যান্য বিকল্প।

ম্যাক্রো আপনার প্রশ্নের বিষয়ে তাঁর মন্তব্যে ইঙ্গিত করার সাথে সাথে একটি সাধারণ পছন্দ একটি প্রবিট মডেল যা লজিস্টিক ফাংশনের পরিবর্তে গাউসির কোয়ান্টাইল ফাংশন ব্যবহার করে। আমি কোনও শিক্ষার্থীর বিতরণের কোয়ান্টাইল ফাংশনটি ব্যবহার করার বিষয়েও ভাল জিনিস শুনেছি , যদিও আমি এটি কখনও চেষ্টা করি নি।t

এগুলির সকলেরই একই বেসিক এস-আকৃতি রয়েছে তবে তারা প্রতিটি প্রান্তে কতটা দ্রুত সন্তুষ্ট হয় তার মধ্যে তারা পৃথক। প্রবাইট মডেলগুলি খুব দ্রুত 0 এবং 1 এ পৌঁছায়, যদি সম্ভাবনা কম চরম হয় তবে এটি বিপজ্জনক হতে পারে। ভিত্তিক মডেলগুলি যে কোনও উপায়ে যেতে পারে, টি বিতরণের কত ডিগ্রি স্বাধীনতার উপর নির্ভর করে । অ্যান্ড্রু গেলম্যান বলেছেন (বেশিরভাগ সম্পর্কহীন প্রসঙ্গে) যে টি 7ttt7 মোটামুটি লজিস্টিক বক্ররেখার মতো। স্বাধীনতার ডিগ্রি হ্রাস করা আপনাকে আরও শক্তিশালী লেজ দেয় এবং আপনার প্রতিরোধের মধ্যবর্তী মানের বিস্তৃত পরিসীমা দেয়। যখন স্বাধীনতার ডিগ্রি অনন্তে চলে যায়, আপনি প্রবিট মডেলটিতে ফিরে আসেন।

আশাকরি এটা সাহায্য করবে.

যুক্ত করতে সম্পাদিত : @ ম্যাক্রো লিঙ্ক করা আলোচনাটি সত্যিই দুর্দান্ত। আপনি যদি আরও বিশদে আগ্রহী হন তবে আমি এটির মাধ্যমে উচ্চভাবে পড়ার পরামর্শ দেব recommend


প্রশ্নটি বিশেষত "বাইনারি ডেটা" সম্পর্কে - 0 থেকে 1 এর মধ্যে থাকা ডেটা সম্পর্কে নয় The বাইনারি ডেটার ক্ষেত্রে প্রবিট মডেলের কোনও তাত্ত্বিক ন্যায়সঙ্গততা নেই।
নিল জি

3
@ নীলজি, প্রবিট মডেলটি ব্যবহারের একটি কারণ হ'ল এটি মাল্টিভাটারিয়েট বাইনারি ডেটা (যেমন একটি মিশ্র মডেল সহ) প্রান্তিকের স্বাভাবিক হিসাবে মডেলিংয়ের একটি সুবিধাজনক উপায় দেয়। সেক্ষেত্রে অন্তর্নিহিত ভেরিয়েবলগুলির পারস্পরিক সম্পর্ক ম্যাট্রিক্স পরিসংখ্যানগতভাবে অপ্রকাশ্য, যদিও এটি লজিস্টিক ক্ষেত্রে নেই। এখানে কিছুটা দীর্ঘ আলোচনা আছে
ম্যাক্রো

@ ম্যাক্রো: ওহ, আমি দেখতে পাচ্ছি। ধন্যবাদ, এটি খুব আকর্ষণীয়।
নিল জি

@ ডেভিড জে হারিস: আপনার অর্থ কি কুইন্টাইল (বা হতে পারে কোয়ান্টাইলের একই অর্থ), অর্থাত্, পঞ্চাশ ভাগের বিভাজনটি ভেঙে: 20%, 40%, .., 100%?
এমএসআইএস

1
@MSIS একটি পঞ্চমাংশের পঞ্চমাংশ বিভক্ত, নির্বিচারে এককে 100ths মধ্যে একটি শতকরা বিভক্ত করে, এবং একটি কোয়ার্টাইলের ভাগ দেখুন en.wikipedia.org/wiki/Quantile#Specialized_quantiles
ডেভিড জে হ্যারিস

11

আমি কোনও কারণ দেখছি না, পূর্ব-পূর্ব, কোনও প্রদত্ত ডেটাসেটের জন্য উপযুক্ত লিঙ্ক ফাংশনটি কেন লজিট হতে হবে (যদিও মহাবিশ্বটি আমাদের কাছে সাধারণভাবে বরং দয়াবান বলে মনে হচ্ছে)। আপনি যা সন্ধান করছেন এটি বেশ কিছু কিনা তা আমি জানি না, তবে এখানে কিছু কাগজপত্র রয়েছে যা আরও বিদেশী লিঙ্ক ফাংশনগুলি নিয়ে আলোচনা করে:

প্রকাশ: আমি এই উপাদান ভাল জানি না। কয়েক বছর আগে আমি কচিট এবং স্কোবিটকে নিয়ে ছদ্মবেশের চেষ্টা করেছি, তবে আমার কোডটি ক্র্যাশ করে চলেছে (সম্ভবত আমি কোনও দুর্দান্ত প্রোগ্রামার নই), এবং আমি যে প্রকল্পে কাজ করছি তার জন্য এটি প্রাসঙ্গিক বলে মনে হয় না, তাই আমি এটিকে ফেলে দিয়েছি ।

এই সামগ্রীর বেশিরভাগ ক্ষেত্রে প্রোটোটাইপিকাল লিঙ্কগুলির চেয়ে পৃথক পৃথক লেজ আচরণ করা উচিত (যেমন, ফাংশনটি 'কোণার দিকে' প্রারম্ভিক হয় এবং খুব দ্রুত 0 এবং 1 তে ছাঁটাই করে না), বা স্কিউড হয় (অর্থাত্ ক্লোগলগের মতো তারাও) অন্যটির চেয়ে এক সীমা দ্রুত পৌঁছনো)। একটি স্প্লাইন ফাংশন ফিট করে আপনার বিশ্বাস এই আচরণগুলি প্রতিলিপি করতে সক্ষম হওয়া উচিত IX


4

সর্বোত্তম কৌশলটি হ'ল যা চলছে তার আলোকে ডেটা মডেল করা (অবাক হওয়ার কিছু নেই!)

  • প্রবিট মডেলগুলি এলডি 50 স্টাডির সাথে উদ্ভূত হয় - আপনি কীটনাশকের ডোজ চান যা অর্ধেক বাগ মারা যায়। বাইনারি প্রতিক্রিয়াটি হ'ল বাগটি বেঁচে থাকে বা মরে (একটি নির্দিষ্ট পরিমাণে) whether একটি ডোজে সংবেদনশীল যে বাগগুলি তত কম মাত্রায়ও সংবেদনশীল হয়ে উঠতে পারে, এখানেই ক্রমযুক্ত সাধারণের সাথে মডেলিংয়ের ধারণা আসে।
  • যদি বাইনারি পর্যবেক্ষণগুলি গুচ্ছগুলিতে আসে তবে আপনি একটি বিটা-বাইনোমিয়াল মডেল ব্যবহার করতে পারেন। বেন বলকারের তার বিবিএমলে প্যাকেজের ডকুমেন্টেশনে একটি ভাল ভূমিকা রয়েছে (আরে) যা সাধারণ ক্ষেত্রে এটি প্রয়োগ করে। দ্বিপদী বিতরণে যা পাওয়া যায় তার চেয়ে এই মডেলগুলি ডেটা পরিবর্তনের উপর আরও নিয়ন্ত্রণের সুযোগ দেয়।
  • মাল্টিভিয়ারিয়েট বাইনারি ডেটা - যে ধরণের বহু-মাত্রিক आकस्मिक টেবিলগুলিতে রোল করা হয় - লগ-লিনিয়ার মডেল ব্যবহার করে বিশ্লেষণ করা যেতে পারে। লিংক ফাংশনটি লগ প্রতিক্রিয়াগুলির চেয়ে লগ হয়। কিছু লোক এটিকে পোয়েসন রিগ্রেশন হিসাবে উল্লেখ করে।

এই মডেলগুলির বিষয়ে সম্ভবত গবেষণা নেই, যদিও এর মধ্যে যে কোনও একটি মডেল এবং তাদের মধ্যে তুলনা এবং তাদের অনুমানের বিভিন্ন উপায়ে নিয়ে প্রচুর গবেষণা হয়েছে। সাহিত্যে আপনি যা সন্ধান করছেন তা হ'ল কিছু সময়ের জন্য প্রচুর ক্রিয়াকলাপ রয়েছে, কারণ গবেষকরা একটি নির্দিষ্ট শ্রেণীর সমস্যার জন্য অনেকগুলি বিকল্প বিবেচনা করেন এবং তারপরে একটি পদ্ধতি উচ্চতর হিসাবে আবির্ভূত হয়।


বিটা-বাইনোমিয়ালের জন্য +1। কারও টুলবক্সে রাখার এটি দুর্দান্ত সরঞ্জাম।
ডেভিড জে হ্যারিস

3

লজিট এমন একটি মডেল যা ইনপুটগুলি বিশেষজ্ঞের একটি পণ্য যার মধ্যে প্রতিটি একটি বের্নোলি বিতরণ। অন্য কথায়, আপনি যদি সমস্ত ইনপুটকে সম্ভাব্যতা সহ স্বতন্ত্র বার্নোল্লি বিতরণ হিসাবে বিবেচনা করেনপিআমি যার প্রমাণ একত্রিত হয়, আপনি দেখতে পাবেন যে আপনি প্রতিটিটির জন্য প্রয়োগ করা লজিস্টিক ফাংশন যুক্ত করছেন পিআমিগুলি। (একই কথা বলার আর একটি উপায় হ'ল প্রত্যাশা প্যারামিট্রাইজেশন থেকে বার্নোল্লি বিতরণের প্রাকৃতিক প্যারামিট্রাইজেশনে রূপান্তর হ'ল লজিস্টিক ফাংশন))

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.