লজিস্টিক রিগ্রেশন পিছনে অন্তর্দৃষ্টি


25

সম্প্রতি আমি মেশিন লার্নিং অধ্যয়ন শুরু করেছি, তবে আমি লজিস্টিক রিগ্রেশনের পিছনে অন্তর্নিহিত বুঝতে পারি নি ।

নীচে লজিস্টিক রিগ্রেশন সম্পর্কে তথ্য যা আমি বুঝতে পারি।

  1. অনুমানের ভিত্তি হিসাবে আমরা সিগময়েড ফাংশন ব্যবহার করি । আমি বুঝতে পারছি না কেন এটা একটি সঠিক পছন্দ, তবে কেন এটা শুধুমাত্র পছন্দ আমি বুঝতে পারছি না। হাইপোথিসিস সম্ভাব্যতার প্রতিনিধিত্ব করে যে উপযুক্ত আউটপুটটি , সুতরাং আমাদের ফাংশনের ডোমেনটি হওয়া উচিত , এটি সিগময়েড ফাংশনের একমাত্র সম্পত্তি যা আমি এখানে দরকারী এবং উপযুক্ত বলে মনে করি, তবে অনেকগুলি কার্যকারিতা এই সম্পত্তিটিকে সন্তুষ্ট করে। এছাড়াও, সিগময়েড ফাংশনটির ফর্মের একটি ডেরাইভেটিভ রয়েছে , তবে আমি লজিস্টিক রিগ্রেশনটিতে এই বিশেষ ফর্মটির ইউটিলিটিটি দেখতে পাচ্ছি না।[ 0 , 1 ] ( এক্স ) ( 1 - ( এক্স ) )1[0,1]f(x)(1f(x))

    প্রশ্ন : সিগময়েড ফাংশন সম্পর্কে কী বিশেষ, এবং কেন আমরা ডোমেন সাথে অন্য কোনও ফাংশন ব্যবহার করতে পারি না ?[0,1]

  2. ব্যয় ফাংশনে দুটি পরামিতি থাকে যদি যদি । উপরের মত একই ছিল, আমি বুঝতে পারি কেন এটি সঠিক, তবে কেন এটি একমাত্র ফর্ম? উদাহরণস্বরূপ, কেনব্যয় ফাংশন জন্য একটি ভাল পছন্দ হতে পারে?Cost(hθ(x),y)=log(hθ(x))y=1,Cost(hθ(x),y)=log(1hθ(x))y=0|hθ(x)y|

    প্রশ্ন : ব্যয় ফাংশনের উপরের ফর্মটি সম্পর্কে কী বিশেষ; কেন আমরা অন্য ফর্ম ব্যবহার করতে পারি না?

আপনি যদি লজিস্টিক রিগ্রেশন সম্পর্কে আপনার উপলব্ধি ভাগ করে নিতে পারেন তবে আমি প্রশংসা করব।


5
Logit / লজিস্টিক ফাংশন না শুধুমাত্র ফাংশন যা হিসেবে ব্যবহার করা যেতে পারে লিংক ফাংশন যখন প্রতিক্রিয়া একটি দ্বিপদ হিসাবে বিতরণ করা হয় রিগ্রেশন মডেলের জন্য। এই পয়েন্টটি সম্পর্কে, এটি আপনাকে আমার উত্তর এখানে পড়তে সহায়তা করতে পারে: লগইট এবং প্রবিট-মডেলগুলির মধ্যে পার্থক্য
গুং - মনিকা পুনরায়

4
আমার উত্তর এখানে: লগইট ফাংশন বাইনারি ডেটার রিগ্রেশন মডেলিংয়ের জন্য সর্বদা সেরা , এছাড়াও বিভিন্ন সম্ভাবনা সম্পর্কে চিন্তাভাবনা করতে সহায়ক হতে পারে।
গুং - মনিকা পুনরায়

1
@ অ্যাডামো নীচে একটি দুর্দান্ত ওভারভিউ সরবরাহ করে। লগিটটি 'ক্যানোনিকাল লিঙ্ক ফাংশন' এর অর্থ সম্পর্কে আপনি যদি আরও বিশদ তথ্য চান তবে আপনি মোমোর উত্তরটি এখানে পড়তে চাইতে পারেন: গ্ল্যামের জন্য-লিঙ্ক-ফাংশন এবং ক্যানোনিকাল-লিংক-ফাংশন-এর মধ্যে পার্থক্য
গুং - মনিকা পুনরায়

1
(1) এর একটি কাজের চিত্রিত উদাহরণ যেখানে "সিগময়েড" ব্যবহার করা হয় না তা stats.stackexchange.com/a/70922 এ উপস্থিত হয় । এই উত্তরে (2) এর ব্যাখ্যা অন্তর্ভুক্ত রয়েছে। আর একটি উদাহরণ stats.stackexchange.com/questions/63978/… এ উপস্থিত হয় । (2) ইস্যুতে ফোকাস করে stats.stackexchange.com/a/69873 এ আরও সংঘবদ্ধ (তবে কম প্রযুক্তিগত) আলোচনা ঘটে ।
হোবার

উত্তর:


7

লজিস্টিক রিগ্রেশন মডেল হ'ল প্রাক্কলিক পরামিতি (লগ-প্রতিক্রিয়া অনুপাত) ব্যবহারের সম্ভাবনা সর্বোচ্চ সম্ভাবনা যার ফলে ভবিষ্যদ্বাণীকের প্রতি ইউনিট পার্থক্যের ফলাফলের ঝুঁকির তুলনামূলক পরিবর্তন ঘটে। এটি অবশ্যই ধরে নেওয়া হচ্ছে ফলাফলের জন্য দ্বিপদী সম্ভাব্যতা মডেল। এর অর্থ হ'ল লজিস্টিক রিগ্রেশনের ধারাবাহিকতা এবং দৃust়তা বৈশিষ্ট্যগুলি সর্বাধিক সম্ভাবনা থেকে সরাসরি প্রসারিত: র্যান্ডম ডেটা, রুট-এন ধারাবাহিকতা এবং অস্তিত্ব এবং অনুমানের সমীকরণের সমাধানের স্বতন্ত্রতা থেকে মজবুত rob এটি ধরে নিচ্ছে সমাধানগুলি প্যারামিটার স্পেসের সীমানায় নেই (যেখানে লগের প্রতিক্রিয়াগুলি অনুপাতগুলি )। কারণ লজিস্টিক রিগ্রেশন সর্বাধিক সম্ভাবনা, ক্ষতির কার্যকারিতা সম্ভাবনার সাথে সম্পর্কিত, কারণ তারা সমতুল্য অপ্টিমাইজেশান সমস্যা।±

নিখুঁততা বা অনুমানের সমীকরণগুলির সাথে (সেমিপারমেট্রিক ইনফারেন্স), অস্তিত্ব, স্বতন্ত্রতা বৈশিষ্ট্যগুলি এখনও ধরে আছে তবে গড় মডেল যে ধারণাটি ধারণ করে তা প্রাসঙ্গিক নয় এবং মডেলটির অপব্যবহার নির্বিশেষে অনুমান এবং মান ত্রুটিগুলি সামঞ্জস্যপূর্ণ। সুতরাং এই ক্ষেত্রে, এটি সিগময়েড সঠিক ফাংশন কিনা তা নয়, তবে এটি এমন একটি প্রবণতা দেয় যা আমরা বিশ্বাস করতে পারি এবং পরামিতিগুলির দ্বারা প্যারামিটারাইজড যা এক্সটেনসিবল ব্যাখ্যা রয়েছে have

সিগময়েড, তবে কেবল এই ধরণের বাইনারি মডেলিং ফাংশনই নয়। সর্বাধিক বিপরীত প্রোবিত ফাংশনটিতে একই বৈশিষ্ট্য রয়েছে। এটি লগ-প্রতিক্রিয়া অনুপাতগুলির অনুমান করে না, তবে কার্যকরীভাবে এগুলি দেখতে খুব সাদৃশ্যপূর্ণ এবং ঠিক একই জিনিসটির সাথে খুব অনুরূপ অনুমানের প্রবণতা দেয় । গড়পড়তা মডেল ফাংশনটিতে একজনের সীমানা বৈশিষ্ট্য ব্যবহার করার দরকার নেই। কেবল দ্বিপদী ভেরিয়েন্স ফাংশন সহ লগ বক্র ব্যবহার করে আপেক্ষিক ঝুঁকি রিগ্রেশন দেয়, দ্বিপদী ভেরিয়েন্সের সাথে একটি পরিচয় লিঙ্ক অ্যাডিটিভ ঝুঁকি মডেল দেয়। এই সমস্ত ব্যবহারকারী দ্বারা নির্ধারিত হয়। যৌক্তিক প্রতিরোধের জনপ্রিয়তা হ'ল দুঃখের বিষয়, কেন এটি এত সাধারণভাবে ব্যবহৃত হয়। যাইহোক, আমার আমার কারণগুলি (আমি যেগুলি বলেছি) আমার কাছে কেন মনে হয় কেন এটি বেশিরভাগ বাইনারি ফলাফলের মডেলিং পরিস্থিতিতে এটির পক্ষে যুক্তিযুক্ত।

অনুমানের বিশ্বে, বিরল ফলাফলের জন্য, বৈষম্যের অনুপাতটিকে মোটামুটি "আপেক্ষিক ঝুঁকি" হিসাবে ব্যাখ্যা করা যেতে পারে, অর্থাৎ "এক্স + 1 থেকে এক্স এর তুলনায় ফলাফলের ঝুঁকিতে শতকরা আপেক্ষিক পরিবর্তন"। এটি সর্বদা ক্ষেত্রে হয় না এবং সাধারণভাবে, একটি প্রতিকূল অনুপাতটি এর মতো ব্যাখ্যা করা উচিত নয় এবং করা উচিত নয়। তবে, সেই প্যারামিটারগুলির ব্যাখ্যা রয়েছে এবং সহজেই অন্যান্য গবেষকদের কাছে জানানো যেতে পারে এটি একটি গুরুত্বপূর্ণ বিষয়, মেশিন শিখার 'ডড্যাকটিক উপকরণগুলি থেকে দুঃখজনকভাবে অনুপস্থিত কিছু।

লজিস্টিক রিগ্রেশন মডেল হায়ারার্কিকাল মডেলিংয়ের মতো আরও পরিশীলিত পদ্ধতির জন্য ধারণাগত ভিত্তিও সরবরাহ করে, পাশাপাশি মিশ্র মডেলিং এবং শর্তাধীন সম্ভাবনা পদ্ধতির যা তাত্পর্যপূর্ণভাবে বাড়ছে সংখ্যার পরামিতিগুলির সুসংগত এবং দৃ and়। জিএলএমএম এবং শর্তসাপেক্ষ লজিস্টিক রিগ্রেশন উচ্চ মাত্রিক পরিসংখ্যানগুলিতে খুব গুরুত্বপূর্ণ ধারণা।


1
উত্তরের জন্য তোমাকে অনেক ধন্যবাদ! মনে হচ্ছে ব্যাকগ্রাউন্ডে আমার বিশাল অভাব রয়েছে।
ব্যবহারকারী 16168

আমি মনে করি ম্যাককুলাও এবং নেল্ডারের বই জেনারালাইজড লিনিয়ার মডেলগুলি আরও পরিসংখ্যানের দৃষ্টিকোণের জন্য একটি দুর্দান্ত পটভূমির উত্স হবে।
অ্যাডমো

সাধারণভাবে আপনি খুব বিস্তারিত বর্ণনামূলক সামগ্রী সহ মেশিন লার্নিংয়ে কোন পাঠ্যপুস্তকে পরামর্শ দিচ্ছেন?
ব্যবহারকারী 16168

হাসি, তিবশিরানী, ফ্রেডম্যান দ্বারা স্ট্যাটিস্টিকাল লার্নিংয়ের উপাদানসমূহ।
আদমো

2
@ ব্যবহারকারী 48956 দাদা, লিটল এবং রুবিন ২ য় সংস্করণের সাথে পরিসংখ্যান বিশ্লেষণ। অনুপস্থিত ডেটা প্রতি সেফ "উপস্থাপিত" নয়, তবে বাদ দিয়ে "পরিচালিত"। এটি লজিস্টিক রিগ্রেশনটির জন্য বিশেষ নয়: এটি সমস্ত পরিসংখ্যানের মডেল দ্বারা ব্যবহৃত নিষ্পাপ দৃষ্টিভঙ্গি। যখন একটি আয়তক্ষেত্রাকার অ্যারে ডেটা ফর্ম্যাট করা হয়, অনুপস্থিত মানগুলির সাথে সারি বাদ দেওয়া হয়। এটি একটি সম্পূর্ণ কেস বিশ্লেষণ হিসাবে পরিচিত। জিএলএম এবং জিএলএমএমএস ডেটা হারিয়ে যাওয়ার পক্ষে দৃ are় হয় যে সম্পূর্ণ কেস বিশ্লেষণগুলি সাধারণত নিরপেক্ষ এবং খুব অযোগ্য হয় না।
অ্যাডমো

6

লজিস্টিক রিগ্রেশন সম্পর্কে চিন্তা করার এক উপায় হ'ল একটি প্রান্তিক প্রতিক্রিয়া মডেল হিসাবে। এই মডেলগুলিতে আপনার একটি বাইনারি নির্ভরশীল পরিবর্তনশীল, যা স্বাধীন ভেরিয়েবল এক্স এর ভেক্টরের মান দ্বারা প্রভাবিত হয় । নির্ভরশীল পরিবর্তনশীল ওয়াই শুধুমাত্র মান 0 এবং 1 নিতে যাতে আপনি নির্ভরতা মডেল পারে ওয়াই উপর এক্স মত একটি টিপিক্যাল রৈখিক রিগ্রেশনের সমীকরণ দিয়ে ওয়াই আমি = এক্স আমি β + + ε আমি । তবে আমরা সত্যিই লিনিয়ার সমীকরণ পছন্দ করি। বা, কমপক্ষে, আমি না।YXYYXYi=Xiβ+ϵi

এই অবস্থায় মডেল, আমরা একটি unobservable, সুপ্ত পরিবর্তনশীল পরিচয় করিয়ে , এবং আমরা বলে যে ওয়াই 1 equaling যখন 0 equaling থেকে যায় ওয়াই * একটি থ্রেশহোল্ড অতিক্রম করে: ওয়াই * আমিYYY আমি যেমন এটি লিখেছি, প্রান্তিক মান 0 এ রয়েছে তবে এটি একটি মায়া। সাধারণত, মডেলটিতে একটি ইন্টারসেপ্ট অন্তর্ভুক্ত হয় (অর্থাত্Xএর কলামগুলির মধ্যেএকটি 1s এর কলাম)। এটি প্রান্তিক কিছু হতে দেয়।

Yi=Xiβ+ϵiYi=0ifYi<0Yi=1ifYi>0
X

YXYY

βϵFP{Yi=1}=F(Xiβ)

P{Yi=1}=1F(Xiβ)

ϵF

F


আপনি যা বর্ণনা করেছেন তা হ'ল প্রবিট মডেলের প্রেরণা, লজিস্টিক রিগ্রেশন নয়।
অ্যাডামো

6
ϵi

এটি দেখতে খুব সংবেদনশীল অনুমান এবং যা পরীক্ষা করা কঠিন। আমি মনে করি যে এই জাতীয় ত্রুটি বিতরণ যখন রাখা না হয় তখন লজিস্টিক রিগ্রেশন প্রেরণা পেতে পারে।
অ্যাডামো

2
@ অ্যাডামো, তবে আপনি লজিস্টিক রিগ্রেশনকে উদ্বুদ্ধ করেন, এটি এখনও গাণিতিকভাবে একটি চৌম্বকীয় লিনিয়ার রিগ্রেশন মডেলের সমতুল্য যেখানে ত্রুটিগুলির লজিস্টিক বিতরণ রয়েছে। আমি সম্মত হই যে এই অনুমানটি পরীক্ষা করা শক্ত হতে পারে তবে আপনি কীভাবে সমস্যাটি উদ্বুদ্ধ করেন তা নির্বিশেষে এটি সেখানে রয়েছে। আমি সিভিতে পূর্ববর্তী উত্তরটি স্মরণ করি (আমি এখনই এটি স্থাপন করতে পারছি না) যা একটি সিমুলেশন অধ্যয়নের মাধ্যমে দেখানো হয়েছিল যে লজিস্টিক বা প্রবিট মডেল "আরও ভাল ফিট" মূলত একটি মুদ্রা ফ্লিপ কিনা তা জানার চেষ্টা করা সত্য তথ্য উপাত্ত তৈরির মডেল নির্বিশেষে । আমার সন্দেহ হয় সুবিধাজনক ব্যাখ্যার কারণে লজিস্টিক বেশি জনপ্রিয়।
ম্যাক্রো

2
P(Yi=1)=exp(Xiβ)1+exp(Xiβ)
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.