কেন লজিস্টিক রিগ্রেশন ভাল ক্যালিব্রেটেড মডেল উত্পাদন করে?


13

আমি বুঝতে পেরেছি যে ওয়েবে ক্লিক-থ্রো-রেটের পূর্বাভাস দেওয়ার জন্য লজিস্টিক রিগ্রেশন ঘন ঘন ব্যবহৃত হয় এটি হ'ল এটি ভাল-ক্যালিব্রেটেড মডেল তৈরি করে। এর জন্য কি গাণিতিক ব্যাখ্যা আছে?


2
সম্ভাব্যতাগুলি পূর্বাভাস দেওয়ার জন্য লজিস্টিক রিগ্রেশন করা হয়েছে -> যা ওভারফিটেড না হলে ক্যালিবিটেড পূর্বাভাস দেয়। যদিও বেশিরভাগ মেশিন লার্নিং মডেলগুলি প্রব্যাবিলাইটগুলি না, বরং একটি ক্লাসের পূর্বাভাস দেয় - এবং এই পূর্বাভাসগুলি থেকে সিউডো-প্রব্যাবিলাইটগুলি প্রাপ্ত করার কিছু বিপর্যয় রয়েছে -> সুতরাং ভালভাবে ক্রমাঙ্কিত করা উচিত
চার্লস

2
আমার প্রশ্নটিতে স্পষ্ট করা উচিত ছিল, তবে এলআর সম্ভাব্যতার পূর্বাভাস দেওয়ার জন্য এতটা কার্যকর কেন এটি এমন ঘটনা কেন তা সম্পর্কে আমার প্রশ্নটি আরও ছিল।
lsankar4033

এটি লক্ষণীয় যে আপনি কেবল ক্যালিব্রেটেড মডেলটি পাওয়ার জন্য দুর্বল-ক্যালিব্রেটেড শ্রেণিবদ্ধের আউটপুটে কেবল লজিস্টিক রিগ্রেশনটি ফিট করতে পারেন। একে বলা হয় প্ল্যাট স্কেলিং en.wikedia.org/wiki/Platt_scaling
জেনেরিক_উজার

উত্তর:


15

হ্যাঁ.

লজিস্টিক রিগ্রেশন থেকে পূর্বাভাস সম্ভাব্য ভেক্টর ম্যাট্রিক্স সমীকরণকে সন্তুষ্ট করেp

Xt(py)=0

যেখানে হ'ল নকশা ম্যাট্রিক্স এবং হ'ল প্রতিক্রিয়া ভেক্টর। এটি লিনিয়ার সমীকরণগুলির সংগ্রহ হিসাবে দেখা যেতে পারে, ডিজাইনের ম্যাট্রিক্স প্রতিটি কলাম থেকে উত্পন্ন একটি ।ওয়াই এক্সXyX

ইন্টারসেপ্ট কলামে বিশেষজ্ঞ (যা ট্রান্সপোজড ম্যাট্রিক্সের একটি সারি), সম্পর্কিত লিনিয়ার সমীকরণ

i(piyi)=0

সুতরাং সামগ্রিক গড় পূর্বাভাস সম্ভাব্যতা প্রতিক্রিয়ার গড়ের সমান।

আরও সাধারণভাবে, বাইনারি বৈশিষ্ট্য কলামের জন্য , সম্পর্কিত লিনিয়ার সমীকরণxij

Σআমিএক্সআমি(পিআমি-Yআমি)=Σআমি|এক্সআমি=1(পিআমি-Yআমি)=0

সুতরাং জন্য records রেকর্ডগুলিতে বিশেষীকরণের পরেও পূর্বাভাসযুক্ত সম্ভাবনার সমষ্টি (এবং সুতরাং গড়) প্রতিক্রিয়ার যোগফলের সমান ।এক্সআমি=1


1
@ ম্যাথিউড্রুরি আমি আপনার প্রথম সমীকরণটি কীভাবে ব্যাখ্যা করতে পারি? হয় আকারে ? তা সত্ত্বেও এই রৈখিক সম্পর্ক ঝুলিতে? ধন্যবাদ! 1 / ( 1 + এক্সপ্রেস ( - এক্স ) )পি1/(1+ +মেপুঃ(-এক্স))
রিক

1
হ্যাঁ, পি সেই ফর্মের। প্রথম সমীকরণটি ক্ষতির ফাংশনের ডেরিভেটিভকে শূন্যে সেট করে আসে।
ম্যাথু ড্রুরি

1
এটি কেবলমাত্র বৃহত আকারে ক্রমাঙ্কনকে সম্বোধন করে যা আমরা যা চাই না তা নয়: ক্ষুদ্রতর আকারে ক্যালিব্রেশন।
ফ্র্যাঙ্ক হ্যারেল

1
@ ফ্র্যাঙ্কহারেল বিস্তৃত করার জন্য যত্ন? আমি এই শর্তগুলি আগে শুনিনি।
ম্যাথু ড্রুরি

3
মার্কিন আবহাওয়া পরিষেবা 1950 দ্বারা সংযুক্ত সম্ভাবনার পূর্বাভাস সাহিত্যের একটি দীর্ঘ ইতিহাস রয়েছে - সেখানেই প্রথম বারেরির স্কোর ব্যবহার হয়েছিল। ছোট আকারে ক্যালিব্রেশন এর অর্থ হ'ল 0.01, 0.02, ..., 0.99 এর পূর্বাভাসযুক্ত ঝুঁকিগুলি যদি পর্যালোচনা করা হয় তবে এগুলির প্রত্যেকটি যথাযথ, অর্থাত্ যখন প্রতিবেদনের ঝুঁকি 0.4 ছিল তার ফলাফলগুলি 0.4 প্রায় ঘটেছিল সময়. আমি পরের পদক্ষেপটিকে "ক্যালিব্রেশন-ইন-দ্য-ক্ষুদ্র" বলি: যে পুরুষদের মধ্যে পূর্বাভাস 0.4 ছিল সে সময়ের ফলাফল ছিল 0.4, তারপর মহিলাদের জন্য।
ফ্র্যাঙ্ক হ্যারেল

2

আমি মনে করি যে আমি আপনাকে নীচের মতো একটি সহজ-সরল বোঝার ব্যাখ্যা সরবরাহ করতে পারি:

আমরা জানি যে এর ক্ষতি ফাংশনটি নিম্নলিখিত ফাংশন হিসাবে প্রকাশ করা যেতে পারে:

জে(θ)=-1মিΣআমি=1মি[Y(আমি)লগ(θ(এক্স(আমি)))+ +(1-Y(আমি))লগ(1-θ(এক্স(আমি)))]

কোথায়mসংখ্যার প্রতিনিধিত্ব করে সমস্ত প্রশিক্ষণের নমুনা,Y(আমি)আইথ নমুনার লেবেল,θ(এক্স(আমি)) ith নমুনার পূর্বাভাস সম্ভাবনা:11+ +মেপুঃ[-α-Σθএক্স(আমি)] । (পক্ষপাত লক্ষ্য করুনαএখানে)

যেহেতু প্রশিক্ষণের লক্ষ্য ক্ষতি ফাংশন কমান হয়, আমাদের প্রতিটি পরামিতি সম্মান সঙ্গে তার আংশিক ডেরিভেটিভ মূল্যায়ন দিন θ (বিস্তারিত শিক্ষাদীক্ষা খুঁজে পাওয়া যেতে পারে এখানে ):

জে(θ)θ=1মিΣআমি=1মি[θ(এক্স(আমি))-Y(আমি)]এক্স(আমি)


Σআমি=1মিθ(এক্স(আমি))এক্স(আমি)=Σআমি=1মিY(আমি)এক্স(আমি)

এর অর্থ হ'ল যদি মডেলটি পুরোপুরি প্রশিক্ষিত হয় তবে প্রশিক্ষণ সংস্থার জন্য আমরা যে পূর্বাভাস প্রাপ্ত সম্ভাব্যতাগুলি তা ছড়িয়ে দিয়েছি যাতে প্রতিটি বৈশিষ্ট্যের জন্য সেই বৈশিষ্ট্যের মানযুক্ত (সমস্ত) মানগুলির যোগফল সেই বৈশিষ্ট্যের মানগুলির সমান হয় is ইতিবাচক নমুনা।

αএক্স0αθ0

Σআমি=1মিθ(এক্স(আমি))এক্স0(আমি)=Σআমি=1মিY(আমি)এক্স0(আমি)
Σআমি=1মিθ(এক্স(আমি))=Σআমি=1মিY(আমি)
θ(এক্স(আমি))
Σআমি=1মিপি(আমি)=Σআমি=1মিY(আমি)

আমরা স্পষ্টতই দেখতে পাচ্ছি যে লজিস্টিক রিগ্রেশনটি ভালভাবে ক্যালিব্রেটেড।

তথ্যসূত্র: লগ-লিনিয়ার মডেলস এবং চার্লস এলকানের কন্ডিশনাল এলোমেলো ক্ষেত্র

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.