একটি লজিস্টিক রিগ্রেশন মডেল বুস্ট করা


11

অ্যাডাবোস্ট একটি জড়ো পদ্ধতি যা বহু দুর্বল শিক্ষার্থীদের একত্রিত করে একটি শক্তিশালী তৈরি করে। অ্যাডাবুস্টের সমস্ত উদাহরণ যে আমি সিদ্ধান্ত স্টাম্প / গাছকে দুর্বল শিখার হিসাবে ব্যবহার করেছি। আমি অ্যাডাবুস্টে বিভিন্ন দুর্বল শিখর ব্যবহার করতে পারি? উদাহরণস্বরূপ, লজিস্টিক রিগ্রেশন মডেলটি বাড়ানোর জন্য অ্যাডাবোস্ট (সাধারণত বুস্টিং) কীভাবে বাস্তবায়ন করবেন?

শ্রেণিবিন্যাস গাছ এবং লজিস্টিক রিগ্রেশনগুলির একটি প্রধান পার্থক্য হ'ল প্রাক্তন আউটপুট শ্রেণি (-1,1) যখন লজিস্টিক রিগ্রেশন প্রব্যাকগুলি আউটপুট দেয়। একটি ধারণা হ'ল বৈশিষ্ট্যগুলির একটি সেট থেকে সেরা বৈশিষ্ট্য এক্স নির্বাচন করা এবং প্রবগুলকে ক্লাসে রূপান্তর করতে একটি থ্রেশহোল্ড (0.5?) বাছাই করা এবং তারপরে পরবর্তী বৈশিষ্ট্য অনুসন্ধানের জন্য একটি ভারী লজিস্টিক রিগ্রেশন ব্যবহার করা etc.

তবে আমি কল্পনা করি যে সম্ভাবনাগুলি ছাড়িয়ে যায় এমন সিদ্ধান্ত স্টাম্পের চেয়ে পৃথক পৃথক দুর্বল শিক্ষার্থীদের উত্সাহ দেওয়ার জন্য একটি সাধারণ অ্যালগরিদম রয়েছে। আমি বিশ্বাস করি যে লজিটবস্ট আমার প্রশ্নের উত্তর তবে আমি "অ্যাডেটিভ লজিস্টিক রিগ্রেশন" পেপারটি পড়ার চেষ্টা করেছি এবং মাঝখানে আটকে গেলাম।

উত্তর:


7

ভবিষ্যদ্বাণীকারীদের পরিচালনা (বেস শিখার, উদাহরণস্বরূপ স্টাম্পের মাধ্যমে) এবং উত্সাহদানের ক্ষেত্রে ক্ষতির ক্রিয়াকলাপটিকে হ্যান্ডলিং করার বিষয়টি গুলিয়ে ফেলবেন না। যদিও অ্যাডাবোস্টকে ভুল শ্রেণিবদ্ধকরণ ত্রুটি হ্রাস করার জন্য বেস লার্নার্সের সংমিশ্রণের সন্ধানের কথা ভাবা যেতে পারে, আপনি যে "অ্যাডেটিভ লজিস্টিক রিগ্রেশন" পেপারটি উদ্ধৃত করেছেন তা দেখায় যে এটি কোনও ক্ষতিকারক ক্ষতির ক্রিয়াকে হ্রাস করতেও তৈরি করা যেতে পারে। এই অন্তর্দৃষ্টিটি গ্রেডিয়েন্ট বুস্টিংয়ের মাধ্যমে মেশিন-লার্নিং সমস্যার একটি বিস্তৃত শ্রেণীর জন্য উত্সাহিত পদ্ধতির প্রসার ঘটিয়েছে যা পার্থক্যজনিত ক্ষতির ক্রিয়াকে হ্রাস করে । প্রতিটি পদক্ষেপে ফিট থাকা অবশিষ্টাংশ হ'ল লোকসান ফাংশনের গ্রেডিয়েন্ট থেকে গণনা করা ছদ্ম-অবশিষ্টাংশ । এমনকি ভবিষ্যদ্বাণীকারীদের বাইনারি স্টাম্প হিসাবে মডেল করা হলেও, মডেলের আউটপুটটি বাইনারি পছন্দ হওয়ার দরকার নেই।

অন্য উত্তরের হিসাবে বলা হয়েছে, লিনিয়ার বেস শিখাগুলি বুস্টিংয়ের জন্য কাজ করতে পারে না তবে স্ট্যান্ডার্ড বা লজিস্টিক অর্থে লাইনারি বেস লার্নার্স "বুস্টেড রিগ্রেশন" এর জন্য প্রয়োজন হয় না। যথাযথ ক্ষতির কার্যকারিতা হ্রাস করার জন্য সিদ্ধান্তহীনভাবে অ-লিনিয়ার স্টাম্পগুলি স্লো বেস লার্নার হিসাবে সংযুক্ত করা যেতে পারে। এটি এখনও "বুস্টেড রিগ্রেশন" নামে পরিচিত যদিও এটি ভবিষ্যদ্বাণীকের সহগগুলির মধ্যে একটি আদর্শ রেগেশন মডেল লিনিয়ার থেকে দূরে is ক্ষতির কার্যকারিতা লিনিয়ার মডেলগুলির জন্য কার্যকরভাবে একই হতে পারে এবং "বুস্টেড রিগ্রেশন" মডেলগুলির জন্য স্টম্প বা গাছের সাথে পূর্বাভাসক হিসাবে থাকে। আইএসএলআর 8 এর অধ্যায়টি এটি বেশ পরিষ্কার করে দিয়েছে।

সুতরাং যদি আপনি উত্সাহিত রিগ্রেশন সমতুল্য একটি লজিস্টিক-রিগ্রেশন চান তবে বেস লার্নারদের চেয়ে লস ফাংশনে ফোকাস করুন। আপনি যে কাগজটি উদ্ধৃত করেছেন তাতে লজিটবুস্ট পদ্ধতির কাজটি হ'ল: অ্যাডাবুস্টে অন্তর্ভুক্ত ক্ষতিকারক ক্ষতির চেয়ে একটি লগ-ক্ষতি হ্রাস করুন। উইকিপিডিয়া অ্যাডাবোস্ট পৃষ্ঠায় এই পার্থক্যটি বর্ণনা করা হয়েছে।

এই সাইটের অনেক অংশগ্রহীতা যুক্তি দিতেন যে কোনও লগ-প্রতিক্রিয়া / সম্ভাবনা ভিত্তিক পূর্বাভাস কঠোর হ্যাঁ / কোনও শ্রেণিবিন্যাসের পূর্বাভাসের চেয়ে বেশি পছন্দনীয়, কারণ প্রাক্তন আরও সাধারণভাবে ভুয়া-পজিটিভ এবং ভুয়া-নেতিবাচক ভবিষ্যদ্বাণীগুলির অতিরিক্ত ব্যয়ের মধ্যে বিভিন্ন ট্রেড অফের অনুমতি দেয় । হিসাবে আপনার সম্পর্কিত প্রশ্নের উত্তর ইঙ্গিত, এটা শক্তিশালী ক্লাসিফায়ার AdaBoost থেকে প্রাপ্ত থেকে আনুমানিক সম্ভাব্যতা প্রাপ্ত করা সম্ভব, কিন্তু LogitBoost ভাল ভাল পারফরম্যান্স দিতে পারে।

শ্রেণিবদ্ধকরণের জন্য গ্রেডিয়েন্ট বুস্টিংয়ের প্রয়োগগুলি অন্তর্নিহিত সম্ভাব্যতার উপর তথ্য সরবরাহ করতে পারে। উদাহরণস্বরূপ, গ্রেডিয়েন্টsklearn বুস্টিংয়ের এই পৃষ্ঠাটি দেখায় যে কোডটি কীভাবে লজিস্টিক রিগ্রেশন এবং অ্যাডাবোস্টের জন্য ক্ষতিকারক ক্ষতির জন্য বিচ্যুতি ক্ষতি এবং গ্রেডিয়েন্ট-বুস্টেড মডেল থেকে সম্ভাব্যতার পূর্বাভাস দেওয়ার জন্য নথি ফাংশনগুলির মধ্যে একটি চয়ন করার অনুমতি দেয়।


উত্তরের জন্য তোমাকে অনেক ধন্যবাদ. লজিস্টিক রিগ্রেশনের কার্যকারিতা অর্জনের জন্য যদি আমি এটি সঠিকভাবে বুঝতে পারি তবে আমাকে যা করতে হবে তা হল লজিস্টিক ক্ষতির ফাংশন এবং দুর্বল শিখার শ্রেণিবিন্যাস গাছের সাথে গ্রেডিয়েন্ট বুস্টিং অ্যালগরিদম ব্যবহার করা? তবে শ্রেণিবিন্যাস গাছগুলি {-1,1 out আউটপুট দেয় যখন লজিস্টিক রিগ্রেশন যা সম্ভাবনার বাইরে চলে যায়। এছাড়াও শ্রেণিবিন্যাস গাছগুলি যৌক্তিক ক্ষতির পরিবর্তে গিনি সূচককে হ্রাস করার চেষ্টা করে। আমি এখানে মৌলিক কিছু মিস করছি। লজিস্টিক ক্ষতি কোথায় রাখবেন? মডেল থেকে প্রোব আউটপুট কিভাবে?
gnikol

আমি ধারণাটি বুঝতে পেরেছি যেখানে y ক্রমাগত হয় কারণ রিগ্রেশন ট্রিগুলি এমএসকে হ্রাস করে যা লিনিয়ার রিগ্রেশন সহ একই ক্ষতির কাজ। তাই আমি বারবার অবশিষ্টাংশের জন্য একটি রিগ্রেশন ট্রি ফিট করি। তবে শ্রেণিবিন্যাসের প্রসঙ্গে, শ্রেণিবিন্যাস গাছগুলি জিনি সূচক বা অনুরূপ কিছু হ্রাস করে। এটি কীভাবে লজিস্টিক রিগ্রেশন বা লজিস্টিক রিগ্রেশনের ক্ষতি ফাংশনের সাথে যুক্ত?
gnikol

@gnikol আমি আমার উত্তরটি এমনভাবে সংশোধন করেছি যাতে আমি আশা করি যে আপনি এবং আপনার পাঠক উভয়ই এই পরিষ্কার করে দেবেন। গ্রেডিয়েন্ট বুস্টিংয়ের উপযুক্ত যে অবশিষ্টাংশগুলি হ'ল লোকসান ফাংশনের গ্রেডিয়েন্ট থেকে গণনা করা ছদ্ম-অবশিষ্টাংশগুলি; ক্ষতির ক্রিয়াকলাপের পছন্দটিই লডজিস্ট থেকে অ্যাডাবোস্টকে আলাদা করে। সম্ভাব্যতাগুলি যে কোনও ক্ষেত্রে শক্তিশালী শিক্ষার্থীর কাছ থেকে পাওয়া যেতে পারে; আমি শেষ অনুচ্ছেদে একটি প্রয়োগের একটি উদাহরণের একটি লিঙ্ক সরবরাহ করেছি।
এডিএম

5

আসলে আমাদের এখানে রিগ্রেশন কেস সম্পর্কিত একটি খুব অনুরূপ প্রশ্ন রয়েছে। এবং আমাদের কাছে ম্যাথু ড্রিউর খুব ভাল উত্তর ছিল

লিনিয়ার রিগ্রেশন-এর গ্রেডিয়েন্ট বুস্টিং - কেন এটি কাজ করে না?

লিনিয়ার মডেল (যেমন লজিস্টিক রিগ্রেশন) বাড়ানোর পক্ষে ভাল নয়। কারণটি হল আপনি যদি দুটি লিনিয়ার মডেল একসাথে যোগ করেন তবে ফলাফলটি অন্য লিনিয়ার মডেল। অন্যদিকে, দুটি সিদ্ধান্তের স্টাম্প বা গাছ যুক্ত করার ক্ষেত্রে আরও জটিল এবং আকর্ষণীয় মডেল থাকবে (কোনও গাছ আর নয়))

বিশদটি এই পোস্টে পাওয়া যাবে। এই লিঙ্কটিতে আমি উত্পন্ন করেছি কেন দুটি লিনিয়ার মডেল যুক্ত করা আকর্ষণীয় নয়। এবং আমি সিদ্ধান্তের স্ট্যাম্প পুনরাবৃত্তির দ্বারা পুনরাবৃত্তির মাধ্যমে বৃদ্ধির প্রভাবটি দেখিয়ে দিচ্ছি।

লিনিয়ার বেস লার্নার কীভাবে বাড়াতে কাজ করে? এবং এটি কীভাবে এক্সজিস্ট লাইব্রেরিতে কাজ করে?

মনে রাখবেন, সিদ্ধান্ত গাছ / স্টাম্প লজিস্টিক রিগ্রেশন-এর মতো "লিনিয়ার মডেল" নয়।

বিস্তারিত জানার জন্য এই পোস্ট দেখুন

একটি সিদ্ধান্ত স্ট্যাম্প একটি রৈখিক মডেল?

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.