উত্সাহ দেওয়ার ক্ষেত্রে, শিক্ষার্থীরা কেন "দুর্বল"?


28

Stats.SE তেও একই ধরণের প্রশ্ন দেখুন ।

ইন boosting যেমন আলগোরিদিম AdaBoost এবং LPBoost এটা জানা যায় "দুর্বল" শিক্ষার্থীদের শুধুমাত্র উপযোগী হতে উইকিপিডিয়া থেকে সুযোগ চেয়ে ভাল সঞ্চালন আছে মিলিত হবে:

এটি যে শ্রেণিবদ্ধগুলি ব্যবহার করে তা দুর্বল হতে পারে (যেমন, যথেষ্ট ত্রুটির হার প্রদর্শন করুন) তবে যতক্ষণ না তাদের পারফরম্যান্স এলোমেলো নয় (বাইনারি শ্রেণিবদ্ধকরণের জন্য 0.5 এর ত্রুটি হারের ফলে), তারা চূড়ান্ত মডেলটিকে উন্নত করবে। এমনকি এলোমেলো শ্রেণিবদ্ধের কাছ থেকে প্রত্যাশিত ত্রুটি হারের সাথে শ্রেণিবদ্ধগুলি কার্যকর হবে, কারণ তাদের শ্রেণিবদ্ধের চূড়ান্ত রৈখিক সংমিশ্রণে নেতিবাচক সহগ থাকবে এবং তাই তাদের বিপরীতগুলির মতো আচরণ করবে।

  • শক্তিশালী শিক্ষার্থীদের বিপরীতে দুর্বল ব্যবহারের সুবিধা কী? (উদাহরণস্বরূপ "শক্তিশালী" শেখার পদ্ধতিগুলি কেন উত্সাহ দেওয়া হচ্ছে না - আমরা কী অত্যধিক মানানসই প্রবণতা বোধ করি?)

  • দুর্বল শিক্ষার্থীদের জন্য কি কোনও ধরণের "অনুকূল" শক্তি রয়েছে? এবং এটি কি টীকাগুলির শিখার সংখ্যার সাথে সম্পর্কিত?

এই প্রশ্নের উত্তর ব্যাক আপ কোন তত্ত্ব আছে?


দুর্বল শিখারীরা প্রশিক্ষণের ডেটাতে অতিরিক্ত ফিট করা
আমান দীপ গৌতম

উত্তর:


15

সুতরাং, বুস্টিং হ'ল একটি লার্নিং অ্যালগরিদম, যা সাবউরটিন আরেকটি অ্যালগরিদম হিসাবে ব্যবহার করে উচ্চ-নির্ভুলতার পূর্বাভাস তৈরি করতে পারে যা ফলস্বরূপ এলোমেলো অনুমানের চেয়ে দক্ষতার চেয়ে সামান্য আরও ভাল (বিপরীত বহুভুজের দ্বারা) তৈরি করা যায়।

এটির প্রধান সুবিধা হ'ল গতি।

১৯৯০ সালে যখন শ্যাচায়ার এটি উপস্থাপন করেছিলেন তখন এটি একটি অগ্রগতি হয়েছিল যে এটি দেখিয়েছিল যে একটি বহুবর্ষীয় সময় শিক্ষানবিস 1/2 এর চেয়ে সামান্য ছোট ত্রুটিযুক্ত হাইপোথিসিগুলি তৈরি করে একটি নির্বিচারে ছোট ত্রুটির সাথে হাইপোথিসিগুলি তৈরি করে একটি বহুবর্ষ সময়শিক্ষক রূপান্তরিত হতে পারে।

সুতরাং, আপনার প্রশ্নের ব্যাক আপ করার তত্ত্বটি হল "দুর্বল শেখার শক্তি" ( পিডিএফ ) যেখানে তিনি মূলত দেখিয়েছিলেন যে "শক্তিশালী" এবং "দুর্বল" শেখার সমতুল্য।

এবং সম্ভবত আসল প্রশ্নের উত্তরটি হ'ল, "আপনি যখন সস্তার সাথে দুর্বলদের তৈরি করতে পারেন তখন শক্তিশালী শিক্ষার্থী তৈরির কোনও অর্থ নেই"।


অপেক্ষাকৃত সাম্প্রতিক কাগজপত্রগুলি থেকে, "দুর্বল শেখার যোগ্যতা এবং লিনিয়ার পৃথকীকরণের সমতা: নতুন শিথিলকরণ এবং দক্ষতা বৃদ্ধিকারী অ্যালগরিদম" ( পিডিএফ ) যা আমি বুঝতে পারি না তবে এটি সম্পর্কিত বলে মনে হয় এবং এটি আরও শিক্ষিত লোকের পক্ষে আগ্রহী হতে পারে :)


1
+1 দুর্দান্ত রেফারেন্স। সুতরাং সম্ভবত উত্তরটি হ'ল: "আপনি যখন আরও সস্তার সাথে দুর্বলদের তৈরি করতে পারেন তখন শক্তিশালী শিক্ষার্থী গঠনের কোনও লাভ নেই"?
tdc

হ্যাঁ, ভালো লাগছে - আমি উত্তর আপডেট করেছি! এছাড়াও, যদি আমি সঠিকভাবে বুঝতে পারি তবে এটি আপনার দুর্বল শিক্ষার্থীদের শক্তির উপর নির্ভর করে না - এলোমেলো থেকে তাদের কেবল "সামান্য" হতে হবে।
andreister

1
আমি মনে করি আপনার উভয়ের সত্যিকারের অর্থটি হ'ল: অনেক সস্তা দুর্বল শিক্ষার্থীদের একত্রিত করে যখন অনুরূপ বা আরও ভাল দক্ষতার সাথে সহজে পৌঁছানো যায় তখন ব্যয়বহুল শক্তিশালী শিক্ষার্থী গঠনের কোনও মানে হয় না । প্রকৃতপক্ষে, যদি শক্তিশালী শিক্ষার্থীদের দ্বারা দক্ষতা অর্জন করা দুর্বল শিক্ষার্থীদের দক্ষতার চেয়ে বেশি ছিল, তবে আমি শক্তিশালী শিক্ষার্থীদের
এন্টোইন

9

আমি ওভারফিটিংকে সম্বোধন করব, যার আরও উল্লেখ করা হয়নি, আরও স্বজ্ঞাত ব্যাখ্যা সহ। আপনার প্রথম প্রশ্নটি ছিল:

শক্তিশালী শিক্ষার্থীদের বিপরীতে দুর্বল ব্যবহারের সুবিধা কী? (উদাহরণস্বরূপ "শক্তিশালী" শেখার পদ্ধতিগুলি কেন উত্সাহ দেওয়া হচ্ছে না - আমরা কী অত্যধিক মানানসই প্রবণতা বোধ করি?)

আমার বোঝার মূল কারণগুলি হ'ল:

  • গতি , অন্য উত্তরে যেমন বেশ ভালভাবে কভার করা হয়েছে;
  • যথাযথ উন্নতি : আপনার যদি ইতিমধ্যে একজন শক্তিশালী শিক্ষার্থী থাকে, তবে উত্সাহ দেওয়ার সুবিধাগুলি কম প্রাসঙ্গিক;
  • আপনি যেমন অনুমান করেছিলেন তত বেশি চাপ এড়ান । এই ভাবে চিন্তা করুন:

যা উত্সাহ দেয় তা হ'ল হাইপোথিসিস স্পেস থেকে অনেকগুলি পৃথক অনুমানকে একত্রিত করা যাতে আমরা আরও ভাল চূড়ান্ত হাইপোথিসিসের সাথে শেষ করি। উত্সাহের মহান শক্তি, সুতরাং, সম্মিলিত অনুমানের বৈচিত্র্য থেকে আসে ।

যদি আমরা একটি শক্তিশালী শিক্ষানবিস ব্যবহার করি তবে এই বৈচিত্রটি হ্রাস পেতে থাকে: প্রতিটি পুনরাবৃত্তির পরে অনেক ত্রুটি হবে না (যেহেতু মডেলটি জটিল), যা নতুন অনুমানকে অনেকটা পরিবর্তন বাড়িয়ে তুলবে না। খুব অনুরূপ হাইপোথিসিসের সাথে, মিলটি একটি একক জটিল মডেলের সাথে খুব মিল হবে, যার ফলস্বরূপ অত্যধিক মানিয়ে যায়!


4
এটিই আসল উত্তর।
ম্যাথু ড্রুরি

6

উত্সাহ দেওয়ার ক্ষেত্রে আমরা দুর্বল শিক্ষার্থীদের বেশিরভাগ ক্ষেত্রেই ব্যবহার করি কারণ তারা শক্তিশালী শিক্ষার্থীদের তুলনায় দ্রুত প্রশিক্ষিত হয়। চিন্তা করুন. যদি আমি মাল্টি-লেয়ার নিউরাল নেটওয়ার্কটি লার্নার হিসাবে ব্যবহার করি তবে আমাকে তাদের প্রচুর প্রশিক্ষণ দেওয়া দরকার। অন্যদিকে, সিদ্ধান্তের গাছটি খুব দ্রুত হতে পারে তবে আমি তাদের প্রচুর প্রশিক্ষণ দিতে পারি।

ধরা যাক আমি 100 জন শিক্ষার্থী ব্যবহার করি। আমি 100 সেকেন্ডে এনএন এবং 10 সেকেন্ডে সিদ্ধান্ত গাছকে প্রশিক্ষণ দিই। এনএন এর সাথে আমার প্রথম উত্সাহিত করতে 100 * 100 সেকেন্ড লাগবে যখন দ্বিতীয় স্থানে সিদ্ধান্ত গাছের সাহায্যে 100 * 10 সেকেন্ড সময় লাগবে।

এটি বলেছিল যে আমি নিবন্ধগুলি দেখেছি, যা উত্সাহ দেওয়ার ক্ষেত্রে শক্তিশালী শিক্ষার্থীদের ব্যবহার করে। তবে সেই সমস্যাগুলিতে শক্তিশালী শিক্ষার্থীরা আমার মতে দ্রুত ছিল।

আমি ওয়েকা ব্যবহার করে কেডিডি 99 ইনট্রুশন ডিটেকশন ডেটাসেট, (4+ মিলিয়ন) এমএলপি প্রশিক্ষণের চেষ্টা করেছি। এটি আমার মেশিনে 72 ঘন্টােরও বেশি সময় নিয়েছে। তবে বুস্টিং (অ্যাডাবোস্টএম 1 উইথ ডিসিশন ট্রি - ডিসিশন স্টাম্প) সময় লেগেছে মাত্র 3 ঘন্টা। এই সমস্যায় এটি স্পষ্ট যে আমি একটি শক্তিশালী শিক্ষার্থীর সাথে বুস্টিং ব্যবহার করতে পারি না, এটি এমন একটি শিক্ষানবিশ যা খুব বেশি সময় নেয়।


1
"আমি নিবন্ধগুলি দেখেছি, যা উত্সাহ দেওয়ার ক্ষেত্রে শক্তিশালী শিক্ষার্থীদের ব্যবহার করে" - কোনও রেফারেন্স?
tdc
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.