ব্যাগিং, উত্সাহদান এবং মেশিন লার্নিংয়ের স্ট্যাকিং


245

এই 3 টি পদ্ধতির মধ্যে মিল এবং পার্থক্য কী:

  • ব্যাগিং,
  • boosting,
  • স্ট্যাকিং?

কোনটি সেরা? এবং কেন?

আপনি কি আমাকে প্রত্যেকের জন্য একটি উদাহরণ দিতে পারেন?


3
পাঠ্যপুস্তকের রেফারেন্সের জন্য, আমি সুপারিশ করছি: "এনসেম্বল পদ্ধতি: ফাউন্ডেশন এবং অ্যালগরিদম"
লিখেছেন

উত্তর:


252

তিনটিই তথাকথিত "মেটা-অ্যালগোরিদম": বৈকল্পিকতা ( ব্যাগিং ), পক্ষপাত ( বুস্টিং ) হ্রাস করতে বা ভবিষ্যদ্বাণীমূলক বলকে উন্নত করতে ( স্ট্যাকিং ওরফে এনসেম্বল ) উন্নত করার জন্য একাধিক মেশিন লার্নিং কৌশলকে একটি ভবিষ্যদ্বাণীমূলক মডেলের সাথে একত্রিত করার পদ্ধতি aches

প্রতিটি অ্যালগরিদম দুটি পদক্ষেপ নিয়ে গঠিত:

  1. আসল ডেটার উপগ্রহে সাধারণ এমএল মডেলগুলির বিতরণ উত্পাদন করা হচ্ছে।

  2. একটিকে "একত্রিত" মডেল হিসাবে বিতরণ একত্রিত করা।

এখানে তিনটি পদ্ধতির সংক্ষিপ্ত বিবরণ দেওয়া হল:

  1. ব্যাগিং (ঘোরা বি ootstrap Agg regat ing ) ব্যবহার করে আপনার মূল ডেটা সেটটি থেকে প্রশিক্ষণের জন্য অতিরিক্ত ডেটা উৎপাদিত দ্বারা আপনার ভবিষ্যদ্বাণী ভ্যারিয়েন্স হ্রাস করার একটি উপায় পুনরাবৃত্তির সঙ্গে সমন্বয় উত্পাদন করতে multisets আপনার মূল তথ্য হিসাবে একই cardinality / আকারের। আপনার প্রশিক্ষণের সেটটির আকার বাড়িয়ে আপনি মডেল ভবিষ্যদ্বাণীমূলক বলটিকে উন্নত করতে পারবেন না, তবে কেবলমাত্র বৈকল্পিকতা হ্রাস করুন, ভবিষ্যদ্বাণীটিকে সংক্ষিপ্তভাবে প্রত্যাশিত ফলাফলের সাথে টিউন করে।

  2. বুস্টিং হ'ল দ্বি-পদক্ষেপের পদ্ধতি, যেখানে কেউ প্রথমে গড় পারফরম্যান্সের বিভিন্ন মডেল তৈরি করতে মূল ডেটার সাবসেট ব্যবহার করে এবং তারপরে একটি নির্দিষ্ট ব্যয় ফাংশন (= সংখ্যাগরিষ্ঠ ভোট) ব্যবহার করে একত্রিত করে তাদের কার্য সম্পাদনকে "বাড়িয়ে তোলে"। ব্যাগিংয়ের বিপরীতে, ধ্রুপদীভাবেসাবসেট সৃষ্টি উত্সাহিত করা এলোমেলো নয় এবং পূর্ববর্তী মডেলগুলির কার্য সম্পাদনের উপর নির্ভর করে: প্রতিটি নতুন উপগ্রহে পূর্ববর্তী মডেলগুলির দ্বারা বিযুক্ত শ্রেণিবদ্ধ (এমনকী) হতে পারে এমন উপাদান রয়েছে।

  3. স্ট্যাকিং উত্সাহ দেওয়ার অনুরূপ: আপনি নিজের মূল ডেটাতেও বেশ কয়েকটি মডেল প্রয়োগ করেন। এখানে পার্থক্যটি হ'ল, আপনার ওজন ফাংশনের জন্য আপনার কাছে কেবল একটি অভিজ্ঞতুল সূত্র নেই, বরং আপনি একটি মেটা-লেভেল প্রবর্তন করেন এবং প্রতিটি মডেলের আউটপুট সহ ওজন নির্ধারণের জন্য ইনপুটটি অনুমান করতে অন্য মডেল / পদ্ধতির ব্যবহার করেন বা , অন্য কথায়, কোন মডেলগুলি ভাল সম্পাদন করে এবং এই ইনপুট ডেটাগুলিকে খারাপভাবে কী দেয় তা নির্ধারণ করতে।

এখানে একটি তুলনা টেবিল:

তুলনামূলক টেবিল

যেমন আপনি দেখতে পাচ্ছেন, বেশ কয়েকটি মডেলকে আরও ভাল করে একত্রিত করার জন্য এগুলি সমস্ত ভিন্ন পদ্ধতি, এবং এখানে কোনও একক বিজয়ী নেই: সবকিছুই আপনার ডোমেন এবং আপনি কী করতে যাচ্ছেন তার উপর নির্ভর করে। আপনি এখনও স্ট্যাকিংকে আরও এক ধরণের অগ্রগতি বাড়ানোর হিসাবে বিবেচনা করতে পারেন , তবে, আপনার মেটা-স্তরের জন্য একটি ভাল পদ্ধতির সন্ধানের অসুবিধা অনুশীলনে এই পদ্ধতির প্রয়োগ করা কঠিন করে তোলে।

প্রতিটি সংক্ষিপ্ত উদাহরণ:

  1. ব্যাগিং : ওজোন ডেটা
  2. বুস্টিং : অপটিক্যাল চরিত্রের স্বীকৃতি (ওসিআর) যথার্থতা উন্নত করতে ব্যবহৃত হয় ।
  3. স্ট্যাকিং : cancerষধে ক্যান্সার মাইক্রোআরয়ের শ্রেণিবদ্ধকরণে ব্যবহৃত হয় ।

8
দেখে মনে হচ্ছে আপনার উত্সাহিত সংজ্ঞাটি উইকির (যেটির জন্য আপনি সংযুক্ত করেছেন) এর থেকে বা এই কাগজটির চেয়ে আলাদা । উভয়েই বলে যে পরের শ্রেণিবদ্ধকে বাড়াতে পূর্ববর্তী প্রশিক্ষিতদের ফলাফল ব্যবহার করা হয়, তবে আপনি এটি উল্লেখ করেননি। আপনি অন্য পদ্ধতিতে যে পদ্ধতিটি বর্ণনা করেছেন সেটি কিছুটা ভোটদান / মডেল গড় কৌশলগুলির সাথে সাদৃশ্যপূর্ণ।
আলেকজান্ডার রডিন

2
@ এ-রডিন: এই গুরুত্বপূর্ণ দিকটি নির্দেশ করার জন্য আপনাকে ধন্যবাদ, আমি এটি আরও ভালভাবে প্রতিফলিত করার জন্য এই বিভাগটি সম্পূর্ণ পুনরায় লিখেছি। আপনার দ্বিতীয় বক্তব্য হিসাবে, আমার বোঝা যে উত্সাহ দেওয়াও এক ধরণের ভোট / গড়, বা আমি আপনাকে ভুল বুঝতে পেরেছি?
আলেকজান্ডার গালকিন

@ আলেকজান্দার গ্যালকিন মন্তব্য করার সময় গ্র্যাডিয়েন্টকে উত্সাহ দেওয়ার কথা মনে রেখেছিল: এটি ভোটদানের মতো নয় বরং পুনরাবৃত্তির ফাংশন আনুমানিক কৌশল হিসাবে দেখায়। তবে উদাহরণস্বরূপ অ্যাডাবোস্টকে ভোট দেওয়ার মতো দেখায় তাই আমি এ বিষয়ে তর্ক করব না।
আলেকজান্ডার রডিন

3
আপনার প্রথম বাক্যে আপনি বলেছেন বুস্টিং পক্ষপাত হ্রাস করে তবে তুলনা সারণীতে আপনি বলেছিলেন এটি ভবিষ্যদ্বাণীপূর্ণ শক্তি বৃদ্ধি করে। এ দুটোই কি সত্য?
বেন লিন্ডসে

68

ব্যাগিং :

  1. সমান্তরাল নকশা : প্রতিটি মডেল স্বাধীনভাবে নির্মিত হয়

  2. পক্ষপাত নয়, বৈচিত্র্য হ্রাস করার লক্ষ্য

  3. উচ্চ বৈকল্পিক কম পক্ষপাত মডেল (জটিল মডেল) জন্য উপযুক্ত

  4. গাছ ভিত্তিক পদ্ধতির একটি উদাহরণ এলোমেলো বন , যা সম্পূর্ণরূপে উত্থিত গাছের বিকাশ করে (নোট করুন যে আরএফ গাছের মধ্যে পারস্পরিক সম্পর্ক হ্রাস করার জন্য বর্ধিত পদ্ধতিটি পরিবর্তন করে)

বুস্টিং :

  1. ক্রমযুক্ত নকশা করা : নতুন মডেল যুক্ত করার চেষ্টা করুন যা আগের মডেলগুলির অভাব যেখানে ভাল করে

  2. পক্ষপাত হ্রাস লক্ষ্য , বৈকল্পিক না

  3. কম বৈকল্পিক উচ্চ পক্ষপাত মডেল জন্য উপযুক্ত

  4. গাছ ভিত্তিক পদ্ধতির একটি উদাহরণ গ্রেডিয়েন্ট বুস্টিং


5
কেন এমনটি হয় এবং কীভাবে এটি অর্জন করা হয় তার উত্তর দেওয়ার জন্য প্রতিটি পয়েন্টের মন্তব্য করা আপনার উত্তরের একটি দুর্দান্ত উন্নতি হবে।
টিম

2
আপনি কি এমন কোনও দলিল / লিঙ্ক ভাগ করতে পারেন যা ব্যাখ্যা করে যে বৈচিত্র্য হ্রাস করতে পারে এবং এটি কীভাবে হয়? কেবল আরও গভীরতার সাথে বুঝতে চান
জর্জঅফথআরএফ

1
ধন্যবাদ টিম, আমি পরে কিছু মন্তব্য যুক্ত করব। @ এমএমএলপ্রো, উত্সাহদানের প্রক্রিয়া থেকে (উদাহরণস্বরূপ cs.cornell.edu/courses/cs578/2005fa/… এর পৃষ্ঠা 23 ), এটি বোধগম্য যে বর্ধন পক্ষপাতিত্ব হ্রাস করতে পারে।
yuqian

43

ইউকিয়ানের উত্তরটি কিছুটা বিশদভাবে ব্যাখ্যা করার জন্য। ব্যাগিংয়ের পিছনে ধারণাটি হ'ল আপনি যখন কোনও ননপ্যারামেট্রিক রিগ্রেশন পদ্ধতি (সাধারণত রিগ্রেশন বা শ্রেণিবিন্যাস গাছগুলি ব্যবহার করেন তবে কোনও ননপ্রেমেট্রিক পদ্ধতি সম্পর্কেই হতে পারেন) তখন আপনি উচ্চতর ভিন্নতায় যেতে চান, কোনও (বা নিম্ন) পক্ষপাতের অংশটি নয় / বৈকল্পিক ট্রেড অফ। এটি কারণ একটি ওভারফিটিং মডেল খুব নমনীয় (একই জনসংখ্যার অনেকগুলি রেসামেন্টের তুলনায় এত কম পক্ষপাত, যদি সেগুলি উপলব্ধ ছিল) তবে এর উচ্চতর পরিবর্তনশীলতা রয়েছে (যদি আমি একটি নমুনা সংগ্রহ করি এবং এটির চেয়ে বেশি ফিট করি, এবং আপনি একটি নমুনা সংগ্রহ করেন এবং এটির চেয়ে বেশি লাভ করেন, আমাদের ফলাফলগুলি পৃথক হবে কারণ নন-প্যারামিট্রিক রিগ্রেশন ডেটাতে শব্দটি ট্র্যাক করে)। আমরা কি করতে পারি? আমরা অনেকগুলি রেজাল্ট নিতে পারি (বুটস্ট্র্যাপিং থেকে), প্রতিটি ওভারফিটিং এবং সেগুলি একসাথে গড়তে পারি। এটি একই পক্ষপাত (কম) বাড়ে তবে কিছু বৈকল্পিকতা বাতিল করে দিতে হবে,

এর অন্তরে গ্রেডিয়েন্ট বুস্টিং আনন্ডারফিট ননপ্রেমেট্রিক রিগ্রেশনগুলির সাথে কাজ করে, এটি খুব সহজ এবং সুতরাং তথ্যের মধ্যে প্রকৃত সম্পর্কের বর্ণনা দেওয়ার জন্য যথেষ্ট নমনীয় নয় (যেমন পক্ষপাতদুষ্ট) তবে, কারণ তারা উপযুক্ত ফিটনেসযুক্ত, কম বৈচিত্র্য রয়েছে (আপনি ঝুঁকবেন আপনি যদি নতুন ডেটা সেট সংগ্রহ করেন তবে একই ফলাফলটি পেতে)। এর জন্য আপনি কীভাবে সংশোধন করবেন? মূলত, আপনি যদি উপযুক্ত হয়ে থাকেন তবে আপনার মডেলের রিসিডুয়ালগুলি এখনও দরকারী কাঠামো (জনসংখ্যার তথ্য) ধারণ করে, তাই আপনি অবশিষ্ট গাছগুলিতে তৈরি গাছের সাথে আপনার নিজের গাছটি (বা যাই হোক ননপ্যারমেট্রিক প্রেডিকটার) বাড়িয়ে তুলবেন। এটি মূল গাছের চেয়ে আরও নমনীয় হওয়া উচিত। আপনি বারবার আরও বেশি বেশি গাছ উত্পন্ন করেন, প্রতিটি স্টেপ কে স্টেপ কে -১ থেকে অবশিষ্টাংশের জন্য লাগানো গাছের উপর ভিত্তি করে একটি ভারী গাছ দ্বারা বাড়ানো হয়েছে। এই গাছগুলির মধ্যে একটি অনুকূল হওয়া উচিত, সুতরাং আপনি হয় এই সমস্ত গাছ একসাথে ওজন করে বা সেরা ফিট বলে মনে হচ্ছে এমন একটি নির্বাচন করে শেষ করেন। সুতরাং গ্রেডিয়েন্ট বুস্টিং আরও নমনীয় প্রার্থী গাছের একগুচ্ছ তৈরির উপায়।

সমস্ত ননপ্যারমেট্রিক রিগ্রেশন বা শ্রেণিবদ্ধকরণ পদ্ধতির মতো, কখনও কখনও ব্যাগিং বা বুস্টিং দুর্দান্ত কাজ করে, কখনও কখনও এক বা অন্য পদ্ধতির মাঝারি হয়, এবং কখনও কখনও এক বা অন্য পদ্ধতির (বা উভয়) ক্রাশ এবং জ্বলতে থাকে।

এছাড়াও, এই দুটি কৌশলই গাছ বাদে অন্য সংবেদন পদ্ধতির ক্ষেত্রে প্রয়োগ করা যেতে পারে তবে এগুলি সাধারণত গাছের সাথে জড়িত, সম্ভবত পরামিতি নির্ধারণ করা কঠিন যাতে ফিটিং বা অত্যধিক মানানসই এড়াতে পারে।


3
ওভারফিটের জন্য +1 = বৈকল্পিক, আন্ডারফিট = পক্ষপাতিত্ব যুক্তি! সিদ্ধান্ত গাছ ব্যবহারের একটি কারণ হ'ল তারা কাঠামোগতভাবে অস্থিরতা হওয়ায় শর্তের সামান্য পরিবর্তন থেকে আরও বেশি উপকৃত হন। ( অ্যাবটটানালিটিক্স.অ্যাসেটস / পিডিএফ/… )
মার্ক


3

সংক্ষেপে সংশোধন করার জন্য, ব্যাগিং এবং বুস্টিং সাধারণত একটি অ্যালগরিদমের অভ্যন্তরে ব্যবহৃত হয়, অন্যদিকে স্ট্যাকিং সাধারণত বিভিন্ন অ্যালগরিদমের কয়েকটি ফলাফল সংক্ষিপ্ত করতে ব্যবহৃত হয়।

  • ব্যাগিং : বিভিন্ন পূর্বাভাস এবং গড় (বা অন্যান্য উপায়ে) ফলাফল পেতে বৈশিষ্ট্য এবং নমুনার বুটস্ট্র্যাপের সাবসেটগুলি উদাহরণস্বরূপ Random Forest, যা বৈকল্পিকতা দূর করে এবং অত্যধিক মানানসই সমস্যা নেই।
  • বুস্টিং : ব্যাগিংয়ের পার্থক্য হ'ল পরবর্তী মডেল পূর্ববর্তী একজন দ্বারা করা ত্রুটিটি শিখার চেষ্টা করছে, উদাহরণস্বরূপ GBMএবং XGBoost, যা ভেরিয়েন্সটি নির্মূল করে তবে অতিরিক্ত মানানসই সমস্যা রয়েছে।
  • স্ট্যাকিং : প্রতিযোগিতায় সাধারণত ব্যবহৃত হয়, যখন কেউ একই ডেটা সেট এবং গড় (সর্বাধিক, মিনিট বা অন্যান্য সংমিশ্রণ) উপর প্রশিক্ষণের জন্য একাধিক অ্যালগরিদম ব্যবহার করে ভবিষ্যদ্বাণীটির উচ্চতর নির্ভুলতা পেতে পারে get

2

ব্যাগিং এবং বুস্টিং উভয় পদক্ষেপের জন্য একটি একক শিক্ষার অ্যালগরিদম ব্যবহার করে; তবে তারা প্রশিক্ষণের নমুনাগুলি পরিচালনা করতে বিভিন্ন পদ্ধতি ব্যবহার করে। উভয়ই একচেটিয়া শেখার পদ্ধতি যা একাধিক মডেল
ব্যাগিংয়ের সিদ্ধান্তগুলিকে একত্রিত করে :
1. এম সাবসেটগুলি (বুটস্ট্র্যাপিং) পেতে প্রশিক্ষণের উপাত্তকে পুনরায় ফলাফল দেয়;
2. এম ডেটাসেটের ভিত্তিতে এম শ্রেণিবদ্ধ (একই অ্যালগরিদম) প্রশিক্ষণ দেয় (বিভিন্ন নমুনা);
৩. চূড়ান্ত শ্রেণিবদ্ধকারী এম আউটপুটগুলিকে ভোট দিয়ে সংযুক্ত করে;
নমুনা ওজন সমান;
শ্রেণিবদ্ধ ওজন সমান;
ভেরিয়েন্স
বুস্টিং হ্রাস করে ত্রুটি হ্রাস করে : এখানে অ্যাডাবোস্ট আলগোরিদম ফোকাস করুন
1. প্রথম দফায় সমস্ত নমুনার সমান ওজন দিয়ে শুরু করুন;
২. নীচের এম -১ রাউন্ডে, গত রাউন্ডে ভুলভাবে শ্রেণিবদ্ধ করা হয়েছে এমন নমুনার ওজন বৃদ্ধি, শেষ রাউন্ডে সঠিকভাবে শ্রেণিবদ্ধ করা নমুনাগুলির ওজন হ্রাস
3 a ভারী ভোটদান ব্যবহার করে, চূড়ান্ত শ্রেণিবদ্ধকারী পূর্ববর্তী রাউন্ডগুলি থেকে একাধিক শ্রেণিবদ্ধকে একত্রিত করে এবং আরও বড় ওজন দেয় কম ভুল শৃঙ্খলা সহ শ্রেণিবদ্ধদের কাছে।
পদক্ষেপ অনুসারে রিয়েলাইট নমুনা; প্রতিটি রাউন্ডের জন্য
ওজন পুনরায় মডেলিং (ব্যাগিং) না দিয়ে শেষ রাউন্ডের পুনরায় ওজন নমুনার (বুস্টিং) ফলাফলের ভিত্তিতে ।


0

ব্যাগিং এবং বুস্টিং অনেক সমজাতীয় মডেল ব্যবহার করে tend

স্ট্যাকিং ভিন্নজাতীয় মডেল ধরণের ফলাফলগুলি একত্রিত করে।

কোনও একক মডেল ধরণের কোনও সম্পূর্ণ বিতরণে সেরা ফিট হওয়ার প্রবণতা না থাকায় আপনি দেখতে পাচ্ছেন যে এটি কেন ভবিষ্যদ্বাণীপূর্ণ শক্তি বাড়িয়ে তুলতে পারে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.