এই 3 টি পদ্ধতির মধ্যে মিল এবং পার্থক্য কী:
- ব্যাগিং,
- boosting,
- স্ট্যাকিং?
কোনটি সেরা? এবং কেন?
আপনি কি আমাকে প্রত্যেকের জন্য একটি উদাহরণ দিতে পারেন?
এই 3 টি পদ্ধতির মধ্যে মিল এবং পার্থক্য কী:
কোনটি সেরা? এবং কেন?
আপনি কি আমাকে প্রত্যেকের জন্য একটি উদাহরণ দিতে পারেন?
উত্তর:
তিনটিই তথাকথিত "মেটা-অ্যালগোরিদম": বৈকল্পিকতা ( ব্যাগিং ), পক্ষপাত ( বুস্টিং ) হ্রাস করতে বা ভবিষ্যদ্বাণীমূলক বলকে উন্নত করতে ( স্ট্যাকিং ওরফে এনসেম্বল ) উন্নত করার জন্য একাধিক মেশিন লার্নিং কৌশলকে একটি ভবিষ্যদ্বাণীমূলক মডেলের সাথে একত্রিত করার পদ্ধতি aches
প্রতিটি অ্যালগরিদম দুটি পদক্ষেপ নিয়ে গঠিত:
আসল ডেটার উপগ্রহে সাধারণ এমএল মডেলগুলির বিতরণ উত্পাদন করা হচ্ছে।
একটিকে "একত্রিত" মডেল হিসাবে বিতরণ একত্রিত করা।
এখানে তিনটি পদ্ধতির সংক্ষিপ্ত বিবরণ দেওয়া হল:
ব্যাগিং (ঘোরা বি ootstrap Agg regat ing ) ব্যবহার করে আপনার মূল ডেটা সেটটি থেকে প্রশিক্ষণের জন্য অতিরিক্ত ডেটা উৎপাদিত দ্বারা আপনার ভবিষ্যদ্বাণী ভ্যারিয়েন্স হ্রাস করার একটি উপায় পুনরাবৃত্তির সঙ্গে সমন্বয় উত্পাদন করতে multisets আপনার মূল তথ্য হিসাবে একই cardinality / আকারের। আপনার প্রশিক্ষণের সেটটির আকার বাড়িয়ে আপনি মডেল ভবিষ্যদ্বাণীমূলক বলটিকে উন্নত করতে পারবেন না, তবে কেবলমাত্র বৈকল্পিকতা হ্রাস করুন, ভবিষ্যদ্বাণীটিকে সংক্ষিপ্তভাবে প্রত্যাশিত ফলাফলের সাথে টিউন করে।
বুস্টিং হ'ল দ্বি-পদক্ষেপের পদ্ধতি, যেখানে কেউ প্রথমে গড় পারফরম্যান্সের বিভিন্ন মডেল তৈরি করতে মূল ডেটার সাবসেট ব্যবহার করে এবং তারপরে একটি নির্দিষ্ট ব্যয় ফাংশন (= সংখ্যাগরিষ্ঠ ভোট) ব্যবহার করে একত্রিত করে তাদের কার্য সম্পাদনকে "বাড়িয়ে তোলে"। ব্যাগিংয়ের বিপরীতে, ধ্রুপদীভাবেসাবসেট সৃষ্টি উত্সাহিত করা এলোমেলো নয় এবং পূর্ববর্তী মডেলগুলির কার্য সম্পাদনের উপর নির্ভর করে: প্রতিটি নতুন উপগ্রহে পূর্ববর্তী মডেলগুলির দ্বারা বিযুক্ত শ্রেণিবদ্ধ (এমনকী) হতে পারে এমন উপাদান রয়েছে।
স্ট্যাকিং উত্সাহ দেওয়ার অনুরূপ: আপনি নিজের মূল ডেটাতেও বেশ কয়েকটি মডেল প্রয়োগ করেন। এখানে পার্থক্যটি হ'ল, আপনার ওজন ফাংশনের জন্য আপনার কাছে কেবল একটি অভিজ্ঞতুল সূত্র নেই, বরং আপনি একটি মেটা-লেভেল প্রবর্তন করেন এবং প্রতিটি মডেলের আউটপুট সহ ওজন নির্ধারণের জন্য ইনপুটটি অনুমান করতে অন্য মডেল / পদ্ধতির ব্যবহার করেন বা , অন্য কথায়, কোন মডেলগুলি ভাল সম্পাদন করে এবং এই ইনপুট ডেটাগুলিকে খারাপভাবে কী দেয় তা নির্ধারণ করতে।
এখানে একটি তুলনা টেবিল:
যেমন আপনি দেখতে পাচ্ছেন, বেশ কয়েকটি মডেলকে আরও ভাল করে একত্রিত করার জন্য এগুলি সমস্ত ভিন্ন পদ্ধতি, এবং এখানে কোনও একক বিজয়ী নেই: সবকিছুই আপনার ডোমেন এবং আপনি কী করতে যাচ্ছেন তার উপর নির্ভর করে। আপনি এখনও স্ট্যাকিংকে আরও এক ধরণের অগ্রগতি বাড়ানোর হিসাবে বিবেচনা করতে পারেন , তবে, আপনার মেটা-স্তরের জন্য একটি ভাল পদ্ধতির সন্ধানের অসুবিধা অনুশীলনে এই পদ্ধতির প্রয়োগ করা কঠিন করে তোলে।
প্রতিটি সংক্ষিপ্ত উদাহরণ:
ব্যাগিং :
সমান্তরাল নকশা : প্রতিটি মডেল স্বাধীনভাবে নির্মিত হয়
পক্ষপাত নয়, বৈচিত্র্য হ্রাস করার লক্ষ্য
উচ্চ বৈকল্পিক কম পক্ষপাত মডেল (জটিল মডেল) জন্য উপযুক্ত
গাছ ভিত্তিক পদ্ধতির একটি উদাহরণ এলোমেলো বন , যা সম্পূর্ণরূপে উত্থিত গাছের বিকাশ করে (নোট করুন যে আরএফ গাছের মধ্যে পারস্পরিক সম্পর্ক হ্রাস করার জন্য বর্ধিত পদ্ধতিটি পরিবর্তন করে)
বুস্টিং :
ক্রমযুক্ত নকশা করা : নতুন মডেল যুক্ত করার চেষ্টা করুন যা আগের মডেলগুলির অভাব যেখানে ভাল করে
পক্ষপাত হ্রাস লক্ষ্য , বৈকল্পিক না
কম বৈকল্পিক উচ্চ পক্ষপাত মডেল জন্য উপযুক্ত
গাছ ভিত্তিক পদ্ধতির একটি উদাহরণ গ্রেডিয়েন্ট বুস্টিং
ইউকিয়ানের উত্তরটি কিছুটা বিশদভাবে ব্যাখ্যা করার জন্য। ব্যাগিংয়ের পিছনে ধারণাটি হ'ল আপনি যখন কোনও ননপ্যারামেট্রিক রিগ্রেশন পদ্ধতি (সাধারণত রিগ্রেশন বা শ্রেণিবিন্যাস গাছগুলি ব্যবহার করেন তবে কোনও ননপ্রেমেট্রিক পদ্ধতি সম্পর্কেই হতে পারেন) তখন আপনি উচ্চতর ভিন্নতায় যেতে চান, কোনও (বা নিম্ন) পক্ষপাতের অংশটি নয় / বৈকল্পিক ট্রেড অফ। এটি কারণ একটি ওভারফিটিং মডেল খুব নমনীয় (একই জনসংখ্যার অনেকগুলি রেসামেন্টের তুলনায় এত কম পক্ষপাত, যদি সেগুলি উপলব্ধ ছিল) তবে এর উচ্চতর পরিবর্তনশীলতা রয়েছে (যদি আমি একটি নমুনা সংগ্রহ করি এবং এটির চেয়ে বেশি ফিট করি, এবং আপনি একটি নমুনা সংগ্রহ করেন এবং এটির চেয়ে বেশি লাভ করেন, আমাদের ফলাফলগুলি পৃথক হবে কারণ নন-প্যারামিট্রিক রিগ্রেশন ডেটাতে শব্দটি ট্র্যাক করে)। আমরা কি করতে পারি? আমরা অনেকগুলি রেজাল্ট নিতে পারি (বুটস্ট্র্যাপিং থেকে), প্রতিটি ওভারফিটিং এবং সেগুলি একসাথে গড়তে পারি। এটি একই পক্ষপাত (কম) বাড়ে তবে কিছু বৈকল্পিকতা বাতিল করে দিতে হবে,
এর অন্তরে গ্রেডিয়েন্ট বুস্টিং আনন্ডারফিট ননপ্রেমেট্রিক রিগ্রেশনগুলির সাথে কাজ করে, এটি খুব সহজ এবং সুতরাং তথ্যের মধ্যে প্রকৃত সম্পর্কের বর্ণনা দেওয়ার জন্য যথেষ্ট নমনীয় নয় (যেমন পক্ষপাতদুষ্ট) তবে, কারণ তারা উপযুক্ত ফিটনেসযুক্ত, কম বৈচিত্র্য রয়েছে (আপনি ঝুঁকবেন আপনি যদি নতুন ডেটা সেট সংগ্রহ করেন তবে একই ফলাফলটি পেতে)। এর জন্য আপনি কীভাবে সংশোধন করবেন? মূলত, আপনি যদি উপযুক্ত হয়ে থাকেন তবে আপনার মডেলের রিসিডুয়ালগুলি এখনও দরকারী কাঠামো (জনসংখ্যার তথ্য) ধারণ করে, তাই আপনি অবশিষ্ট গাছগুলিতে তৈরি গাছের সাথে আপনার নিজের গাছটি (বা যাই হোক ননপ্যারমেট্রিক প্রেডিকটার) বাড়িয়ে তুলবেন। এটি মূল গাছের চেয়ে আরও নমনীয় হওয়া উচিত। আপনি বারবার আরও বেশি বেশি গাছ উত্পন্ন করেন, প্রতিটি স্টেপ কে স্টেপ কে -১ থেকে অবশিষ্টাংশের জন্য লাগানো গাছের উপর ভিত্তি করে একটি ভারী গাছ দ্বারা বাড়ানো হয়েছে। এই গাছগুলির মধ্যে একটি অনুকূল হওয়া উচিত, সুতরাং আপনি হয় এই সমস্ত গাছ একসাথে ওজন করে বা সেরা ফিট বলে মনে হচ্ছে এমন একটি নির্বাচন করে শেষ করেন। সুতরাং গ্রেডিয়েন্ট বুস্টিং আরও নমনীয় প্রার্থী গাছের একগুচ্ছ তৈরির উপায়।
সমস্ত ননপ্যারমেট্রিক রিগ্রেশন বা শ্রেণিবদ্ধকরণ পদ্ধতির মতো, কখনও কখনও ব্যাগিং বা বুস্টিং দুর্দান্ত কাজ করে, কখনও কখনও এক বা অন্য পদ্ধতির মাঝারি হয়, এবং কখনও কখনও এক বা অন্য পদ্ধতির (বা উভয়) ক্রাশ এবং জ্বলতে থাকে।
এছাড়াও, এই দুটি কৌশলই গাছ বাদে অন্য সংবেদন পদ্ধতির ক্ষেত্রে প্রয়োগ করা যেতে পারে তবে এগুলি সাধারণত গাছের সাথে জড়িত, সম্ভবত পরামিতি নির্ধারণ করা কঠিন যাতে ফিটিং বা অত্যধিক মানানসই এড়াতে পারে।
সংক্ষেপে সংশোধন করার জন্য, ব্যাগিং এবং বুস্টিং সাধারণত একটি অ্যালগরিদমের অভ্যন্তরে ব্যবহৃত হয়, অন্যদিকে স্ট্যাকিং সাধারণত বিভিন্ন অ্যালগরিদমের কয়েকটি ফলাফল সংক্ষিপ্ত করতে ব্যবহৃত হয়।
Random Forest
, যা বৈকল্পিকতা দূর করে এবং অত্যধিক মানানসই সমস্যা নেই।GBM
এবং XGBoost
, যা ভেরিয়েন্সটি নির্মূল করে তবে অতিরিক্ত মানানসই সমস্যা রয়েছে।ব্যাগিং এবং বুস্টিং উভয় পদক্ষেপের জন্য একটি একক শিক্ষার অ্যালগরিদম ব্যবহার করে; তবে তারা প্রশিক্ষণের নমুনাগুলি পরিচালনা করতে বিভিন্ন পদ্ধতি ব্যবহার করে। উভয়ই একচেটিয়া শেখার পদ্ধতি যা একাধিক মডেল
ব্যাগিংয়ের সিদ্ধান্তগুলিকে একত্রিত করে :
1. এম সাবসেটগুলি (বুটস্ট্র্যাপিং) পেতে প্রশিক্ষণের উপাত্তকে পুনরায় ফলাফল দেয়;
2. এম ডেটাসেটের ভিত্তিতে এম শ্রেণিবদ্ধ (একই অ্যালগরিদম) প্রশিক্ষণ দেয় (বিভিন্ন নমুনা);
৩. চূড়ান্ত শ্রেণিবদ্ধকারী এম আউটপুটগুলিকে ভোট দিয়ে সংযুক্ত করে;
নমুনা ওজন সমান;
শ্রেণিবদ্ধ ওজন সমান;
ভেরিয়েন্স
বুস্টিং হ্রাস করে ত্রুটি হ্রাস করে : এখানে অ্যাডাবোস্ট আলগোরিদম ফোকাস করুন
1. প্রথম দফায় সমস্ত নমুনার সমান ওজন দিয়ে শুরু করুন;
২. নীচের এম -১ রাউন্ডে, গত রাউন্ডে ভুলভাবে শ্রেণিবদ্ধ করা হয়েছে এমন নমুনার ওজন বৃদ্ধি, শেষ রাউন্ডে সঠিকভাবে শ্রেণিবদ্ধ করা নমুনাগুলির ওজন হ্রাস
3 a ভারী ভোটদান ব্যবহার করে, চূড়ান্ত শ্রেণিবদ্ধকারী পূর্ববর্তী রাউন্ডগুলি থেকে একাধিক শ্রেণিবদ্ধকে একত্রিত করে এবং আরও বড় ওজন দেয় কম ভুল শৃঙ্খলা সহ শ্রেণিবদ্ধদের কাছে।
পদক্ষেপ অনুসারে রিয়েলাইট নমুনা; প্রতিটি রাউন্ডের জন্য
ওজন পুনরায় মডেলিং (ব্যাগিং) না দিয়ে শেষ রাউন্ডের পুনরায় ওজন নমুনার (বুস্টিং) ফলাফলের ভিত্তিতে ।
ব্যাগিং এবং বুস্টিং অনেক সমজাতীয় মডেল ব্যবহার করে tend
স্ট্যাকিং ভিন্নজাতীয় মডেল ধরণের ফলাফলগুলি একত্রিত করে।
কোনও একক মডেল ধরণের কোনও সম্পূর্ণ বিতরণে সেরা ফিট হওয়ার প্রবণতা না থাকায় আপনি দেখতে পাচ্ছেন যে এটি কেন ভবিষ্যদ্বাণীপূর্ণ শক্তি বাড়িয়ে তুলতে পারে।