এনসেম্বল লার্নিং বলতে বেশ কয়েকটি ভিন্ন পদ্ধতি বোঝায়। বুস্টিং এবং ব্যাগিং সম্ভবত দু'টি সাধারণ বিষয়। দেখে মনে হচ্ছে আপনি স্ট্যাকিং নামে পরিচিত একটি শিখন পদ্ধতি বাস্তবায়নের চেষ্টা করছেন । স্ট্যাকিংয়ের উদ্দেশ্য বিভিন্ন শিক্ষার অ্যালগরিদম থেকে ভবিষ্যদ্বাণীগুলি একত্রিত করে যথার্থতা উন্নত করা। স্ট্যাকিং করার বেশ কয়েকটি উপায় রয়েছে এবং প্রচুর কঠোর তত্ত্ব নয়। যদিও এটি স্বজ্ঞাত এবং জনপ্রিয়।
আপনার বন্ধুর পদ্ধতির বিষয়টি বিবেচনা করুন। আপনি পাঁচটি ফোল্ডারের মধ্যে প্রথম স্তরের মডেলগুলি ফিট করছেন এবং তারপরে একই চারটি ভাঁজ ব্যবহার করে দ্বিতীয় স্তর (ভোটদান) মডেলটি ফিট করছেন। সমস্যাটি হ'ল দ্বিতীয় স্তরটি সর্বনিম্ন প্রশিক্ষণের ত্রুটির সাথে মডেলটির পক্ষে হবে। আপনি মডেলগুলি ফিট করতে এবং সেই মডেলগুলিকে একত্রিত করার জন্য একটি পদ্ধতি তৈরি করতে একই ডেটা ব্যবহার করছেন। দ্বিতীয় স্তরটির নমুনা বহির্ভূত পূর্বাভাস ব্যবহার করে মডেলগুলি একত্রিত করা উচিত । আপনার পদ্ধতিটি আরও ভাল তবে আরও ভাল করার একটি উপায় আছে।
আমরা পরীক্ষার উদ্দেশ্যে এক ভাঁজ ছেড়ে চলে যাব। চারটি ভাঁজ নিন এবং চারটি ভাগে আপনার প্রথম স্তরের প্রতিটি মডেলের জন্য প্রাক-পূর্বাভাসের ভবিষ্যতবাণীগুলি পেতে 4-ভাঁজ সিভি ব্যবহার করুন। অর্থাত্, চারটি ফোল্ডারের মধ্যে একটি ছেড়ে দিন এবং অন্য তিনটিতে মডেলগুলি ফিট করুন এবং তারপরে হোল্ড-আউট ডেটা সম্পর্কে ভবিষ্যদ্বাণী করুন। চারটি ভাঁজটির জন্য পুনরাবৃত্তি করুন যাতে আপনি চারটি ভাঁজে নমুনা পূর্বাভাস পান। তারপরে এই বহিরাগত নমুনা পূর্বাভাসগুলিতে দ্বিতীয় স্তর মডেলটিকে ফিট করুন। তারপরে চারটি ভাঁজে আবার প্রথম স্তর মডেল ফিট করুন। এখন আপনি পঞ্চম ভাগে যেতে পারেন যা আপনি এখনও স্পর্শ করেননি। আউট-আউট ডেটাতে ত্রুটিটি অনুমান করতে দ্বিতীয় স্তরের মডেলের সাথে চারটি ভাঁজগুলিতে ফিট হওয়া প্রথম স্তর মডেলগুলি ব্যবহার করুন। প্রথম এবং দ্বিতীয় স্তর মডেল ফিটিংয়ের বাইরে থাকা অন্য ভাঁজগুলির সাথে আপনি এই প্রক্রিয়াটি পুনরায় পুনর্বার করতে পারেন।
আপনি যদি পারফরম্যান্সে সন্তুষ্ট হন তবে পাঁচটি ভাগে প্রথম স্তর মডেলগুলির জন্য আউট-অফ-নমুনা পূর্বাভাস তৈরি করুন এবং তারপরে এগুলির মধ্যে দ্বিতীয় স্তর মডেলটি ফিট করুন। তারপরে আপনার সমস্ত ডেটাতে প্রথমবারের প্রথম মডেলগুলি একবারে ফিট করুন এবং এটিকে কোনও নতুন ডেটাতে দ্বিতীয় স্তর মডেলের সাথে ব্যবহার করুন!
অবশেষে, কিছু সাধারণ পরামর্শ। আপনার প্রথম স্তরের মডেলগুলি একে অপরের থেকে মোটামুটি স্বতন্ত্র থাকলে আপনি আরও সুবিধা পাবেন। আপনি এসভিএম এবং সিদ্ধান্ত গাছ ব্যবহার করে এখানে সঠিক পথে আছেন, যা একে অপরের থেকে বেশ আলাদা। যেহেতু দ্বিতীয় স্তরের মডেল থেকে গড় গড় প্রভাব রয়েছে, আপনি আপনার প্রথম স্তরের মডেলগুলিকে বাড়িয়ে তুলতে চেষ্টা করতে পারেন, বিশেষত যদি আপনার অনেকগুলি থাকে। দ্বিতীয় স্তরটি সাধারণ কিছু সাধারণ এবং ওজন এবং একঘেয়েমি এর নেতিবাচকতার মতো প্রতিবন্ধকতাগুলি সাধারণ। শেষ অবধি, মনে রাখবেন যে স্ট্যাকিং ক্রস-বৈধকরণের উপর নির্ভর করে, যা সত্য ঝুঁকির একটি অনুমান মাত্র is যদি আপনি খুব আলাদা ত্রুটি হার এবং ভাঁজগুলি জুড়ে খুব আলাদা মডেলের ওজন পান তবে এটি সূচিত করে যে আপনার সিভি-ভিত্তিক ঝুঁকির প্রাক্কলনের উচ্চতমতা রয়েছে। সেক্ষেত্রে আপনি একটি সাধারণ মিশ্রণ বিবেচনা করতে পারেনআপনার প্রথম স্তর মডেল। অথবা, আপনি প্রতিটি প্রথম স্তরের মডেলটিতে সর্বাধিক / মিনিট ওজনের সীমাবদ্ধতার সাথে স্ট্যাক করে আপস করতে পারেন।