আমার কাছে অত্যন্ত পক্ষপাতিত্বমূলক বাইনারি ডেটাসেট রয়েছে - আমার কাছে ইতিবাচক শ্রেণির চেয়ে নেতিবাচক শ্রেণির আরও 1000x উদাহরণ রয়েছে। আমি এই ডেটাতে একটি ট্রি এনসেম্বলকে (অতিরিক্ত র্যান্ডম ট্রি বা একটি এলোমেলো বন হিসাবে) প্রশিক্ষণ দিতে চাই তবে ইতিবাচক শ্রেণির পর্যাপ্ত উদাহরণ রয়েছে এমন প্রশিক্ষণ ডেটাসেট তৈরি করা কঠিন।
ইতিবাচক এবং নেতিবাচক উদাহরণগুলির সংখ্যা স্বাভাবিক করার জন্য একটি স্তরিত নমুনা পদ্ধতির করার কী কী প্রভাব ফেলবে? অন্য কথায়, উদাহরণস্বরূপ, প্রশিক্ষণ সংস্থায় কৃত্রিমভাবে ধনাত্মক শ্রেণীর উদাহরণগুলির সংখ্যা কৃত্রিমভাবে ফুলে উঠা (পুনর্নির্মাণের মাধ্যমে) করা কি খারাপ ধারণা?