আমি একটি অত্যন্ত ভারসাম্যহীন পরীক্ষা ডেটা সেট আছে। পজিটিভ সেটটিতে 100 টি কেস থাকে এবং নেগেটিভ সেটটিতে 1500 টি কেস থাকে। প্রশিক্ষণের পক্ষে, আমার কাছে আরও বড় প্রার্থী পুল রয়েছে: ইতিবাচক প্রশিক্ষণ সেটটিতে 1200 টি এবং নেতিবাচক প্রশিক্ষণের সেটটিতে 12000 কেস রয়েছে। এই ধরণের দৃশ্যের জন্য আমার বেশ কয়েকটি পছন্দ আছে:
1) পুরো প্রশিক্ষণের জন্য ওয়েটেড এসভিএম ব্যবহার করে (পি: 1200, এন: 12000)
2) নমুনা প্রশিক্ষণ সেট (পি: 1200, এন: 1200) এর উপর ভিত্তি করে এসভিএম ব্যবহার করে, 12000 কেস থেকে 1200 নেতিবাচক কেস নমুনা দেওয়া হয়।
কোন পদ্ধতিটি আরও ভাল তা সিদ্ধান্ত নেওয়ার বিষয়ে কি কোনও তাত্ত্বিক দিকনির্দেশনা রয়েছে? যেহেতু পরীক্ষার ডেটা সেটটি ভারসাম্যহীন, তাই আমি কি ভারসাম্যহীন প্রশিক্ষণ সেটও ব্যবহার করব?