যদি আমি সঠিকভাবে বুঝতে পারি তবে আপনার একটি দুটি শ্রেণির শ্রেণিবদ্ধকরণ সমস্যা রয়েছে, যেখানে ইতিবাচক শ্রেণি (ম্যাচগুলি) খুব কম। অনেক শ্রেণিবদ্ধ ব্যক্তি এই ধরণের শ্রেণির ভারসাম্যহীনতার সাথে লড়াই করে এবং আরও ভাল পারফরম্যান্স পাওয়ার জন্য সংখ্যাগরিষ্ঠ শ্রেণীর উপ-নমুনা নেওয়া সাধারণ অভ্যাস, সুতরাং প্রথম প্রশ্নের উত্তর "হ্যাঁ"। তবে, আপনি যদি অত্যধিক সাব-নমুনা করেন, আপনি এমন একটি শ্রেণিবদ্ধের সাথে সমাপ্ত হবেন যা সংখ্যালঘু ধনাত্মক শ্রেণিকে অত্যধিক পূর্বাভাস দেয়, তাই করণীয় সর্বোত্তম হ'ল সাব-স্যাম্পলিং রেশনটি সর্বাধিক সম্পাদন করতে বেছে নেওয়া, সম্ভবত ক্রস- বৈধতা ত্রুটি যেখানে পরীক্ষার ডেটা উপ-নমুনা দেওয়া হয়নি তাই আপনি কার্যক্ষম পারফরম্যান্সের একটি ভাল ইঙ্গিত পান।
আপনার যদি সম্ভাব্য শ্রেণিবদ্ধকারী থাকে, যা ক্লাস মেম্বারশিপের সম্ভাব্যতার একটি অনুমান দেয়, আপনি প্রশিক্ষণের সেট এবং ক্রিয়াকলাপে শ্রেণীর ফ্রিকোয়েন্সিগুলির মধ্যে পার্থক্যটি পূরণ করার জন্য আউটপুট পরবর্তী আরও ভালভাবে যেতে পারেন। আমি সন্দেহ করি যে কিছু শ্রেণিবদ্ধকারীদের জন্য, সর্বোত্তম পদ্ধতি ক্রস-বৈধতা ত্রুটিটি অনুকূলকরণের মাধ্যমে সাব-স্যাম্পলিং অনুপাত এবং আউটপুট সংশোধন উভয়কেই অনুকূলিত করে তোলে।
সাব-স্যাম্পলিংয়ের পরিবর্তে কিছু শ্রেণিবদ্ধের জন্য (যেমন এসভিএম) আপনি ধনাত্মক এবং নেতিবাচক নিদর্শনগুলিতে বিভিন্ন ওজন দিতে পারেন। আমি এটি সাব-স্যাম্পলিংয়ের চেয়ে বেশি পছন্দ করি কারণ এর অর্থ নির্দিষ্ট ব্যবহৃত সাব-নমুনার কারণে ফলাফলের কোনও পরিবর্তনশীলতা নেই। যেখানে এটি সম্ভব নয়, ব্যাগযুক্ত শ্রেণিবদ্ধকারী করতে বুটস্ট্র্যাপিং ব্যবহার করুন, যেখানে প্রতিটি পুনরাবৃত্তিতে সংখ্যাগরিষ্ঠ শ্রেণির একটি পৃথক উপ-নমুনা ব্যবহৃত হয়।
অন্য একটি জিনিস আমি বলব যে সাধারণত যেখানে একটি বৃহত শ্রেণির ভারসাম্যহীনতা থাকে সেখানে মিথ্যা নেতিবাচক ত্রুটি এবং মিথ্যা ধনাত্মক ত্রুটি সমানভাবে খারাপ হয় না এবং এটি শ্রেণিবদ্ধ নকশায় তৈরি করা ভাল ধারণা (যা উপস্থাপিত দ্বারা সম্পন্ন করা যায়) - প্রতিটি শ্রেণীর অন্তর্ভুক্ত নমুনা বা ওজন নিদর্শন)।