আমি মনে করি বেস স্তরে শ্রেণি ভারসাম্যহীনতা নিয়ন্ত্রণের জন্য সাবসাম্পলিং (ডাউনসাম্পলিং) একটি জনপ্রিয় পদ্ধতি, এর অর্থ এটি সমস্যার মূল নির্ধারণ করে। সুতরাং আপনার সমস্ত উদাহরণের জন্য, এলোমেলোভাবে প্রতিটি বারের সংখ্যাগরিষ্ঠের মধ্যে 1,000 নির্বাচন করা কাজ করবে। এমনকি আপনি 10 টি মডেল তৈরির মাধ্যমে প্রায় 1000 টি (100 সংখ্যালঘরের তুলনায় 1000 সংখ্যাগরিষ্ঠের 10 ভাজ) তৈরি করতে পারেন যাতে আপনি আপনার সম্পূর্ণ ডেটা সেটটি ব্যবহার করবেন। আপনি এই পদ্ধতিটি ব্যবহার করতে পারেন, তবে আবার কিছু ধরণের পদ্ধতি ব্যবহার না করে আপনি আবার 9,000 নমুনা ফেলে দিতে চান। সহজ ফিক্স, তবে আপনার ডেটার উপর ভিত্তি করে একটি অনুকূল মডেল পাওয়া শক্ত।
শ্রেণীর ভারসাম্যহীনতার জন্য আপনার যে ডিগ্রিটি নিয়ন্ত্রণ করতে হবে তা মূলত আপনার লক্ষ্যের উপর ভিত্তি করে। আপনি যদি খাঁটি শ্রেণিবিন্যাস সম্পর্কে চিন্তা করেন তবে ভারসাম্যহীনতা বেশিরভাগ কৌশলগুলির জন্য প্রায় 50% সম্ভাব্যতা কেটে যাবে, তাই আমি ডাউন স্যাম্পলিং বিবেচনা করব। আপনি যদি কেবল শ্রেণিবিন্যাসের ক্রমটির বিষয়ে চিন্তা করেন (ইতিবাচকগুলি সাধারণত নেতিবাচকদের চেয়ে বেশি উচ্চতর চান) এবং এটিউ এর মতো একটি পরিমাপ ব্যবহার করেন, শ্রেণি ভারসাম্যহীনতা কেবল আপনার সম্ভাবনার পক্ষপাত করবে, তবে বেশিরভাগ কৌশলগুলির জন্য আপেক্ষিক ক্রমটি শালীনভাবে স্থিতিশীল হওয়া উচিত।
শ্রেণি ভারসাম্যহীনতার জন্য লজিস্টিক রিগ্রেশনটি দুর্দান্ত কারণ আপনার কাছে যতক্ষণ না সংখ্যালঘু শ্রেণীর ৫০০ থাকে ততক্ষণ প্যারামিটারগুলির অনুমান যথেষ্ট সঠিক হবে এবং কেবলমাত্র বিরতিতে প্রভাব পড়বে, যা যদি আপনার কিছু হতে পারে তবে এটি সংশোধন করা যেতে পারে চাই। লজিস্টিক রিগ্রেশন কেবলমাত্র ক্লাসগুলির চেয়ে সম্ভাবনার মডেল করে, যাতে আপনি আপনার প্রয়োজন অনুসারে আরও ম্যানুয়াল অ্যাডজাস্টমেন্ট করতে পারেন।
শ্রেণিবিন্যাসের অনেক কৌশলতে একটি শ্রেণীর ওজন যুক্তিও রয়েছে যা আপনাকে সংখ্যালঘু শ্রেণীর দিকে আরও ফোকাস করতে সহায়তা করবে। এটি সত্য সংখ্যালঘু শ্রেণীর মিস শ্রেণিবিন্যাসকে শাস্তি দেবে, সুতরাং আপনার সামগ্রিক নির্ভুলতা কিছুটা হলেও ক্ষতিগ্রস্ত হবে তবে আপনি আরও সংখ্যালঘু শ্রেণিগুলি দেখতে শুরু করবেন যা সঠিকভাবে শ্রেণিবদ্ধ হয়েছে।