শ্রেণিবিন্যাসে এটি একটি আকর্ষণীয় এবং খুব ঘন ঘন সমস্যা - কেবল সিদ্ধান্ত গাছগুলিতে নয় কার্যত সমস্ত শ্রেণিবিন্যাস অ্যালগরিদমে।
আপনি যেমন অনুগতভাবে খুঁজে পেয়েছেন, উভয় শ্রেণীর বিভিন্ন সংখ্যক প্রতিনিধি সমন্বিত একটি প্রশিক্ষণ সেটটি একটি শ্রেণিবদ্ধ হতে পারে যা সংখ্যাগরিষ্ঠ শ্রেণির পক্ষপাতদুষ্ট। একইভাবে ভারসাম্যহীন কোনও পরীক্ষার সেটটিতে প্রয়োগ করা হলে, এই শ্রেণিবদ্ধকারীটি একটি আশাবাদী নির্ভুলতার প্রাক্কলন দেয়। চরম ক্ষেত্রে, শ্রেণিবদ্ধকারী প্রতিটি পরীক্ষার কেসটি সংখ্যাগরিষ্ঠ শ্রেণীর কাছে অর্পণ করতে পারে, যার ফলে সংখ্যাগরিষ্ঠ শ্রেণীর অন্তর্ভুক্ত পরীক্ষার মামলার অনুপাতের সমান নির্ভুলতা অর্জন করতে পারে। এটি বাইনারি শ্রেণিবদ্ধকরণের একটি সুপরিচিত ঘটনা (এবং এটি প্রাকৃতিকভাবে বহু-শ্রেণীর সেটিংসে প্রসারিত)।
এটি একটি গুরুত্বপূর্ণ সমস্যা, কারণ ভারসাম্যহীন ডেটাসেটটি স্ফীত পারফরম্যান্সের অনুমানের দিকে নিয়ে যেতে পারে। পরিবর্তে এটি অ্যালগরিদম যে সুযোগের চেয়ে আরও ভাল পারফরম্যান্স করেছে তার তাত্পর্য সম্পর্কে ভ্রান্ত সিদ্ধান্তে নিয়ে যেতে পারে।
এই বিষয়টিতে মেশিন-লার্নিং সাহিত্য মূলত তিনটি সমাধান কৌশল তৈরি করেছে।
আপনি এটির ট্রেনিং সেট -এর ওপর ভারসাম্য পুনরুদ্ধার করতে পারেন undersampling বৃহৎ বর্গ বা oversampling ছোট বর্গ, প্রথম স্থানে উদ্ভূত থেকে পক্ষপাত প্রতিরোধ।
বিকল্পভাবে, আপনি পক্ষপাত প্রতিরোধের জন্য আবার পূর্ববর্তী প্রতিক্রিয়া হিসাবে উল্লিখিত হিসাবে ভুল সংশোধন ব্যয়গুলি সংশোধন করতে পারেন।
ϕ:=12(π++π−),π+π−
আমি একযোগে উপরোক্ত দুটি পদ্ধতির মধ্যে কমপক্ষে দুটি বিবেচনা করার পরামর্শ দেব। উদাহরণস্বরূপ, আপনি আপনার শ্রেণিবদ্ধকারীকে সংখ্যাগরিষ্ঠ শ্রেণির পক্ষে পক্ষপাত অর্জন থেকে বিরত রাখতে আপনার সংখ্যালঘু শ্রেণীর উপর নজর রাখতে পারেন। এটি অনুসরণ করে, যখন আপনার শ্রেণিবদ্ধের পারফরম্যান্সটি মূল্যায়ন করবেন, আপনি ভারসাম্য নির্ভুলতার দ্বারা নির্ভুলতার প্রতিস্থাপন করতে পারেন। দুটি পদ্ধতির পরিপূরক। যখন একসাথে প্রয়োগ করা হয়, তখন তাদের দু'জনকেই আপনার মূল সমস্যাটি রোধ করতে এবং এ থেকে অনুসরণ করা ভুল সিদ্ধান্ত এড়াতে সহায়তা করা উচিত।
আপনি যদি এই সম্পর্কে অনুসরণ করতে চান তবে আমি সাহিত্যের কিছু অতিরিক্ত রেফারেন্স পোস্ট করে খুশি হব।