সাম্প্রতিক, ভালভাবে উদ্ধৃত হওয়া প্রশ্নে টিম জিজ্ঞাসা করেছেন কখন মেশিন লার্নিংয়ে ভারসাম্যহীন ডেটা আসলেই সমস্যা ? প্রশ্নের ভিত্তি হ'ল ক্লাস ভারসাম্য এবং ভারসাম্যহীন ক্লাসগুলির সমস্যা নিয়ে আলোচনা করে প্রচুর মেশিন লার্নিং সাহিত্য রয়েছে । ধারণাটি হ'ল ধনাত্মক এবং নেতিবাচক শ্রেণীর মধ্যে ভারসাম্যহীন ডেটাসেটগুলি কিছু মেশিন লার্নিং শ্রেণিবিন্যাসের জন্য সমস্যা সৃষ্টি করে (আমি এখানে সম্ভাব্য মডেলগুলিও অন্তর্ভুক্ত করছি) অ্যালগরিদমগুলির জন্য, এবং পদ্ধতিগুলি ডেটাসেটকে "ভারসাম্য" বজায় রাখার জন্য নিখুঁত 50/50 পুনরুদ্ধার করতে হবে ধনাত্মক এবং নেতিবাচক শ্রেণীর মধ্যে বিভক্ত।
উচ্চতর উত্তরের উত্তরগুলির সাধারণ জ্ঞানটি হ'ল "আপনার মডেলিংয়ের বিষয়ে আপনি যদি চিন্তাভাবনা করে থাকেন তবে তা নয়"। এম। হেনরি এল, একটি গৃহীত উত্তরের একটি ভোট দেওয়া মন্তব্যে বলেছেন:
[...] ভারসাম্যহীন ডেটা ব্যবহার করে নিম্ন স্তরের সমস্যা নেই। আমার অভিজ্ঞতায়, "ভারসাম্যহীন ডেটা এড়ানোর" পরামর্শটি হয় হয় অ্যালগোরিদম-নির্দিষ্ট, বা উত্তরাধিকার সূত্রে প্রাপ্ত বুদ্ধি। আমি অ্যাডামোর সাথে একমত যে সাধারণভাবে, ভারসাম্যহীন ডেটা কোনও নির্দিষ্ট-সুনির্দিষ্ট মডেলটির কাছে কোনও ধারণাগত সমস্যা না দেয়।
অ্যাডামো যুক্তি দিয়েছিলেন যে শ্রেণীর ভারসাম্য নিয়ে "সমস্যা" সত্যই শ্রেণীর বিরলতার একটি
সুতরাং, কমপক্ষে রিগ্রেশন (তবে আমি সব পরিস্থিতিতেই সন্দেহ করি), ভারসাম্যহীন ডেটা নিয়ে একমাত্র সমস্যা হ'ল আপনি কার্যকরভাবে ছোট নমুনার আকার পান। যদি কোনও পদ্ধতি বিরল শ্রেণীর মানুষের সংখ্যার জন্য উপযুক্ত হয় তবে তাদের অনুপাতের সদস্যপদ ভারসাম্যহীন থাকলে কোনও সমস্যা হওয়া উচিত নয়।
যদি এটি হস্তে আসল সমস্যা হয় তবে এটি একটি মুক্ত প্রশ্ন রেখে যায়: ডেটাসেটের ভারসাম্য রক্ষার জন্য পুনরায় মডেলিংয়ের সমস্ত পদ্ধতির উদ্দেশ্য কী: ওভারসাম্পলিং, আন্ডার স্যাম্পলিং, স্মোট ইত্যাদি? স্পষ্টতই তারা একটি ছোট নমুনা আকারের স্পষ্টতই সমস্যাটি সমাধান করে না, আপনি কিছুই বাদ দিয়ে তথ্য তৈরি করতে পারবেন না!