ধরুন আমি এমন একটি শ্রেণিবদ্ধ শিখতে চাই যা পূর্বাভাস দেয় যে কোনও ইমেল স্প্যাম কিনা। এবং ধরুন কেবলমাত্র 1% ইমেল স্প্যাম।
সবচেয়ে সহজ কাজটি হ'ল তুচ্ছ শ্রেণিবদ্ধ শিখতে হবে যা বলে যে কোনও ইমেল স্প্যাম নয়। এই শ্রেণিবদ্ধকারী আমাদের 99% নির্ভুলতা দেবে, তবে এটি আকর্ষণীয় কিছু শিখবে না এবং এতে মিথ্যা নেতিবাচকতার 100% হার থাকবে।
এই সমস্যাটি সমাধান করার জন্য, লোকেরা আমাকে "ডাউনস্যাম্পল" করতে বলেছেন, বা উপাত্তের উপসেটটি শিখুন যেখানে 50% উদাহরণ স্প্যাম এবং 50% স্প্যাম নয়।
তবে আমি এই পদ্ধতির বিষয়ে উদ্বিগ্ন, যেহেতু একবার আমরা এই শ্রেণিবদ্ধটি তৈরি করি এবং এটি ইমেলগুলির আসল কর্পাসে ব্যবহার করতে শুরু করি (50/50 পরীক্ষার সেটগুলির বিপরীতে), এটি ভবিষ্যদ্বাণী করতে পারে যে অনেক ইমেল স্প্যাম হয় যখন তারা ' সত্যিই না। এটি কেবলমাত্র ডেটাসেটে থাকা চেয়ে স্প্যাম দেখার অভ্যস্ত।
তাহলে আমরা কীভাবে এই সমস্যাটি সমাধান করব?
("আপসাম্পলিং," বা একাধিকবার ইতিবাচক প্রশিক্ষণের উদাহরণগুলি পুনরাবৃত্তি করা যাতে ৫০% ডেটা ধনাত্মক প্রশিক্ষণের উদাহরণ, একই রকম সমস্যায় ভুগছে বলে মনে হয়।)