আমার 'মেশিন লার্নিং' কাজটি হ'ল সৌখিন ইন্টারনেট ট্র্যাফিককে দূষিত ট্র্যাফিক থেকে আলাদা করা। বাস্তব বিশ্বের পরিস্থিতিতে, ইন্টারনেট ট্র্যাফিক সর্বাধিক (90% বা তার বেশি বলুন) সৌম্য। সুতরাং আমি অনুভব করেছি যে আমার মডেলগুলিকে প্রশিক্ষণের জন্যও আমার অনুরূপ ডেটা সেটআপ চয়ন করা উচিত। তবে আমি একটি গবেষণামূলক কাগজ পেরিয়ে এসেছি বা দুটি (আমার কাজের ক্ষেত্রে) যা মডেলগুলিকে প্রশিক্ষণের জন্য "ক্লাস ব্যালেন্সিং" ডেটা পদ্ধতির ব্যবহার করেছে, এটি সৌম্য এবং দূষিত ট্র্যাফিকের সমান সংখ্যক উদাহরণকে বোঝায়।
সাধারণভাবে, যদি আমি মেশিন লার্নিং মডেলগুলি তৈরি করছি, আমি কি এমন কোনও ডেটাসেটের জন্য যাব যা বাস্তব বিশ্বের সমস্যার প্রতিনিধিত্ব করবে, বা মডেলগুলি তৈরির জন্য উপযুক্ত ভারসাম্যযুক্ত ডেটাসেট (যেহেতু নির্দিষ্ট শ্রেণিবদ্ধরা শ্রেণি ভারসাম্যহীনতার সাথে ভাল আচরণ করে না, বা অন্যান্য কারণে আমার জানা নেই)?
ক্যান কেউ উপর আরো আলোকপাত অনুকূল এবং কনস উভয় পছন্দের এবং কিভাবে যা একটি বেছে নিন যান করার সিদ্ধান্ত নেন কিভাবে?