প্রথমত, আমি কিছু সাধারণ বিন্যাস বর্ণনা করতে চাই যা ডেটা মাইনিং বইগুলি ভারসাম্যহীন ডেটাসেটগুলি কীভাবে মোকাবেলা করতে হবে তা ব্যাখ্যা করে ব্যবহার করে । সাধারণত মূল বিভাগটির নাম ভারসাম্যহীন ডেটাসেটস রাখা হয় এবং এগুলি এই দুটি সাব-সেকশনগুলি কভার করে: ব্যয়-সংবেদনশীল শ্রেণিবিন্যাস এবং নমুনা কৌশল।
দেখে মনে হচ্ছে যে বিরল শ্রেণীর কোনও সমস্যার মুখোমুখি আপনি ব্যয়-সংবেদনশীল শ্রেণিবদ্ধকরণ এবং নমুনা উভয়ই করতে পারেন। পরিবর্তে, আমি মনে করি যে দুর্লভ শ্রেণীর শ্রেণিবিন্যাসের লক্ষ্য এবং সেই শ্রেণীর একটি রেকর্ডের ভুল শৃঙ্খলাবদ্ধ ব্যয়বহুল হলে সেই ক্ষেত্রে ব্যয় সংবেদনশীল কৌশল প্রয়োগ করা উচিত।
অন্যদিকে, ওভার-স্যাম্পলিং এবং আন্ডার-স্যাম্পলিংয়ের মতো স্যাম্পলিং কৌশলগুলি কার্যকর হয় যদি শ্রেণিবিন্যাসের লক্ষ্য একটি নির্দিষ্ট শ্রেণীর দিকে মনোনিবেশ না করে সামগ্রিকভাবে একটি ভাল যথার্থতা হয়।
এই বিশ্বাসটি মেটাকোস্টের যুক্তি থেকে এসেছে যা শ্রেণিবদ্ধকারীকে ব্যয়বহুল সংবেদনশীল করার একটি সাধারণ উপায়: যদি কেউ বিরল শ্রেণীর একটি ভুল শংসাপত্রের ত্রুটিটিকে শাস্তি দেওয়ার জন্য কোনও শ্রেণিবদ্ধকারীকে ব্যয় সংবেদনশীল করতে চায় তবে তাকে অন্য শ্রেণীর চেয়ে বেশি নমুনা দেওয়া উচিত । মোটামুটিভাবে বলতে গেলে, শ্রেণিবদ্ধকারী অন্য শ্রেণীর সাথে খাপ খাইয়ে নেওয়ার চেষ্টা করে এবং এটি বিরল শ্রেণীর কাছে নির্দিষ্ট হয়ে যায়।
এটি বিরল শ্রেণীর অতিরিক্ত নমুনা দেওয়ার বিপরীত, এই সমস্যাটি মোকাবেলার জন্য সাধারণত পরামর্শ দেওয়া উপায়। সামগ্রিক নির্ভুলতার উন্নতি করতে বিরল শ্রেণীর ওভার স্যাম্পলিং বা অন্য শ্রেণির আন্ডার স্যাম্পলিং কার্যকর।
দয়া করে, আপনি যদি আমার চিন্তাভাবনাগুলি নিশ্চিত করেন তবে এটি দুর্দান্ত হবে।
এটি উল্লেখ করা হয়েছে, ভারসাম্যহীন ডেটাসেটের মুখোমুখি সাধারণ প্রশ্নটি হ'ল:
আমার কি এমন ডেটাসেট পাওয়ার চেষ্টা করা উচিত যা অন্যের তুলনায় অনেক বিরল রেকর্ডকে গণনা করে?
আমার উত্তরটি হ'ল আপনি যদি নির্ভুলতার সন্ধান করছেন: ঠিক আছে। আপনি এটি বিরল শ্রেণীর উদাহরণগুলি সন্ধান করে বা অন্য শ্রেণীর কিছু রেকর্ড মুছে ফেলাতে পারেন।
আপনি যদি ব্যয় সংবেদনশীল কৌশল নিয়ে বিরল শ্রেণীর দিকে মনোনিবেশ করেন তবে আমি উত্তর দেব: আপনি কেবলমাত্র আরও বিরল শ্রেণির উদাহরণ খুঁজে পেতে পারেন তবে অন্য শ্রেণীর রেকর্ডগুলি মুছবেন না। পরবর্তী ক্ষেত্রে আপনি শ্রেণিবদ্ধকারীটিকে অন্য শ্রেণীর সাথে খাপ খাইয়ে নিতে সক্ষম হবেন না এবং বিরল শ্রেণীর ভুল শ্রেণিবিন্যাস ত্রুটি বাড়তে পারে।
আপনি কি উত্তর দেবেন?