হ্যাঁ, কাপা সম্পর্কে আপনার অনুমানগুলি সঠিক বলে মনে হচ্ছে। একা হিসাবে ক্যাপ্পা, স্কেলার মেট্রিকগুলি বেশিরভাগ ক্ষেত্রে এবং যথাযথতার মতো অন্যান্য একক, স্কেলার মেট্রিকগুলির তুলনায় সুবিধা, যা ছোট শ্রেণির পূর্বাভাসের পারফরম্যান্সকে প্রতিফলিত করে না (যে কোনও বৃহত্তর শ্রেণীর পারফরম্যান্স দ্বারা ছায়া)। কপ্পা আরও উল্লেখযোগ্যভাবে এই সমস্যাটি সমাধান করেছেন, যেমন আপনি উল্লেখ করেছেন।
আপনার পারফরম্যান্স পরিমাপ করতে কাপুর মতো মেট্রিক ব্যবহার করা আপনার মডেলটি কীভাবে ডেটার সাথে ফিট করে তা অগত্যা বাড়বে না। আপনি বেশ কয়েকটি মেট্রিক ব্যবহার করে যে কোনও মডেলের পারফরম্যান্স পরিমাপ করতে পারবেন, তবে অন্যান্য পরামিতিগুলি (যেমন হাইপারপ্যারামিটার) ব্যবহার করে মডেল কীভাবে ডেটা ফিট করে তা নির্ধারণ করা হয়। সুতরাং আপনি উদাহরণস্বরূপ আপনার খুব ভারসাম্যহীন সমস্যার জন্য একাধিক পছন্দের মধ্যে সর্বোত্তম উপযুক্ত মডেল টাইপ এবং হাইপারপ্যারমেট্রাইজেশন চয়ন করার জন্য কাপা ব্যবহার করতে পারেন - তবে কেবল মডেল আপনার ভারসাম্যহীন ডেটা ফিট করে কীভাবে কাপ্পা পরিবর্তন করবেন না।
বিভিন্ন মেট্রিকের জন্য: কাপা এবং যথার্থ / পুনর্বিবেচনার পাশাপাশি সত্য পজিটিভ এবং সত্য নেতিবাচক হারগুলি টিপিআর / টিএনআর এবং আরওসি বক্ররেখা এবং বক্ররেখার এওসি এর আওতাধীন অঞ্চলও একবার দেখুন। এগুলির মধ্যে কোনটি আপনার সমস্যার জন্য দরকারী তা বেশিরভাগই আপনার লক্ষ্যের বিশদের উপর নির্ভর করবে। উদাহরণস্বরূপ, টিপিআর / টিএনআর এবং যথার্থতা / প্রত্যাহারগুলিতে প্রতিবিম্বিত বিভিন্ন তথ্য: আসলে আপনার মতো জালিয়াতির একটি উচ্চ ভাগ চিহ্নিত করা এবং বৈধ লেনদেনের একটি উচ্চ ভাগ যেমন সনাক্ত করা হয়েছে, এবং / বা ভাগকে হ্রাস করা আপনার লক্ষ্য? সমস্ত অ্যালার্মগুলিতে ভুয়া অ্যালার্মের (যা আপনি স্বাভাবিকভাবেই এই জাতীয় সমস্যায় "en ভর" পাবেন)?
আপ / ডাউনস্যাম্পলিংয়ের জন্য: আমি মনে করি "যদি প্রয়োজন হয় তবে" এর কোনও প্রাসঙ্গিক উত্তর নেই। তারা আপনার সমস্যাটিকে মানিয়ে নেওয়ার আরও একটি উপায়। প্রযুক্তিগতভাবে: হ্যাঁ, আপনি এগুলি ব্যবহার করতে পারেন, তবে যত্ন সহকারে ব্যবহার করুন, বিশেষত উত্সবকরণ (আপনি এটি অবহেলা না করে অবাস্তব নমুনা তৈরির সমাপ্তি করতে পারেন) - এবং সচেতন থাকুন যে উভয় শ্রেণির নমুনার ফ্রিকোয়েন্সিটি বন্যের মধ্যে "বাস্তবসম্মত নয়" এমন কিছুতে পরিবর্তন করা "ভবিষ্যদ্বাণী পারফরম্যান্সেও নেতিবাচক প্রভাব ফেলতে পারে। কমপক্ষে চূড়ান্ত, আউট-আউট টেস্ট সেটটি আবার নমুনার বাস্তব জীবনের ফ্রিকোয়েন্সি প্রতিবিম্বিত করা উচিত। নীচের লাইন: আমি উভয় ক্ষেত্রেই দেখেছি যেখানে করা বা না করা - / বা ডাউনসাম্পলিংয়ের ফলে আরও ভাল চূড়ান্ত ফলাফল পাওয়া যায়, সুতরাং এটি এমন একটি বিষয় যা আপনার চেষ্টা করার প্রয়োজন হতে পারে (তবে আপনার পরীক্ষার সেটগুলিতে হেরফের করবেন না!) ।