উপরের উত্তর দুটি ভাল।
তবে আমি যে বিষয়টিটি উল্লেখ করতে চাই তা হ'ল এউসি (আরওসি এর আওতাধীন অঞ্চল) সমস্যাযুক্ত বিশেষত ডেটা ভারসাম্যহীন (যার ফলে অত্যন্ত স্কিউড: স্কিউ বড়)। কর্ম সনাক্তকরণ, জালিয়াতি সনাক্তকরণ, দেউলিয়ার পূর্বাভাস Ect এ এই জাতীয় পরিস্থিতি খুব সাধারণ। এটি হ'ল, আপনি যে ইতিবাচক উদাহরণগুলি দেখেন সেগুলির তুলনামূলকভাবে কম হার রয়েছে।এসk e w = n e ga t i v ee x a m p l e sপ ও এস আই টি আই ভি ইe x a m p l e s
ভারসাম্যহীন ডেটা সহ, এটিসি এখনও আপনাকে 0.8 এর আশেপাশে বিশিষ্ট মান দেয়। তবে এটি বৃহত টিপি (সত্য ধনাত্মক) এর চেয়ে বড় এফপির কারণে বেশি।
যেমন নীচের উদাহরণ হিসাবে,
TP=155, FN=182
FP=84049, TN=34088
সুতরাং আপনি যখন ক্লাসিফায়ারের পারফরম্যান্স পরিমাপ করতে AUC ব্যবহার করেন তখন সমস্যা হ'ল এটিউ এর ক্রমবর্ধমানতা আসলে কোনও ভাল শ্রেণিবদ্ধার প্রতিফলন করে না। এটি কেবলমাত্র অনেকগুলি নেতিবাচক উদাহরণের পার্শ্ব-প্রতিক্রিয়া। আপনি কেবল আপনার ডাটাসেট চেষ্টা করতে পারেন।
পারফরম্যান্স মেট্রিক্সের ব্যবহারের জন্য ভারসাম্যহীন ডেটা সুপারিশগুলির মুখোমুখি কাগজটি পাওয়া গেছে "যখন আরওসি স্কিউ দ্বারা প্রভাবিত ছিল না, নির্ভুলতা পুনরুদ্ধার কার্ভগুলি বোঝায় যে কিছু ক্ষেত্রে আরওসি খারাপ কর্মক্ষমতাটি মাস্ক করতে পারে।" ভাল পারফরম্যান্সের মেট্রিকগুলির জন্য অনুসন্ধান করা এখনও একটি মুক্ত প্রশ্ন। একটি সাধারণ এফ 1-স্কোর
এফβ= ( 1 + β)2) ⋅ p r e c i s i o n ⋅ r e c a l l( β)2⋅ p r e c i s i o n ) + r e c a l l
যেখানে মনে করার সাথে তুলনা করার নির্ভুলতার তুলনামূলক গুরুত্ব।β
তারপরে, ভারসাম্যহীন ডেটার জন্য আমার পরামর্শগুলি এই পোস্টের মতো । আপনি ডেসাইল টেবিলটিও চেষ্টা করতে পারেন, যা "দু-বাই দুই শ্রেণিবদ্ধকরণ এবং ডেসাইল সারণী" অনুসন্ধান করে তৈরি করা যেতে পারে। ইতিমধ্যে, আমি এই সমস্যাটি নিয়েও অধ্যয়ন করছি এবং আরও ভাল পরিমাপ দেব।