সত্যিই দুর্দান্ত প্রশ্ন এবং একটি যা আমি দেখতে পেয়েছি যে বেশিরভাগ মানুষ সত্যিকার অর্থেই স্বজ্ঞাত স্তরে বুঝতে পারে না। AUCবিভিন্ন কারণে বিভিন্ন কারণে বাইনারি শ্রেণিবদ্ধকরণের জন্য প্রায়শই যথার্থতার চেয়ে বেশি পছন্দ হয়। প্রথমে যদিও আসুন ঠিক কী AUCতা নিয়ে কথা বলা যাক । সত্যিই, সর্বাধিক ব্যবহৃত কার্যকর কার্যকারিতা মেট্রিকগুলির একজন হওয়ার জন্য, ঠিক কীভাবে AUCকাজ করে তা নির্ধারণ করা অবাক করে দেওয়া অবসন্ন ।
AUCদাঁড়ায় Area Under the Curve, আপনি কোন বাঁক জিজ্ঞাসা? ঠিক আছে, যে ROCবক্ররেখা হবে। রিসিভার অপারেটিং চরিত্রগত বলতেROC বোঝায় যা আসলে কিছুটা স্বজ্ঞাত নয়। এর অন্তর্নিহিত লক্ষ্য হ'ল এমন পরিস্থিতিগুলি মোকাবেলা করা যেখানে আপনার খুব স্কিউল নমুনা বন্টন রয়েছে এবং আপনি কোনও একক শ্রেণীর সাথে বেশি মানা করতে চান না।AUC
একটি দুর্দান্ত উদাহরণ স্প্যাম সনাক্তকরণে। সাধারণত, স্প্যাম ডেটাসেটগুলি হ্যাম, বা স্প্যাম নয়-এর প্রতি শক্তিশালী পক্ষপাতযুক্ত। যদি আপনার ডেটা সেটটি 90% হ্যাম হয় তবে আপনি প্রতিটি একক ইমেল হ্যাম বলে এই কথাটি বলে খুব সুন্দর সুন্দর নির্ভুলতা পেতে পারেন, এটি সম্ভবত একটি আদর্শ যা শ্রেণিবদ্ধকে নির্দেশ করে। আসুন কয়েকটি মেট্রিক দিয়ে শুরু করি যা আমাদের জন্য কিছুটা বেশি কার্যকর, বিশেষত সত্য ধনাত্মক হার ( TPR) এবং মিথ্যা ধনাত্মক হার ( FPR):

এখন এই গ্রাফে, TPRবিশেষত সমস্ত ধনাত্মকগুলির জন্য সত্য ধনাত্মক অনুপাত, এবং FPRসমস্ত নেতিবাচক কাছে মিথ্যা ধনাত্মক অনুপাত। (মনে রাখবেন, এটি কেবল বাইনারি শ্রেণিবদ্ধকরণের জন্য।) এর মতো গ্রাফের উপর, এটি নির্ধারণ করা খুব সোজা হওয়া উচিত যে সমস্ত 0 বা সমস্ত 1 এর পূর্বাভাসের ফলস্বরূপ (0,0)এবং (1,1)যথাক্রমে পয়েন্টগুলি ঘটবে । আপনি যদি এই লাইনের মধ্য দিয়ে একটি রেখা আঁকেন তবে আপনি এরকম কিছু পাবেন:

যা মূলত তির্যক রেখার মতো দেখাচ্ছে (এটি হ'ল) এবং কিছু সহজ জ্যামিতির দ্বারা আপনি দেখতে পাবেন যে এই AUCজাতীয় মডেলটি হবে 0.5(উচ্চতা এবং ভিত্তি উভয় 1)। একইভাবে, আপনি যদি 0 এবং 1 এর এলোমেলো ভাণ্ডার পূর্বাভাস করেন তবে আসুন 90% 1 এর কথা বলা যাক, আপনি পয়েন্টটি পেতে পারেন (0.9, 0.9)যা আবার সেই তির্যক লাইনের সাথে পড়ে falls
এখন আকর্ষণীয় অংশ আসে। আমরা যদি 0 এবং 1 এর পূর্বাভাস না দিই তবে কী হবে? তার পরিবর্তে, আমরা কী বলতে চাই যে, তাত্ত্বিকভাবে আমরা একটি কাটঅফ সেট করতে যাচ্ছিলাম যার উপরে প্রতিটি ফলাফল 1 ছিল এবং নীচে প্রতিটি ফলাফল 0 ছিল This এর অর্থ হ'ল চূড়ান্ত স্থানে আপনি আসল পরিস্থিতি পাবেন যেখানে আপনি সমস্ত 0 এবং সমস্ত 1 রয়েছে (যথাক্রমে 0 এবং 1 এর কাট অফে), তবে মধ্যবর্তী রাষ্ট্রগুলির একটি সিরিজও 1x1রয়েছে যা আপনার গ্রাফের মধ্যে পড়ে ROC। অনুশীলনে আপনি এই জাতীয় কিছু পান:

সুতরাং মূলত, আপনি যখন AUCঅত্যধিক নির্ভুলতা করছেন তখন আপনি যা অর্জন করছেন তা হ'ল এমন কিছু যা দৃ representative়ভাবে প্রতিনিধিদের মডেলগুলির জন্য যাওয়া লোকদের নিরুৎসাহিত করবে, তবে বৈষম্যমূলক নয়, কারণ এটি কেবলমাত্র এমন মডেলগুলির জন্য বেছে নেবে যা মিথ্যা ইতিবাচক এবং সত্য ইতিবাচক হারগুলি অর্জন করে যে এলোমেলো সুযোগের তুলনায় উল্লেখযোগ্যভাবে উপরে, যা সঠিকতার জন্য গ্যারান্টিযুক্ত নয়।