সত্যিই দুর্দান্ত প্রশ্ন এবং একটি যা আমি দেখতে পেয়েছি যে বেশিরভাগ মানুষ সত্যিকার অর্থেই স্বজ্ঞাত স্তরে বুঝতে পারে না। AUC
বিভিন্ন কারণে বিভিন্ন কারণে বাইনারি শ্রেণিবদ্ধকরণের জন্য প্রায়শই যথার্থতার চেয়ে বেশি পছন্দ হয়। প্রথমে যদিও আসুন ঠিক কী AUC
তা নিয়ে কথা বলা যাক । সত্যিই, সর্বাধিক ব্যবহৃত কার্যকর কার্যকারিতা মেট্রিকগুলির একজন হওয়ার জন্য, ঠিক কীভাবে AUC
কাজ করে তা নির্ধারণ করা অবাক করে দেওয়া অবসন্ন ।
AUC
দাঁড়ায় Area Under the Curve
, আপনি কোন বাঁক জিজ্ঞাসা? ঠিক আছে, যে ROC
বক্ররেখা হবে। রিসিভার অপারেটিং চরিত্রগত বলতেROC
বোঝায় যা আসলে কিছুটা স্বজ্ঞাত নয়। এর অন্তর্নিহিত লক্ষ্য হ'ল এমন পরিস্থিতিগুলি মোকাবেলা করা যেখানে আপনার খুব স্কিউল নমুনা বন্টন রয়েছে এবং আপনি কোনও একক শ্রেণীর সাথে বেশি মানা করতে চান না।AUC
একটি দুর্দান্ত উদাহরণ স্প্যাম সনাক্তকরণে। সাধারণত, স্প্যাম ডেটাসেটগুলি হ্যাম, বা স্প্যাম নয়-এর প্রতি শক্তিশালী পক্ষপাতযুক্ত। যদি আপনার ডেটা সেটটি 90% হ্যাম হয় তবে আপনি প্রতিটি একক ইমেল হ্যাম বলে এই কথাটি বলে খুব সুন্দর সুন্দর নির্ভুলতা পেতে পারেন, এটি সম্ভবত একটি আদর্শ যা শ্রেণিবদ্ধকে নির্দেশ করে। আসুন কয়েকটি মেট্রিক দিয়ে শুরু করি যা আমাদের জন্য কিছুটা বেশি কার্যকর, বিশেষত সত্য ধনাত্মক হার ( TPR
) এবং মিথ্যা ধনাত্মক হার ( FPR
):
এখন এই গ্রাফে, TPR
বিশেষত সমস্ত ধনাত্মকগুলির জন্য সত্য ধনাত্মক অনুপাত, এবং FPR
সমস্ত নেতিবাচক কাছে মিথ্যা ধনাত্মক অনুপাত। (মনে রাখবেন, এটি কেবল বাইনারি শ্রেণিবদ্ধকরণের জন্য।) এর মতো গ্রাফের উপর, এটি নির্ধারণ করা খুব সোজা হওয়া উচিত যে সমস্ত 0 বা সমস্ত 1 এর পূর্বাভাসের ফলস্বরূপ (0,0)
এবং (1,1)
যথাক্রমে পয়েন্টগুলি ঘটবে । আপনি যদি এই লাইনের মধ্য দিয়ে একটি রেখা আঁকেন তবে আপনি এরকম কিছু পাবেন:
যা মূলত তির্যক রেখার মতো দেখাচ্ছে (এটি হ'ল) এবং কিছু সহজ জ্যামিতির দ্বারা আপনি দেখতে পাবেন যে এই AUC
জাতীয় মডেলটি হবে 0.5
(উচ্চতা এবং ভিত্তি উভয় 1)। একইভাবে, আপনি যদি 0 এবং 1 এর এলোমেলো ভাণ্ডার পূর্বাভাস করেন তবে আসুন 90% 1 এর কথা বলা যাক, আপনি পয়েন্টটি পেতে পারেন (0.9, 0.9)
যা আবার সেই তির্যক লাইনের সাথে পড়ে falls
এখন আকর্ষণীয় অংশ আসে। আমরা যদি 0 এবং 1 এর পূর্বাভাস না দিই তবে কী হবে? তার পরিবর্তে, আমরা কী বলতে চাই যে, তাত্ত্বিকভাবে আমরা একটি কাটঅফ সেট করতে যাচ্ছিলাম যার উপরে প্রতিটি ফলাফল 1 ছিল এবং নীচে প্রতিটি ফলাফল 0 ছিল This এর অর্থ হ'ল চূড়ান্ত স্থানে আপনি আসল পরিস্থিতি পাবেন যেখানে আপনি সমস্ত 0 এবং সমস্ত 1 রয়েছে (যথাক্রমে 0 এবং 1 এর কাট অফে), তবে মধ্যবর্তী রাষ্ট্রগুলির একটি সিরিজও 1x1
রয়েছে যা আপনার গ্রাফের মধ্যে পড়ে ROC
। অনুশীলনে আপনি এই জাতীয় কিছু পান:
সুতরাং মূলত, আপনি যখন AUC
অত্যধিক নির্ভুলতা করছেন তখন আপনি যা অর্জন করছেন তা হ'ল এমন কিছু যা দৃ representative়ভাবে প্রতিনিধিদের মডেলগুলির জন্য যাওয়া লোকদের নিরুৎসাহিত করবে, তবে বৈষম্যমূলক নয়, কারণ এটি কেবলমাত্র এমন মডেলগুলির জন্য বেছে নেবে যা মিথ্যা ইতিবাচক এবং সত্য ইতিবাচক হারগুলি অর্জন করে যে এলোমেলো সুযোগের তুলনায় উল্লেখযোগ্যভাবে উপরে, যা সঠিকতার জন্য গ্যারান্টিযুক্ত নয়।