এটিউ কিসের পক্ষে দাঁড়ায় এবং এটি কী?


228

উচ্চ এবং নিম্ন অনুসন্ধান করা হয়েছে এবং পূর্বাভাসের সাথে সম্পর্কিত কীভাবে এটিউসি বোঝায় বা তা খুঁজে পেতে সক্ষম হয় নি।


8
aucআপনি যে ট্যাগটি ব্যবহার করেছেন সেটির
টিম

4
কার্ভের নীচে অঞ্চল (অর্থাত্ আরওসি বক্ররেখা)
আন্দ্রেজ

7
এখানে পাঠকরাও নিম্নলিখিত থ্রেডে আগ্রহী হতে পারেন: আরওসি বক্ররেখা বোঝা
গাং

11
"অনুসন্ধান উচ্চ এবং নিম্ন" অভিব্যক্তিটি আকর্ষণীয় কারণ আপনি গুগলে "এউসি" বা "এউসি পরিসংখ্যান" টাইপ করে এটিউসি-র জন্য প্রচুর দুর্দান্ত সংজ্ঞা / ব্যবহারগুলি খুঁজে পেতে পারেন। যথাযথ প্রশ্ন অবশ্যই, কিন্তু এই বক্তব্যটি আমাকে সজাগ করে ফেলেছিল!
বেহাকাদ

3
আমি গুগল এউসি করেছি তবে বেশিরভাগ শীর্ষ ফলাফলগুলি এওসি = অঞ্চলটি বক্ররেখার সাথে স্পষ্টভাবে প্রকাশ করে না। এটি সম্পর্কিত প্রথম উইকিপিডিয়া পৃষ্ঠাতে এটি রয়েছে তবে অর্ধেক অবধি নামা না হওয়া পর্যন্ত। পূর্ববর্তী ক্ষেত্রে এটি বরং সুস্পষ্ট বলে মনে হয়! কিছু সত্যিই বিস্তারিত উত্তরের জন্য আপনাকে ধন্যবাদ
জোশ

উত্তর:


308

শব্দ সংক্ষেপ

এআরসি বেশিরভাগ সময় অরোককে বোঝাতে ব্যবহার করা হয়, যা মারক ক্লেসেন উল্লেখ করেছেন যে এওসি অস্পষ্ট (যদিও কোনও বক্ররেখা হতে পারে) অথচ এআরওসি নেই।


অরোকের ব্যাখ্যা

AUROC এর বেশ কয়েকটি সমতুল্য ব্যাখ্যা রয়েছে :

  • সমানভাবে টানা র‌্যান্ডম পজিটিভ যে প্রত্যাশাটি সমানভাবে টানা র‌্যান্ডম নেগেটিভের আগে স্থান পাবে।
  • ধনাত্মকগুলির প্রত্যাশিত অনুপাতটি সমানভাবে টানা এলোমেলো নেতিবাচক হওয়ার আগে স্থান পেয়েছে।
  • সমানভাবে আঁকানো এলোমেলো নেগেটিভের ঠিক আগে যদি র‌্যাঙ্কিং বিভক্ত হয় তবে প্রত্যাশিত সত্য ধনাত্মক হার।
  • Uniformণাত্মক প্রত্যাশিত অনুপাতটি একটি সমানভাবে টানা এলোমেলো ধনাত্মক হওয়ার পরে স্থান পেয়েছে।
  • প্রত্যাশিত মিথ্যা ধনাত্মক হারটি যদি অভিন্নভাবে আঁকা এলোমেলো ধনাত্মক পরে র‌্যাঙ্কিং বিভক্ত হয়।

আরও যাচ্ছি: কীভাবে অরোকের সম্ভাব্য ব্যাখ্যাটি পাওয়া যায়?


AUROC গণনা করা হচ্ছে

ধরুন আমাদের কাছে লজিস্টিক রিগ্রেশন এর মতো একটি সম্ভাব্য, বাইনারি শ্রেণিবদ্ধ রয়েছে।

আরওসি বক্ররেখা উপস্থাপনের আগে (= রিসিভার অপারেটিং চরিত্রগত বক্ররেখা) কনফিউশন ম্যাট্রিক্সের ধারণাটি বুঝতে হবে। আমরা যখন বাইনারি ভবিষ্যদ্বাণী করি তখন 4 ধরণের ফলাফল হতে পারে:

  • আমরা 0 পূর্বাভাস দিই যখন সত্য শ্রেণিটি আসলে 0 হয়: একে সত্য gণাত্মক বলা হয় , অর্থাৎ আমরা সঠিকভাবে অনুমান করি যে শ্রেণিটি নেতিবাচক (0)। উদাহরণস্বরূপ, কোনও অ্যান্টিভাইরাস ভাইরাস হিসাবে কোনও ক্ষতিকারক ফাইল সনাক্ত করতে পারেনি।
  • আমরা 0 এর পূর্বাভাস দিই যখন সত্য শ্রেণিটি আসলে 1: একে ফ্যালস নেগেটিভ বলা হয় , অর্থাৎ আমরা ভুলভাবে অনুমান করি যে শ্রেণিটি নেতিবাচক (0)। উদাহরণস্বরূপ, একটি অ্যান্টিভাইরাস কোনও ভাইরাস সনাক্ত করতে ব্যর্থ হয়েছিল।
  • আমরা 1 টি পূর্বাভাস দিচ্ছি যখন সত্য শ্রেণিটি আসলে 0 হয়: একে ফাল পজিটিভ বলা হয় , অর্থাৎ আমরা ভুলভাবে অনুমান করি যে শ্রেণিটি ইতিবাচক (1)। উদাহরণস্বরূপ, একটি অ্যান্টিভাইরাস কোনও ক্ষতিকারক ফাইলটিকে ভাইরাস হিসাবে বিবেচনা করে।
  • আমরা 1 এর পূর্বাভাস দিই যখন সত্য শ্রেণিটি আসলে 1: একে সত্য পজিটিভ বলা হয় , অর্থাৎ আমরা সঠিকভাবে অনুমান করি যে শ্রেণিটি ইতিবাচক (1)। উদাহরণস্বরূপ, একটি অ্যান্টিভাইরাস যথাযথভাবে একটি ভাইরাস সনাক্ত করেছে।

বিভ্রান্তির ম্যাট্রিক্স পেতে, আমরা মডেল দ্বারা তৈরি সমস্ত পূর্বাভাস পেরিয়েছি, এবং গণনা করি যে এই 4 ধরণের ফলাফলের প্রতিটি কতবার ঘটে:

এখানে চিত্র বর্ণনা লিখুন

একটি বিভ্রান্তির ম্যাট্রিক্সের এই উদাহরণে, শ্রেণিবদ্ধ করা হয়েছে এমন 50 টি ডাটা পয়েন্টগুলির মধ্যে 45 টি সঠিকভাবে শ্রেণিবদ্ধ করা হয়েছে এবং 5 টি ভুল শংসায়িত।

যেহেতু দুটি ভিন্ন মডেলের তুলনা করা প্রায়শই একাধিকটির চেয়ে একক মেট্রিক পাওয়া আরও সুবিধাজনক, তাই আমরা বিভ্রান্তির ম্যাট্রিক্স থেকে দুটি মেট্রিক গণনা করি, যা আমরা পরে একত্রিত করব:

  • সত্য পজিটিভ রেট ( টিপিআর ), ওরফে। সংবেদনশীলতা, আঘাত হার , এবং রিকল , যা হিসাবে সংজ্ঞায়িত করা হয় । স্বজ্ঞাতভাবে এই মেট্রিকটি ইতিবাচক ডেটা পয়েন্টগুলির অনুপাতের সাথে মিলে যায় যা সঠিকভাবে ধনাত্মক হিসাবে বিবেচিত হয়, সমস্ত ধনাত্মক ডেটা পয়েন্টের সাথে সম্মান করে। অন্য কথায়, উচ্চতর টিপিআর, আমরা যত কম পজিটিভ ডেটা পয়েন্ট মিস করব।TPTP+FN
  • মিথ্যা পজিটিভ রেট ( এফপিআর ), ওরফে। পড়া-আউট , যা হিসাবে সংজ্ঞায়িত করা হয় । স্বজ্ঞাতভাবে এই মেট্রিকটি নেতিবাচক ডেটা পয়েন্টগুলির অনুপাতের সাথে মিলে যায় যা ভুলভাবে সমস্ত নেতিবাচক ডেটা পয়েন্টের সাথে সম্মত হিসাবে ইতিবাচক হিসাবে বিবেচিত হয়। অন্য কথায়, উচ্চতর এফপিআর, আরও নেতিবাচক ডেটা পয়েন্টগুলি মিসক্লাসিফিকেশন হবে।FPFP+TN

এফপিআর এবং টিপিআরকে একটি একক মেট্রিকের সাথে সংযুক্ত করতে, আমরা প্রথমে দুটি প্রাক্তন মেট্রিককে লজিস্টিক রিগ্রেশনের জন্য অনেকগুলি পৃথক প্রান্তিক (উদাহরণস্বরূপ ) দিয়ে গণনা করি , তারপরে সেগুলি একটি গ্রাফে প্লট করুন, অ্যাবসিসায় এফপিআর মান এবং অর্ডিনেটে টিপিআর মান সহ। ফলস্বরূপ বক্ররেখাটিকে আরওসি বক্ররেখা বলা হয়, এবং আমরা যে মেট্রিকটিকে বিবেচনা করি তা এই বক্ররেখার এটিউসি, যাকে আমরা অরওসি বলি।0.00;0.01,0.02,,1.00

নিম্নলিখিত চিত্রটি গ্রাফিকভাবে অরোক দেখায়:

এখানে চিত্র বর্ণনা লিখুন

এই চিত্রটিতে, নীল অঞ্চলটি রিসিভার অপারেটিং চরিত্রগত (এআরওসি) এর বক্ররেখার সাথে থাকা অঞ্চলের সাথে মিলে যায়। তির্যকরে ড্যাশড লাইনটি আমরা একটি এলোমেলো পূর্বাভাসীর আরওসি বক্ররেখা উপস্থাপন করি: এর 0.5 টি এরওআরওসি রয়েছে। মডেলটি কার্যকর কিনা তা দেখার জন্য এলোমেলো ভবিষ্যদ্বাণী সাধারণত বেসলাইন হিসাবে ব্যবহৃত হয়।

আপনি যদি কিছু প্রথম হাতের অভিজ্ঞতা পেতে চান:


4
উজ্জ্বল ব্যাখ্যা। ধন্যবাদ. একটি প্রশ্ন কেবল যা আমি বুঝতে পেরেছি তা স্পষ্ট করার জন্য: আমি কি ঠিক বলছি যে এই গ্রাফটিতে একটি শক্ত নীল বর্গক্ষেত্রে আরওসি বক্ররেখা (এউসি = 1) থাকবে এবং এটি একটি ভাল পূর্বাভাসের মডেল হবে? আমি ধরে নিই এটি তাত্ত্বিকভাবে সম্ভব।
জোশ

25
@ জোশ হ্যাঁ, ঠিক আছে। AUROC 0 এবং 1 এর মধ্যে এবং AUROC = 1 এর অর্থ পূর্বাভাস মডেলটি নিখুঁত। প্রকৃতপক্ষে, আরও দূরে অরোকটি 0.5 থেকে হয়, আরও ভাল: যদি অরোক <0.5 হয়, তবে আপনার মডেলটি যে সিদ্ধান্ত নিয়েছে তা আপনাকে কেবল উল্টানো উচিত। ফলস্বরূপ, যদি অরোক = 0 হয় তবে এটি ভাল খবর কারণ একটি নিখুঁত মডেল পেতে আপনাকে কেবলমাত্র আপনার মডেলের আউটপুটটি উল্টাতে হবে।
ফ্রাঙ্ক ডারননকোর্ট

1
"বেশ কয়েকটি সমতুল্য ব্যাখ্যা" লিঙ্কটি নষ্ট হয়ে গেছে।
হাইটাও দু

1
অরোকের ব্যাখ্যায় "প্রত্যাশিত মিথ্যা ধনাত্মক হার যদি র‌্যাঙ্কিংটি অভিন্ন অঙ্কিত এলোমেলো ধনাত্মকতার পরে বিভক্ত হয়।", এটি (1 - এফপিআর) হওয়া উচিত না?
মুদিত জৈন

1
@ ryu576 আদর্শভাবে আরওসি বক্ররেখার পয়েন্ট সংখ্যা প্রকৃতপক্ষে পরীক্ষার নমুনার সংখ্যা।
ফ্রাঙ্ক ডারনকোর্ট

60

যদিও আমি পার্টিতে কিছুটা দেরি করেছি, তবে আমার 5 সেন্ট এখানে। @ ফ্র্যাঙ্কডেরননকোর্ট (+১) ইতিমধ্যে এওসি আরওসি এর সম্ভাব্য ব্যাখ্যার কথা উল্লেখ করেছে এবং আমার পছন্দের একটিটি তার তালিকার প্রথমটি (আমি ভিন্ন শব্দ ব্যবহার করি, তবে এটি একই):

P(score(x+)>score(x))

এই উদাহরণটি বিবেচনা করুন (auc = 0.68):

এখানে চিত্র বর্ণনা লিখুন

আসুন এটি অনুকরণ করার চেষ্টা করুন: এলোমেলো ধনাত্মক এবং নেতিবাচক উদাহরণগুলি আঁকুন এবং তারপরে ধনাত্মকগুলির তুলনায় positiveণাত্মক চেয়ে বেশি স্কোর হলে কেসের অনুপাত গণনা করুন

cls = c('P', 'P', 'N', 'P', 'P', 'P', 'N', 'N', 'P', 'N', 'P',
        'N', 'P', 'N', 'N', 'N', 'P', 'N', 'P', 'N')
score = c(0.9, 0.8, 0.7, 0.6, 0.55, 0.51, 0.49, 0.43, 0.42, 0.39, 0.33, 
          0.31, 0.23, 0.22, 0.19, 0.15, 0.12, 0.11, 0.04, 0.01)

pos = score[cls == 'P']
neg = score[cls == 'N']

set.seed(14)
p = replicate(50000, sample(pos, size=1) > sample(neg, size=1))
mean(p)

এবং আমরা 0.67926 পাই। বেশ কাছে, তাই না?

 

যাইহোক, আরআইতে সাধারণত আরওসি বক্ররেখা অঙ্কন এবং এওসি গণনা করার জন্য আরআরসিআর প্যাকেজ ব্যবহার করা হয়।

library('ROCR')

pred = prediction(score, cls)
roc = performance(pred, "tpr", "fpr")

plot(roc, lwd=2, colorize=TRUE)
lines(x=c(0, 1), y=c(0, 1), col="black", lwd=1)

auc = performance(pred, "auc")
auc = unlist(auc@y.values)
auc

এখানে চিত্র বর্ণনা লিখুন


খুশী হলাম। দ্বিতীয় ধূসর ব্লক অবশ্যই প্লট করার পদ্ধতিটি স্পষ্ট করে।
জোশ

+1 (আগে থেকে) উপরে আমি অন্য থ্রেডের সাথে লিঙ্ক করেছি যেখানে আপনি কোনও সম্পর্কিত বিষয়ে খুব সুন্দর অবদান রেখেছেন। এখানে @ ফ্রাঙ্কডারননকোর্টের পোস্টের প্রশংসা করা এবং এটি আরও বেরিয়ে আসতে সহায়তা করে।
গাং

1
আর প্যাকেজ দ্বারা উত্পাদিত আরওসি বক্ররেখায় রঙটি কী বোঝায়? আপনি কি এটিতে কিছু বিশদ যুক্ত করতে পারেন? ধন্যবাদ!
প্রদীপ

উপরের ধূসর বাক্সে ব্যাখ্যাটিতে সত্য ধনাত্মক এবং সত্য নেতিবাচক যুক্ত করতে সম্ভবত দরকারী হবে ? অন্যথায় এটি কিছুটা বিভ্রান্তি হতে পারে।
cbellei

42

গুরুত্বপূর্ণ বিবেচনাগুলি এই আলোচনার কোনওটিতে অন্তর্ভুক্ত নয়। উপরে উল্লিখিত পদ্ধতিগুলি অনুপযুক্ত থ্রেশহোল্ডিংকে আমন্ত্রণ জানায় এবং ভুল বৈশিষ্ট্যগুলি বেছে নিয়ে এবং তাদেরকে ভুল ওজন প্রদান করে অনুকূলিত হওয়া অনুচিত যথাযথ স্কোরিং নিয়মগুলি (অনুপাত) ব্যবহার করে।

অবিচ্ছিন্ন ভবিষ্যদ্বাণীগুলির দ্বিচোটোমাইজেশন অনুকূল সিদ্ধান্ত তত্ত্বের মুখে উড়ে যায়। আরওসি রেখাচিত্রগুলি কোনও কার্যক্ষম অন্তর্দৃষ্টি সরবরাহ করে না। গবেষকরা সুবিধাগুলি পরীক্ষা না করে এগুলি বাধ্যতামূলক হয়ে পড়েছে। তাদের একটি খুব বড় কালি আছে: তথ্য অনুপাত।

সর্বোত্তম সিদ্ধান্তগুলি "ইতিবাচক" এবং "negativeণাত্মক" বিবেচনা করে না বরং ফলাফলের সম্ভাব্য সম্ভাবনা। ইউটিলিটি / ব্যয় / ক্ষতির ফাংশন, যা আরওসি নির্মাণে কোনও ভূমিকা রাখে না তাই আরওসিগুলির অকেজোতা, ঝুঁকির প্রাক্কলনটিকে সর্বোত্তম (উদাহরণস্বরূপ, সর্বনিম্ন প্রত্যাশিত ক্ষতি) সিদ্ধান্তে অনুবাদ করতে ব্যবহৃত হয়।

একটি পরিসংখ্যানের মডেলের লক্ষ্য প্রায়শই একটি পূর্বাভাস দেওয়া হয় এবং বিশ্লেষকটি প্রায়শই সেখানে থামতে হবে কারণ বিশ্লেষক লোকসানের কার্যটি জানেন না। নিরপেক্ষভাবে বৈধতা দেওয়ার পূর্বাভাসের মূল উপাদানগুলি (উদাহরণস্বরূপ, বুটস্ট্র্যাপ ব্যবহার করে) হ'ল ভবিষ্যদ্বাণীমূলক বৈষম্য (এটি পরিমাপের একটি অর্ধ-ভাল উপায় হ'ল আরওসি এর আওতাধীন ক্ষেত্রের সমান হতে পারে তবে আপনি ডন না করলে আরও সহজে বোঝা যাবে 'টি আরওসি) এবং ক্রমাঙ্কন বক্ররেখা আঁকা। ক্রমাঙ্কন যাচাইকরণ সত্যই, সত্যিই প্রয়োজনীয় যদি আপনি পূর্বাভাসকে পরম স্কেল ব্যবহার করে থাকেন।

আরও তথ্যের জন্য বায়োমেডিকাল রিসার্চ এবং অন্যান্য অধ্যায়গুলির বায়োস্ট্যাটাস্টিকসে তথ্য ক্ষতির অধ্যায়টি দেখুন।


2
অন্যান্য প্রতিটি উত্তর গাণিতিক সূত্রগুলিতে কেন্দ্রীভূত করে যার কোন ব্যবহারিক উপযোগিতা নেই। এবং একমাত্র সঠিক উত্তরের সর্বনিম্ন upvotes রয়েছে।
সর্বোচ্চ

6
আমি এই বিষয়ে অধ্যাপক হ্যারেলের কাছ থেকে আপাতদৃষ্টিতে গুপ্ত উত্তরগুলি পেয়েছি - তারা যেভাবে আপনাকে কঠোরভাবে ভাবতে বাধ্য করে সেভাবে তারা দুর্দান্ত। আমার বিশ্বাস যে তিনি ইঙ্গিত দিচ্ছেন এটি হ'ল আপনি এইচআইভি (কাল্পনিক উদাহরণ) এর স্ক্রিনিং টেস্টে ভুয়া নেতিবাচক কেসগুলি গ্রহণ করতে চান না, এমনকি যদি উচ্চতর শতাংশ মিথ্যা নেগেটিভ গ্রহণ করে (একযোগে মিথ্যা ধনাত্মক হ্রাস করা) আপনার কাট অফ পয়েন্ট রাখতে পারে এউসি ম্যাক্সিমায় ima নৃশংস ওভারসিম্প্লিফিকেশন জন্য দুঃখিত।
আন্তনি পরল্লদা


17

AUC হ'ল বক্ররেখার ক্ষেত্রের জন্য একটি সংক্ষিপ্তসার । শ্রেণীবদ্ধ বিশ্লেষণে এটি ব্যবহৃত ব্যবহৃত মডেলগুলির মধ্যে কোনটি ক্লাসের সেরা পূর্বাভাস দেয় তা নির্ধারণ করতে ব্যবহৃত হয়।

এর প্রয়োগের একটি উদাহরণ হ'ল আরওসি বক্ররেখা। এখানে সত্য ধনাত্মক হারগুলি মিথ্যা ইতিবাচক হারের বিরুদ্ধে চক্রান্ত করা হয়েছে। নীচে একটি উদাহরণ। কোনও মডেলের জন্য নিকটতম এউসি 1 এ আসে, এটি তত ভাল। সুতরাং উচ্চতর এউসি সহ মডেলগুলি কম এওসিগুলির তুলনায় বেশি পছন্দ করা হয়।

দয়া করে মনে রাখবেন, আরওসি বক্ররেখা ছাড়াও অন্যান্য পদ্ধতি রয়েছে তবে সেগুলি সত্য ধনাত্মক এবং মিথ্যা ধনাত্মক হারগুলির সাথেও সম্পর্কিত, যেমন নির্ভুলতা-রিক্যাল, এফ 1-স্কোর বা লরেঞ্জ বক্ররেখা।

                                            একটি আরওসি বক্ররেখা উদাহরণ


2
আপনি কি দয়া করে 0/1 ফলাফলের একটি সাধারণ ক্রসওডিয়ালিফিকেশন প্রসঙ্গে আরওসি বক্ররেখা ব্যাখ্যা করতে পারেন? সেক্ষেত্রে কার্ভটি কীভাবে তৈরি করা হয়েছে তা আমি খুব ভাল করে বুঝতে পারি না।
কৌতুহল

9

τ

  1. A
  2. BA
  3. τ

P(A>τ)P(B>τ)

τAUC

আমরা পেতে:

AUC=01TPR(x)dx=01P(A>τ(x))dx
xxTPR

(1)AUC=Ex[P(A>τ(x))]
xU[0,1)

xFPR

x=FPR=P(B>τ(x))
x

P(B>τ(x))U
=>P(B<τ(x))(1U)U
(2)=>FB(τ(x))U

XFX(Y)UYX

FX(X)=P(FX(x)<X)=P(X<FX1(X))=FXFX1(X)=X

τ(x)B

এটি সমীকরণে প্রতিস্থাপন (1) আমরা পাই:

AUC=Ex(P(A>B))=P(A>B)

অন্য কথায়, বক্ররেখার নীচের অঞ্চলটি সম্ভবত একটি এলোমেলো ধনাত্মক নমুনার একটি এলোমেলো নেতিবাচক নমুনার চেয়ে উচ্চতর স্কোর হওয়ার সম্ভাবনা।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.