আরওসি বক্ররেখার অধীনে যথার্থতা বনাম অঞ্চল


16

আমি ডায়াগনস্টিক সিস্টেমের জন্য একটি আরওসি বক্ররেখা তৈরি করেছি। বক্ররেখার অধীনে অঞ্চলটি তখন প্যারামিট্রিক্যালি অনুমান করা হয় এটিউসি = 0.89। আমি যখন সর্বোত্তম প্রান্তিক মান (বিন্দু (0, 1) এর নিকটতম বিন্দু) এ নির্ভুলতা গণনা করার চেষ্টা করেছি, তখন ডায়াগনস্টিক সিস্টেমের যথার্থতা 0.8 পেয়েছি, যা এটিসির চেয়ে কম! আমি যখন অন্য প্রান্তিক সেটিংয়ে যথার্থতা যাচাই করেছি যা সর্বোত্তম প্রান্তিকের থেকে অনেক দূরে আমি যথাযথতাটি 0.92 এর সমান পেয়েছি। সেরা থ্রেশহোল্ড সেটিংসে ডায়াগনস্টিক সিস্টেমের নির্ভুলতা অন্য থ্রেশহোল্ডের নির্ভুলতার চেয়ে কম এবং বক্ররেখার চেয়ে কম অঞ্চলটিও পাওয়া সম্ভব? সংযুক্ত ছবি দেখুন দয়া করে।

এখানে চিত্র বর্ণনা লিখুন


1
আপনি দয়া করে আপনার বিশ্লেষণে কতগুলি নমুনা ছিল তা নির্দেশ করতে পারেন? আমি বাজি ধরছি এটি ভারি ভারসাম্যহীন ছিল। এছাড়াও, এউসি এবং যথার্থতা এর মতো অনুবাদ করে না (যখন আপনি বলেন যে যথার্থতাটি এউসি এর চেয়ে কম) তখন মোটেও নয়।
ফায়ারব্যাগ

1
269469 negativeণাত্মক এবং 37731 ইতিবাচক; নীচের উত্তর (শ্রেণি ভারসাম্যহীনতা) অনুসারে এখানে সমস্যা হতে পারে।
আলী সুলতান

সমস্যাটি মনে রাখবেন যে প্রতি বর্গক্ষেত্রের ভারসাম্যহীনতা নয়, এটি মূল্যায়ন পরিমাপের পছন্দ। সব মিলিয়ে, একটি ইউ সি আরও যুক্তিসঙ্গত বা আপনি সুষম নির্ভুলতা প্রয়োগ করতে পারেন। একজনইউসি
ফায়ারব্যাগ

একটি শেষ কথা, আপনি যদি নিজের প্রশ্নের উত্তরটির উত্তর অনুভব করেন তবে আপনি উত্তরটি "গ্রহন" বিবেচনা করতে পারেন (সবুজ চেক চিহ্ন)। এটি বাধ্যতামূলক নয়, তবে সেই ব্যক্তিকে সহায়তা করে যে উত্তর দিয়েছে এবং সাইট সংস্থাকে সহায়তা করে (আপনার কাজটি না করা পর্যন্ত প্রশ্নটি উত্তরহীন হিসাবে গণ্য হবে), এবং সম্ভবত ভবিষ্যতে একই প্রশ্নটি তৈরি করবে এমন লোকেরা।
ফায়ারব্যাগ

উত্তর:


8

এটা সত্যিই সম্ভব। মূল কথাটি মনে রাখতে হবে যে নির্ভুলতা বর্গ ভারসাম্যহীনতায় অত্যন্ত প্রভাবিত হয়। উদাহরণস্বরূপ, আপনার ক্ষেত্রে, ইতিবাচক নমুনাগুলির চেয়ে আপনার নেতিবাচক নমুনা বেশি রয়েছে, যেহেতু এফপিআর ( ) 0 এর কাছাকাছি এবং টিপিআর (=টিপি)=এফপিএফপি+ +টিএন ) 0.5, আপনার যথার্থতা (=টিপি+টিএন)টিপিটিপি+ +এফএন ) এখনও খুব বেশি।=টিপি+ +টিএনটিপি+ +এফএন+ +এফপি+ +টিএন

এটি অন্যথায় রাখার জন্য, যেহেতু আপনার কাছে আরও অনেক নেতিবাচক নমুনা রয়েছে, শ্রেণিবদ্ধার যদি সর্বদা 0 পূর্বাভাস দেয় তবে এটি এখনও 0 এর কাছাকাছি এফপিআর এবং টিপিআর সহ একটি উচ্চ নির্ভুলতা পাবে।

আপনি যাকে বলে যাকে সর্বোত্তম থ্রেশহোল্ড সেটিং (পয়েন্টের নিকটতম বিন্দু (0, 1)) বলছেন এটি সর্বোত্তম প্রান্তিকের জন্য অনেকগুলি সংজ্ঞাগুলির মধ্যে একটি: এটি প্রয়োজনীয়তা যথাযথভাবে অনুকূলিত করে না।

এখানে চিত্র বর্ণনা লিখুন


10

ঠিক আছে, (মিথ্যা পজিটিভ রেট), টি পি আর (সত্য পজিটিভ রেট) এবং সি সি এর মধ্যে সম্পর্ক মনে রাখবেনএফপিআরটিপিআরএকজনসিসি (যথার্থতা) এর :

টিপিআর=Σসত্য পজিটিভΣইতিবাচক ক্ষেত্রে

এফপিআর=Σইতিবাচক মিথ্যাΣনেতিবাচক ক্ষেত্রে

একজনসিসি=টিপিআরΣইতিবাচক ক্ষেত্রে+ +(1-এফপিআর)Σনেতিবাচক ক্ষেত্রেΣইতিবাচক ক্ষেত্রে+ +Σনেতিবাচক ক্ষেত্রে

একজনসিসিটিপিআরএফপিআর

একজনসিসি=টিপিআর+ +1-এফপিআর2

এন-»এন+ +

একজনসিসি(এন-»এন+ +)1-এফপিআর
একজনসিসিএফপিআর

এই উদাহরণটি দেখুন, negativeণাত্মক ধনাত্মকতা 1000: 1 ছাড়িয়ে গেছে।

data = c(rnorm(10L), rnorm(10000L)+1)
lab = c(rep(1, 10L), rep(-1, 10000L))
plot(data, lab, col = lab + 3)
tresh = c(-10, data[lab == 1], 10)
do.call(function(x) abline(v = x, col = "gray"), list(tresh))

pred = lapply(tresh, function (x) ifelse(data <= x, 1, -1))
res = data.frame(
  acc = sapply(pred, function(x) sum(x == lab)/length(lab)),
  tpr = sapply(pred, function(x) sum(lab == x & x == 1)/sum(lab == 1)),
  fpr = sapply(pred, function(x) sum(lab != x & x == 1)/sum(lab != 1))
)

res[order(res$acc),]

#> res[order(res$acc),]
#           acc tpr    fpr
#12 0.000999001 1.0 1.0000
#11 0.189110889 1.0 0.8117
#9  0.500099900 0.9 0.5003
#2  0.757742258 0.8 0.2423
#5  0.763136863 0.7 0.2368
#4  0.792007992 0.6 0.2078
#10 0.807292707 0.5 0.1924
#3  0.884215784 0.4 0.1153
#7  0.890709291 0.3 0.1087
#6  0.903096903 0.2 0.0962
#8  0.971428571 0.1 0.0277
#1  0.999000999 0.0 0.0000

দেখুন, কখন fpr0 accহয় সর্বোচ্চ।

এবং নিখুঁতভাবে টীকাযুক্ত সহ এখানে আরওসি রয়েছে।

plot(sort(res$fpr), sort(res$tpr), type = "S", ylab = "TPR", xlab = "FPR")
text(sort(res$fpr), sort(res$tpr), pos = 4L, lab = round(res$acc[order(res$fpr)], 3L))
abline(a = 0, b = 1)
abline(a = 1, b = -1)

এখানে চিত্র বর্ণনা লিখুন


একজনইউসি

1-sum(res$fpr[-12]*0.1)
#[1] 0.74608

তল লাইনটি হ'ল আপনি কোনও উপায়ে মডেল ( tpr= 0 আমার উদাহরণে) এর ফলস্বরূপ নির্ভুলতা অনুকূল করতে পারেন । এটি কারণ সঠিকতা একটি ভাল মেট্রিক নয়, ফলাফলের দ্বৈতকরণের সিদ্ধান্ত গ্রহণকারীকে রেখে দেওয়া উচিত।

টিপিআর=1-এফপিআর লাইন হিসাবে বলা হয় কারণ সেইভাবে উভয় ত্রুটির সমান ওজন থাকে, যদিও যথার্থতা অনুকূল নয়।

যখন আপনার ভারসাম্যহীন ক্লাস রয়েছে, নির্ভুলতার অনুকূলতা অপেক্ষাকৃত ছোট হতে পারে (যেমন সবাইকে সংখ্যাগরিষ্ঠ শ্রেণি হিসাবে পূর্বাভাস দিন)।


একজনইউসি

এবং সর্বোপরি গুরুত্বপূর্ণ: কেন উচ্চ শ্রেণীর শ্রেণিবদ্ধের তুলনায় এটিসি উচ্চতর যা আরও সঠিক?

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.