"বেসলাইন বক্ররেখা" একটি জনসংযোগ বক্ররেখা চক্রান্ত একটি অনুভূমিক রেখা উচ্চতার সঙ্গে সঙ্গে ইতিবাচক উদাহরণ সংখ্যা সমান প্রশিক্ষণ ডেটা মোট সংখ্যা বেশি , অর্থাত্। আমাদের ডেটাতে ( ) ইতিবাচক উদাহরণগুলির অনুপাত ।এন পিপিএনপিএন
ঠিক আছে, কেন এই ক্ষেত্রে? ধরা যাক আমাদের একটি "জাঙ্ক ক্লাসিফায়ার" । একটি ফেরৎ র্যান্ডম সম্ভাব্যতা করতে -th নমুনা উদাহরণস্বরূপ ক্লাসে হতে । সুবিধার্থে, । এই এলোমেলো শ্রেণির অ্যাসাইনমেন্টের প্রত্যক্ষ জড়িত বিষয়টি হ'ল আমাদের ডেটাতে ইতিবাচক উদাহরণগুলির অনুপাতের সমান নির্ভুলতা (প্রত্যাশিত) করবে। এটি কেবল প্রাকৃতিক; আমাদের ডেটাগুলির কোনও সম্পূর্ণ র্যান্ডম উপ-নমুনায় সঠিকভাবে শ্রেণিবদ্ধ উদাহরণ থাকবে। এটি কোনও সম্ভাব্য প্রান্তিকরণ ক্ষেত্রে সত্যসি জে পি আই আই ওয়াই আই এ পি আই ∼ ইউ [ 0 , 1 ] সি জেসিজেসিজেপিআমিআমিYআমিএকজনপিআমি। ইউ[ 0 , 1 ]সিজেqCJq[0,1]qACJqpi∼U[0,1]q(100(1-q))%(100(1-কিউ))%AxyPই। পিএন}কুইআমরা দ্বারা শ্রেণীর সদস্যপদের সম্ভাব্যতার জন্য সিদ্ধান্তের সীমানা হিসাবে ব্যবহার করতে । ( মধ্যে একটি মান উল্লেখ করে যেখানে সম্ভাব্যতা মান বড় বা এর সমান ক্লাসে শ্রেণীবদ্ধ করা হয় অন্যদিকে এর রিকল কর্মক্ষমতা।) (প্রত্যাশা মধ্যে) হয় সমান যদি । যে কোনও প্রান্তিক আমরা (প্রায়) total আমাদের মোট তথ্য যা পরবর্তী সময়ে (প্রায়) ধারণ করবে will শ্রেণীর মোট উদাহরণের সংখ্যার নেবসিজেকুই[ 0 , 1 ]কুইএকজনসিজেকুইপিআমি। ইউ[ 0 , 1 ]কুই( 100 ( 1 - কিউ।)) ) %( 100 ( 1 - কিউ।)) ) %একজননমুনায়। সুতরাং অনুভূমিক রেখাটি আমরা শুরুতে উল্লেখ করেছি! প্রত্যেক রিকল মান (জন্য জনসংযোগ গ্রাফে মান) সংশ্লিষ্ট স্পষ্টতা মান ( জনসংযোগ গ্রাফে মান) সমান ।xyPN
তাত্ক্ষণিক পার্শ্ব-নোট: প্রান্তিক সাধারণত প্রত্যাশিত প্রত্যাহার 1 বিয়োগের সমান হয় না । এটি কেবল এর ফলাফলের এলোমেলো ইউনিফর্ম বিতরণের কারণে উপরে বর্ণিত র ক্ষেত্রে ঘটে ; ভিন্ন বিতরণের জন্য (উদাহরণস্বরূপ, ) ও রিকলের মধ্যে এই আনুমানিক পরিচয় সম্পর্ক রাখে না; ব্যবহার করা হয়েছিল কারণ এটি বোঝার এবং মানসিকভাবে দৃশ্যমান করা সবচেয়ে সহজ। এ অন্যরকম এলোমেলো বিতরণের জন্য পিআর প্রোফাইল যদিও পরিবর্তন হবে না। প্রদত্ত মানগুলির জন্য কেবল PR মানগুলির স্থান পরিবর্তন হবে।সি জে সি জে পি আই ∼ বি ( 2 , 5 ) কিউ ইউ [ 0 , 1 ] [ 0 , 1 ] সি জে কিউqCJCJpi∼B(2,5)qU[0,1][0,1]CJq
এখন একটি নিখুঁত ক্লাসিফায়ার সংক্রান্ত , এক ক্লাসিফায়ার যে আয় সম্ভাব্যতা অর্থ হবে নমুনা ক্ষেত্রটিকেই ক্লাসের হচ্ছে যদি ক্লাসে প্রকৃতপক্ষে এবং অতিরিক্ত ফেরৎ সম্ভাব্যতা যদি ক্লাসের সদস্য নন । এটি বোঝায় যে যে কোনও প্রান্তিক আমাদের নির্ভুলতা থাকবে (উদাহরণস্বরূপ গ্রাফের শর্তে আমরা নির্ভুলতার সাথে শুরু করে একটি লাইন পাই )। আমরা একমাত্র পয়েন্টটি নির্ভুলতা পাই না এটি । জন্য 1 y i A y I A C P 0 y i A q 100 % 100 % 100 % q = 0 q = 0 PCP1yiAyiACP0yiAq100%100%100%q=0q=0, স্পষ্টতা আমাদের তথ্য ইতিবাচক উদাহরণ অনুপাত (বৃক্ষের পতন ) হিসেবে (অন্যন্ত?) আমরা এমনকি পয়েন্ট শ্রেণীভুক্ত ক্লাসের হচ্ছে সম্ভাব্যতা ক্লাসে হচ্ছে । এর জনসংযোগ গ্রাফ তার স্পষ্টতা, মাত্র দুটি সম্ভাব্য মান আছে এবং । 0এএসিপি1পিPN0AACP1PN
ঠিক আছে এবং কিছু আর কোডের সাথে এটি প্রথম দেখার জন্য দেখতে পেল যেখানে ইতিবাচক মানগুলি আমাদের নমুনার এর সাথে মিলে যায়। লক্ষ্য করুন যে আমরা শ্রেণি বিভাগের একটি "সফট-অ্যাসাইনমেন্ট" করি এই অর্থে যে প্রতিটি পয়েন্টের সাথে যুক্ত সম্ভাবনা মানটি আমাদের আত্মবিশ্বাসের পরিমানকে নিশ্চিত করে যে এই বিন্দুটি ক্লাস ।এ40%A
rm(list= ls())
library(PRROC)
N = 40000
set.seed(444)
propOfPos = 0.40
trueLabels = rbinom(N,1,propOfPos)
randomProbsB = rbeta(n = N, 2, 5)
randomProbsU = runif(n = N)
# Junk classifier with beta distribution random results
pr1B <- pr.curve(scores.class0 = randomProbsB[trueLabels == 1],
scores.class1 = randomProbsB[trueLabels == 0], curve = TRUE)
# Junk classifier with uniformly distribution random results
pr1U <- pr.curve(scores.class0 = randomProbsU[trueLabels == 1],
scores.class1 = randomProbsU[trueLabels == 0], curve = TRUE)
# Perfect classifier with prob. 1 for positives and prob. 0 for negatives.
pr2 <- pr.curve(scores.class0 = rep(1, times= N*propOfPos),
scores.class1 = rep(0, times = N*(1-propOfPos)), curve = TRUE)
par(mfrow=c(1,3))
plot(pr1U, main ='"Junk" classifier (Unif(0,1))', auc.main= FALSE,
legend=FALSE, col='red', panel.first= grid(), cex.main = 1.5);
pcord = pr1U$curve[ which.min( abs(pr1U$curve[,3]- 0.50)),c(1,2)];
points( pcord[1], pcord[2], col='black', cex= 2, pch = 1)
pcord = pr1U$curve[ which.min( abs(pr1U$curve[,3]- 0.20)),c(1,2)];
points( pcord[1], pcord[2], col='black', cex= 2, pch = 17)
plot(pr1B, main ='"Junk" classifier (Beta(2,5))', auc.main= FALSE,
legend=FALSE, col='red', panel.first= grid(), cex.main = 1.5);
pcord = pr1B$curve[ which.min( abs(pr1B$curve[,3]- 0.50)),c(1,2)];
points( pcord[1], pcord[2], col='black', cex= 2, pch = 1)
pcord = pr1B$curve[ which.min( abs(pr1B$curve[,3]- 0.20)),c(1,2)];
points( pcord[1], pcord[2], col='black', cex= 2, pch = 17)
plot(pr2, main = '"Perfect" classifier', auc.main= FALSE,
legend=FALSE, col='red', panel.first= grid(), cex.main = 1.5);
যেখানে কালো চেনাশোনা এবং ত্রিভুজগুলি প্রথম দুটি প্লটে যথাক্রমে এবং করে। আমরা তাত্ক্ষণিকভাবে দেখতে পাই যে "জাঙ্ক" শ্রেণিবদ্ধীরা দ্রুত সমান নির্ভুলতায় চলে যায় ; একইভাবে নিখুঁত শ্রেণিবদ্ধকারীর সমস্ত রিকাল ভেরিয়েবলগুলি জুড়ে যথার্থ রয়েছে has আশ্চর্যজনকভাবে, "জাঙ্ক" শ্রেণিবদ্ধের জন্য এটিসিপিআর আমাদের নমুনায় ( 0. ) ইতিবাচক উদাহরণের অনুপাতের সমান এবং "নিখুঁত শ্রেণিবদ্ধী" এর জন্য এটিউপিআর প্রায় সমান ।কিউ = 0.20 পিq=0.50q=0.20 1≈0.401PN1≈0.401
বাস্তবিকভাবে নিখুঁত শ্রেণিবদ্ধের পিআর গ্রাফটি কিছুটা অকেজো কারণ কারও কাছে স্মরণ থাকতে পারে না (আমরা কখনই কেবল নেতিবাচক শ্রেণির পূর্বাভাস দিতে পারি না ); আমরা কেবল সম্মেলনের বিষয়টি হিসাবে উপরের বাম কোণ থেকে লাইনটি প্লট করা শুরু করি। কঠোরভাবে বলতে গেলে এটি কেবল দুটি পয়েন্ট প্রদর্শন করা উচিত তবে এটি একটি ভয়াবহ বক্ররেখা তৈরি করবে। : ডি0
রেকর্ডের জন্য, ইতিমধ্যে পিআর কার্ভগুলির ইউটিলিটি সম্পর্কে সিভিতে খুব ভাল উত্তর এসেছে: এখানে , এখানে এবং এখানে । কেবলমাত্র তাদের মাধ্যমে সাবধানে পড়া উচিত পিআর বক্ররেখা সম্পর্কে একটি ভাল সাধারণ বুঝতে দেওয়া উচিত।