নির্ভুলতা প্রত্যাহার বক্ররেখা "বেসলাইন" কি


15

আমি নির্ভুলতা প্রত্যাহার বক্ররেখা বোঝার চেষ্টা করছি, আমি বুঝতে পারি যথার্থতা এবং পুনরুদ্ধার কী তবে আমি যে জিনিসটি বুঝতে পারি না তা হ'ল "বেসলাইন" মান। আমি এই লিঙ্কটি পড়ছিলাম https://classeval.wordpress.com/intr پيداوار/ intr پيداوار- to- the- precision- recall- plot/

এবং "একটি নিখুঁত শ্রেণিবদ্ধীর একটি যথার্থ-পুনরুদ্ধার বক্ররেখায়" দেখানো বেসলাইন অংশটি আমি বুঝতে পারি না এটি কী করে? এবং আমরা কীভাবে এটি গণনা করব? এটি কি কেবল একটি এলোমেলো বেসলাইন আমরা নির্বাচন করি? উদাহরণস্বরূপ আমার কাছে retweet,status_countইত্যাদি সম্পর্কিত বৈশিষ্ট্যযুক্ত টুইটারের ডেটা রয়েছে এবং আমার শ্রেণির লেবেলটি Favoritedযদি পছন্দসই হয় তবে 0 হয় এবং যদি আমি পছন্দ না করি তবে আমি তাতে নিষ্কলুষ বেইস প্রয়োগ করি এবং এখন আমি নির্ভুলতা-পুনর্বিবেচনা বক্ররেখা আঁকতে চাই, এই ক্ষেত্রে আমার বেসলাইনটি কীভাবে সেট করা উচিত? ?

উত্তর:


13

"বেসলাইন বক্ররেখা" একটি জনসংযোগ বক্ররেখা চক্রান্ত একটি অনুভূমিক রেখা উচ্চতার সঙ্গে সঙ্গে ইতিবাচক উদাহরণ সংখ্যা সমান প্রশিক্ষণ ডেটা মোট সংখ্যা বেশি , অর্থাত্। আমাদের ডেটাতে ( ) ইতিবাচক উদাহরণগুলির অনুপাত ।এন পিPNPN

ঠিক আছে, কেন এই ক্ষেত্রে? ধরা যাক আমাদের একটি "জাঙ্ক ক্লাসিফায়ার" । একটি ফেরৎ র্যান্ডম সম্ভাব্যতা করতে -th নমুনা উদাহরণস্বরূপ ক্লাসে হতে । সুবিধার্থে, । এই এলোমেলো শ্রেণির অ্যাসাইনমেন্টের প্রত্যক্ষ জড়িত বিষয়টি হ'ল আমাদের ডেটাতে ইতিবাচক উদাহরণগুলির অনুপাতের সমান নির্ভুলতা (প্রত্যাশিত) করবে। এটি কেবল প্রাকৃতিক; আমাদের ডেটাগুলির কোনও সম্পূর্ণ র্যান্ডম উপ-নমুনায় সঠিকভাবে শ্রেণিবদ্ধ উদাহরণ থাকবে। এটি কোনও সম্ভাব্য প্রান্তিকরণ ক্ষেত্রে সত্যসি জে পি আই আই ওয়াই আইপি আইইউ [ 0 , 1 ] সি জেCJCJpiiyiApiU[0,1]CJqCJq[0,1]qACJqpiU[0,1]q(100(1-q))%(100(1-কিউ))%AxyPE{PN}qআমরা দ্বারা শ্রেণীর সদস্যপদের সম্ভাব্যতার জন্য সিদ্ধান্তের সীমানা হিসাবে ব্যবহার করতে । ( মধ্যে একটি মান উল্লেখ করে যেখানে সম্ভাব্যতা মান বড় বা এর সমান ক্লাসে শ্রেণীবদ্ধ করা হয় অন্যদিকে এর রিকল কর্মক্ষমতা।) (প্রত্যাশা মধ্যে) হয় সমান যদি । যে কোনও প্রান্তিক আমরা (প্রায়) total আমাদের মোট তথ্য যা পরবর্তী সময়ে (প্রায়) ধারণ করবে will শ্রেণীর মোট উদাহরণের সংখ্যার নেবCJq[0,1]qACJqpiU[0,1]q(100(1q))%(100(1q))%Aনমুনায়। সুতরাং অনুভূমিক রেখাটি আমরা শুরুতে উল্লেখ করেছি! প্রত্যেক রিকল মান (জন্য জনসংযোগ গ্রাফে মান) সংশ্লিষ্ট স্পষ্টতা মান ( জনসংযোগ গ্রাফে মান) সমান ।xyPN

তাত্ক্ষণিক পার্শ্ব-নোট: প্রান্তিক সাধারণত প্রত্যাশিত প্রত্যাহার 1 বিয়োগের সমান হয় না । এটি কেবল এর ফলাফলের এলোমেলো ইউনিফর্ম বিতরণের কারণে উপরে বর্ণিত র ক্ষেত্রে ঘটে ; ভিন্ন বিতরণের জন্য (উদাহরণস্বরূপ, ) ও রিকলের মধ্যে এই আনুমানিক পরিচয় সম্পর্ক রাখে না; ব্যবহার করা হয়েছিল কারণ এটি বোঝার এবং মানসিকভাবে দৃশ্যমান করা সবচেয়ে সহজ। এ অন্যরকম এলোমেলো বিতরণের জন্য পিআর প্রোফাইল যদিও পরিবর্তন হবে না। প্রদত্ত মানগুলির জন্য কেবল PR মানগুলির স্থান পরিবর্তন হবে।সি জে সি জে পি আইবি ( 2 , 5 ) কিউ ইউ [ 0 , 1 ] [ 0 , 1 ] সি জে কিউqCJCJpiB(2,5)qU[0,1][0,1]CJq

এখন একটি নিখুঁত ক্লাসিফায়ার সংক্রান্ত , এক ক্লাসিফায়ার যে আয় সম্ভাব্যতা অর্থ হবে নমুনা ক্ষেত্রটিকেই ক্লাসের হচ্ছে যদি ক্লাসে প্রকৃতপক্ষে এবং অতিরিক্ত ফেরৎ সম্ভাব্যতা যদি ক্লাসের সদস্য নন । এটি বোঝায় যে যে কোনও প্রান্তিক আমাদের নির্ভুলতা থাকবে (উদাহরণস্বরূপ গ্রাফের শর্তে আমরা নির্ভুলতার সাথে শুরু করে একটি লাইন পাই )। আমরা একমাত্র পয়েন্টটি নির্ভুলতা পাই না এটি । জন্য 1 y i A y I A C P 0 y i A q 100 % 100 % 100 % q = 0 q = 0 PCP1yiAyiACP0yiAq100%100%100%q=0q=0, স্পষ্টতা আমাদের তথ্য ইতিবাচক উদাহরণ অনুপাত (বৃক্ষের পতন ) হিসেবে (অন্যন্ত?) আমরা এমনকি পয়েন্ট শ্রেণীভুক্ত ক্লাসের হচ্ছে সম্ভাব্যতা ক্লাসে হচ্ছে । এর জনসংযোগ গ্রাফ তার স্পষ্টতা, মাত্র দুটি সম্ভাব্য মান আছে এবং । 0সিপি1পিPN0AACP1PN

ঠিক আছে এবং কিছু আর কোডের সাথে এটি প্রথম দেখার জন্য দেখতে পেল যেখানে ইতিবাচক মানগুলি আমাদের নমুনার এর সাথে মিলে যায়। লক্ষ্য করুন যে আমরা শ্রেণি বিভাগের একটি "সফট-অ্যাসাইনমেন্ট" করি এই অর্থে যে প্রতিটি পয়েন্টের সাথে যুক্ত সম্ভাবনা মানটি আমাদের আত্মবিশ্বাসের পরিমানকে নিশ্চিত করে যে এই বিন্দুটি ক্লাস ।40%A

  rm(list= ls())
  library(PRROC)
  N = 40000
  set.seed(444)
  propOfPos = 0.40
  trueLabels = rbinom(N,1,propOfPos)
  randomProbsB = rbeta(n = N, 2, 5) 
  randomProbsU = runif(n = N)  

  # Junk classifier with beta distribution random results
  pr1B <- pr.curve(scores.class0 = randomProbsB[trueLabels == 1], 
                   scores.class1 = randomProbsB[trueLabels == 0], curve = TRUE) 
  # Junk classifier with uniformly distribution random results
  pr1U <- pr.curve(scores.class0 = randomProbsU[trueLabels == 1], 
                   scores.class1 = randomProbsU[trueLabels == 0], curve = TRUE) 
  # Perfect classifier with prob. 1 for positives and prob. 0 for negatives.
  pr2 <- pr.curve(scores.class0 = rep(1, times= N*propOfPos), 
                  scores.class1 = rep(0, times = N*(1-propOfPos)), curve = TRUE)

  par(mfrow=c(1,3))
  plot(pr1U, main ='"Junk" classifier (Unif(0,1))', auc.main= FALSE, 
       legend=FALSE, col='red', panel.first= grid(), cex.main = 1.5);
  pcord = pr1U$curve[ which.min( abs(pr1U$curve[,3]- 0.50)),c(1,2)];
  points( pcord[1], pcord[2], col='black', cex= 2, pch = 1)
  pcord = pr1U$curve[ which.min( abs(pr1U$curve[,3]- 0.20)),c(1,2)]; 
  points( pcord[1], pcord[2], col='black', cex= 2, pch = 17)
  plot(pr1B, main ='"Junk" classifier (Beta(2,5))', auc.main= FALSE,
       legend=FALSE, col='red', panel.first= grid(), cex.main = 1.5);
  pcord = pr1B$curve[ which.min( abs(pr1B$curve[,3]- 0.50)),c(1,2)]; 
  points( pcord[1], pcord[2], col='black', cex= 2, pch = 1)
  pcord = pr1B$curve[ which.min( abs(pr1B$curve[,3]- 0.20)),c(1,2)]; 
  points( pcord[1], pcord[2], col='black', cex= 2, pch = 17)
  plot(pr2, main = '"Perfect" classifier', auc.main= FALSE, 
       legend=FALSE, col='red', panel.first= grid(), cex.main = 1.5);  

এখানে চিত্র বর্ণনা লিখুন

যেখানে কালো চেনাশোনা এবং ত্রিভুজগুলি প্রথম দুটি প্লটে যথাক্রমে এবং করে। আমরা তাত্ক্ষণিকভাবে দেখতে পাই যে "জাঙ্ক" শ্রেণিবদ্ধীরা দ্রুত সমান নির্ভুলতায় চলে যায় ; একইভাবে নিখুঁত শ্রেণিবদ্ধকারীর সমস্ত রিকাল ভেরিয়েবলগুলি জুড়ে যথার্থ রয়েছে has আশ্চর্যজনকভাবে, "জাঙ্ক" শ্রেণিবদ্ধের জন্য এটিসিপিআর আমাদের নমুনায় ( 0. ) ইতিবাচক উদাহরণের অনুপাতের সমান এবং "নিখুঁত শ্রেণিবদ্ধী" এর জন্য এটিউপিআর প্রায় সমান ।কিউ = 0.20 পিq=0.50q=0.20 10.401PN10.401

বাস্তবিকভাবে নিখুঁত শ্রেণিবদ্ধের পিআর গ্রাফটি কিছুটা অকেজো কারণ কারও কাছে স্মরণ থাকতে পারে না (আমরা কখনই কেবল নেতিবাচক শ্রেণির পূর্বাভাস দিতে পারি না ); আমরা কেবল সম্মেলনের বিষয়টি হিসাবে উপরের বাম কোণ থেকে লাইনটি প্লট করা শুরু করি। কঠোরভাবে বলতে গেলে এটি কেবল দুটি পয়েন্ট প্রদর্শন করা উচিত তবে এটি একটি ভয়াবহ বক্ররেখা তৈরি করবে। : ডি0

রেকর্ডের জন্য, ইতিমধ্যে পিআর কার্ভগুলির ইউটিলিটি সম্পর্কে সিভিতে খুব ভাল উত্তর এসেছে: এখানে , এখানে এবং এখানে । কেবলমাত্র তাদের মাধ্যমে সাবধানে পড়া উচিত পিআর বক্ররেখা সম্পর্কে একটি ভাল সাধারণ বুঝতে দেওয়া উচিত।


1
এই সম্প্রদায়টিতে যোগদান করুন কেবলমাত্র আমি এটিকে উজ্জীবিত করতে পারি। এটি নির্ভুলতার পুনর্বিবেচনা বক্ররেখাগুলিতে বেসলাইন ধারণাটির দুর্দান্ত ব্যাখ্যা। বায়োইনফর্মেশিয়ান হিসাবে আমি এটি অত্যন্ত সহায়ক বলে মনে করি।
jimh

1
@ জিমঃ ধন্যবাদ, এটা শুনে খুব সুন্দর জিনিস লাগল। পোস্টটি সহায়ক হয়েছিল বলে আমি আনন্দিত।
usεr11852

আমি জানি এটি কোনও মন্তব্য নয় যা দরকারী তথ্য এনেছে, তবে আপনার পুরোপুরি এবং চোখ খোলা ব্যাখ্যার জন্য আপনাকে অনেক ধন্যবাদ জানাতে চাই।
রিক এস

0

উপরে দুর্দান্ত উত্তর। এটি সম্পর্কে আমার চিন্তাভাবনার স্বজ্ঞাত উপায়। কল্পনা করুন যে আপনার কাছে একগুচ্ছ বল রেড = পজিটিভ এবং হলুদ = নেতিবাচক রয়েছে এবং আপনি এলোমেলোভাবে একটি বালতি = ইতিবাচক ভগ্নাংশে ফেলে দেন throw তারপরে আপনার যদি একই পরিমাণে লাল এবং হলুদ বল থাকে তবে আপনি যখন নিজের বালতি থেকে লাল (ধনাত্মক) = হলুদ (নেতিবাচক) থেকে PREC = tp / tp + fp = 100/100 + 100 গণনা করেন, তাই PREC = 0.5। তবে, আমার যদি 1000 টি লাল বল এবং 100 টি হলুদ বল থাকে তবে বালতিতে আমি এলোমেলোভাবে PREC = tp / tp + fp = 1000/1000 + 100 = 0.91 আশা করব কারণ এটি ইতিবাচক ভগ্নাংশের সুযোগের বেসলাইন যা আরপিও / আরপি + আরএন, যেখানে আরপি = রিয়েল পজিটিভ এবং আরএন = রিয়েল নেগেটিভ।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.