আপনার পূর্বাভাসের সম্ভাবনাগুলি একবার হয়ে গেলে আপনি কোন প্রান্তিকতাটি ব্যবহার করতে চান তা আপনার উপর নির্ভর করবে। সংবেদনশীলতা, সুনির্দিষ্টতা বা অ্যাপ্লিকেশনের প্রসঙ্গে এটি সবচেয়ে গুরুত্বপূর্ণ যেটি পরিমাপ করা যায় তা অনুকূল করতে আপনি থ্রোসোল্ডটি চয়ন করতে পারেন (আরও কিছু নির্দিষ্ট তথ্য আরও নির্দিষ্ট উত্তরের জন্য এখানে সহায়ক হবে)। আপনি আরওসি বক্ররেখা এবং অনুকূল শ্রেণিবদ্ধকরণ সম্পর্কিত অন্যান্য ব্যবস্থাগুলি দেখতে চাইতে পারেন।
সম্পাদনা: এই উত্তরটি কিছুটা পরিষ্কার করার জন্য আমি একটি উদাহরণ দিতে যাচ্ছি। আসল উত্তরটি হ'ল সর্বোত্তম কাটঅফ প্রয়োগের প্রসঙ্গে শ্রেণীবদ্ধকারীর বৈশিষ্ট্যগুলি কী কী তার উপর নির্ভর করে। যাক পর্যবেক্ষণ জন্য সত্য মান হতে আমি আর ওয়াই আমি পূর্বাভাস বর্গ করা। কর্মক্ষমতা কিছু সাধারণ ব্যবস্থাওয়াইআমিআমিওয়াই^আমি
(1) সংবেদনশীলতা: - 'এর 1 এর যে সঠিকভাবে যাতে সনাক্ত করা হয় অনুপাত।পি( ওয়াই^আমি= 1 | ওয়াইআমি= 1 )
(2) নির্দিষ্টতা: - '0 এর অনুপাত যে সঠিকভাবে যাতে সনাক্ত করা হয়পি(ওয়াই^আমি= 0 |ওয়াইআমি= 0 )
(3) (সঠিক) ক্লাসিফিকেশন হার: - ভবিষ্যৎবাণী অনুপাত যে সঠিক ছিল।পি( ওয়াইআমি= ওয়াই^আমি)
(1) এটিকে সত্য ধনাত্মক হারও বলা হয়, (2) এটিকে সত্য নেতিবাচক হারও বলা হয়।
উদাহরণস্বরূপ, যদি আপনার শ্রেণিবদ্ধকারী তুলনামূলকভাবে নিরাপদ নিরাময়ের গুরুতর রোগের জন্য ডায়াগনস্টিক পরীক্ষার মূল্যায়ন করার লক্ষ্য নিয়ে থাকেন তবে স্পর্শকাতরতার চেয়ে স্পর্শকাতরতা আরও বেশি গুরুত্বপূর্ণ। অন্য একটি ক্ষেত্রে, যদি এই রোগটি তুলনামূলকভাবে অপ্রাপ্তবয়স্ক এবং চিকিত্সা ঝুঁকিপূর্ণ ছিল, তবে নির্দিষ্টতা নিয়ন্ত্রণ করা আরও গুরুত্বপূর্ণ। সাধারণ শ্রেণিবদ্ধকরণ সমস্যার জন্য সংবেদনশীলতা এবং নির্দিষ্টকরণের যৌথভাবে অনুকূলকরণ করা এটি "ভাল" হিসাবে বিবেচিত হয় - উদাহরণস্বরূপ, আপনি এমন শ্রেণিবদ্ধ ব্যবহার করতে পারেন যা তাদের ইউক্যালিডীয় দূরত্বটি বিন্দু থেকে হ্রাস করে :( 1 , 1 )
δ= [ পি( ওয়াইআমি= 1 | ওয়াই^আমি= 1 ) - 1 ]2+ [ পি( ওয়াইআমি= 0 | ওয়াই^আমি= 0 ) - 1 ]2---------------------------------------√
পরিমেয় বা অন্য উপায়ে পরিবর্তিত থেকে দূরত্ব একটি অধিক যুক্তিসঙ্গত পরিমাপ প্রতিফলিত করা যেতে পারে ( 1 , 1 ) আবেদনের প্রেক্ষাপটে - (1,1) থেকে ইউক্লিডিয় দূরত্ব এখানে অর্থবোধক উদ্দেশ্যে ইচ্ছামত মনোনীত হন। যে কোনও ক্ষেত্রে, এই চারটি ব্যবস্থার সমস্ত প্রয়োগের উপর নির্ভর করে সবচেয়ে উপযুক্ত হতে পারে।δ( 1 , 1 )
নিম্নে লজিস্টিক রিগ্রেশন মডেল থেকে শ্রেণিবদ্ধকরণের পূর্বাভাস ব্যবহার করে একটি অনুকরণযুক্ত উদাহরণ দেওয়া আছে is এই তিনটি ব্যবস্থার প্রত্যেকটির অধীনে কাট অফ কী "সেরা" শ্রেণিবদ্ধী দেয় তা দেখার জন্য কাট অফটি বৈচিত্রপূর্ণ। এই উদাহরণে ডেটা তিনটি ভবিষ্যদ্বাণী নিয়ে একটি লজিস্টিক রিগ্রেশন মডেল থেকে আসে (প্লটের নীচে আর কোড দেখুন)। আপনি যেমন এই উদাহরণটি থেকে দেখতে পাচ্ছেন, "সর্বোত্তম" কাটঅফ নির্ভর করে যেগুলির মধ্যে এই ব্যবস্থাগুলি সবচেয়ে গুরুত্বপূর্ণ - এটি সম্পূর্ণ প্রয়োগ নির্ভর।
পি( ওয়াইআমি= 1 | ওয়াই^আমি= 1 )পি( ওয়াইআমি= 0 | ওয়াই^আমি= 0 )
# data y simulated from a logistic regression model
# with with three predictors, n=10000
x = matrix(rnorm(30000),10000,3)
lp = 0 + x[,1] - 1.42*x[2] + .67*x[,3] + 1.1*x[,1]*x[,2] - 1.5*x[,1]*x[,3] +2.2*x[,2]*x[,3] + x[,1]*x[,2]*x[,3]
p = 1/(1+exp(-lp))
y = runif(10000)<p
# fit a logistic regression model
mod = glm(y~x[,1]*x[,2]*x[,3],family="binomial")
# using a cutoff of cut, calculate sensitivity, specificity, and classification rate
perf = function(cut, mod, y)
{
yhat = (mod$fit>cut)
w = which(y==1)
sensitivity = mean( yhat[w] == 1 )
specificity = mean( yhat[-w] == 0 )
c.rate = mean( y==yhat )
d = cbind(sensitivity,specificity)-c(1,1)
d = sqrt( d[1]^2 + d[2]^2 )
out = t(as.matrix(c(sensitivity, specificity, c.rate,d)))
colnames(out) = c("sensitivity", "specificity", "c.rate", "distance")
return(out)
}
s = seq(.01,.99,length=1000)
OUT = matrix(0,1000,4)
for(i in 1:1000) OUT[i,]=perf(s[i],mod,y)
plot(s,OUT[,1],xlab="Cutoff",ylab="Value",cex.lab=1.5,cex.axis=1.5,ylim=c(0,1),type="l",lwd=2,axes=FALSE,col=2)
axis(1,seq(0,1,length=5),seq(0,1,length=5),cex.lab=1.5)
axis(2,seq(0,1,length=5),seq(0,1,length=5),cex.lab=1.5)
lines(s,OUT[,2],col="darkgreen",lwd=2)
lines(s,OUT[,3],col=4,lwd=2)
lines(s,OUT[,4],col="darkred",lwd=2)
box()
legend(0,.25,col=c(2,"darkgreen",4,"darkred"),lwd=c(2,2,2,2),c("Sensitivity","Specificity","Classification Rate","Distance"))