আর-তে আরওসি বক্ররেখা ব্যবহার করে কীভাবে সেরা কাট অফ পয়েন্ট এবং তার আত্মবিশ্বাসের ব্যবধানটি নির্ধারণ করবেন?


51

আমার কাছে একটি পরীক্ষার ডেটা রয়েছে যা সাধারণ এবং টিউমার কোষকে আলাদা করতে ব্যবহার করা যেতে পারে। আরওসি বক্ররেখা অনুসারে এটি এই উদ্দেশ্যে ভাল দেখায় (বক্ররেখার ক্ষেত্রফল 0.9):

আরওসি বক্ররেখা

আমার প্রশ্নগুলি হ'ল:

  1. এই পরীক্ষার জন্য কাট অফ পয়েন্ট এবং এর আত্মবিশ্বাসের অন্তর কোথায় নির্ধারণ করবেন যেখানে পাঠাগুলি দ্বিপাক্ষিক হিসাবে গণ্য করা উচিত?
  2. এটি (ব্যবহার করে ggplot2) দেখার জন্য সর্বোত্তম উপায় কী ?

গ্রাফ ROCRএবং ggplot2প্যাকেজগুলি ব্যবহার করে রেন্ডার করা হয় :

#install.packages("ggplot2","ROCR","verification") #if not installed yet
library("ggplot2")
library("ROCR")
library("verification")
d <-read.csv2("data.csv", sep=";")
pred <- with(d,prediction(x,test))
perf <- performance(pred,"tpr", "fpr")
auc <-performance(pred, measure = "auc")@y.values[[1]]
rd <- data.frame(x=perf@x.values[[1]],y=perf@y.values[[1]])
p <- ggplot(rd,aes(x=x,y=y)) + geom_path(size=1)
p <- p + geom_segment(aes(x=0,y=0,xend=1,yend=1),colour="black",linetype= 2)
p <- p + geom_text(aes(x=1, y= 0, hjust=1, vjust=0, label=paste(sep = "", "AUC = ",round(auc,3) )),colour="black",size=4)
p <- p + scale_x_continuous(name= "False positive rate")
p <- p + scale_y_continuous(name= "True positive rate")
p <- p + opts(
            axis.text.x = theme_text(size = 10),
            axis.text.y = theme_text(size = 10),
            axis.title.x = theme_text(size = 12,face = "italic"),
            axis.title.y = theme_text(size = 12,face = "italic",angle=90),
            legend.position = "none",
            legend.title = theme_blank(),
            panel.background = theme_blank(),
            panel.grid.minor = theme_blank(), 
            panel.grid.major = theme_line(colour='grey'),
            plot.background = theme_blank()
            )
p

ডেটা.সিএসভিতে নিম্নলিখিত তথ্য রয়েছে:

x;group;order;test
56;Tumor;1;1
55;Tumor;1;1
52;Tumor;1;1
60;Tumor;1;1
54;Tumor;1;1
43;Tumor;1;1
52;Tumor;1;1
57;Tumor;1;1
50;Tumor;1;1
34;Tumor;1;1
24;Normal;2;0
34;Normal;2;0
22;Normal;2;0
32;Normal;2;0
25;Normal;2;0
23;Normal;2;0
23;Normal;2;0
19;Normal;2;0
56;Normal;2;0
44;Normal;2;0

উত্তর:


30

যারা এই প্রশ্নের জবাব দিয়েছেন তাদের সবাইকে ধন্যবাদ। আমি সম্মত হই যে এখানে কোনও সঠিক উত্তর এবং মানদণ্ড নির্দিষ্ট ডায়াগনস্টিক পরীক্ষার পিছনে যে লক্ষ্যগুলি রয়েছে তার উপর নির্ভর করে greatly

অবশেষে আমি একটি আর প্যাকেজ পেয়েছি OptimalCutpPoint ঠিক এই জাতীয় বিশ্লেষণের কাটঅফ পয়েন্ট অনুসন্ধান করার জন্য উত্সর্গীকৃত। আসলে কাটঅফ পয়েন্ট নির্ধারণের বিভিন্ন পদ্ধতি রয়েছে।

  • "সিবি" (ব্যয়-বেনিফিট পদ্ধতি);
  • "এমসিটি" (বিভক্তকরণের মেয়াদ কমিয়ে দেয়);
  • "MinValueSp" (নির্দিষ্টকরণের জন্য একটি সর্বনিম্ন মান সেট);
  • "MinValueSe" (সংবেদনশীলতার জন্য ন্যূনতম মান সেট);
  • "রেঞ্জস্প" (নির্দিষ্টতার জন্য মানগুলির একটি সীমা সেট করা);
  • "রেঞ্জসি" (সংবেদনশীলতার জন্য মানগুলির একটি বিস্তৃত সেট);
  • "ValueSp" (নির্দিষ্টকরণের জন্য একটি মান সেট);
  • "মান" (সংবেদনশীলতার জন্য একটি মান সেট);
  • "MinValueSpSe" (নির্দিষ্টতা এবং সংবেদনশীলতার জন্য সর্বনিম্ন মান সেট);
  • "ম্যাকএসপি" (সুনির্দিষ্টতা সর্বাধিক করে);
  • "ম্যাক্সসি" (সংবেদনশীলতা সর্বাধিক করে তোলে);
  • "ম্যাক্সস্পিএস" (একই সাথে সংবেদনশীলতা এবং নির্দিষ্টতা সর্বাধিকীকরণ করে);
  • "ম্যাক্স-সামসস্পিএসে" (সংবেদনশীলতা এবং নির্দিষ্টকরণের যোগফলকে সর্বাধিক করে তোলে);
  • "ম্যাক্সপ্রডস্পিপি" (সংবেদনশীলতা এবং নির্দিষ্টকরণের পণ্যকে সর্বাধিক করে তোলে);
  • "ROC01" (আরওসি প্লট এবং পয়েন্ট (0,1) এর মধ্যে দূরত্ব হ্রাস করে);
  • "স্পেক্যালসি" (সংবেদনশীলতা = নির্দিষ্টতা);
  • "ইয়ডেন" (ইউডেন সূচক);
  • "সর্বাধিক দক্ষতা" (দক্ষতা বা নির্ভুলতা সর্বাধিক করে তোলে);
  • "মিনিম্যাক্স" (সর্বাধিক ঘন ত্রুটি হ্রাস করে);
  • "এউসি" (একুডেন্স সর্বাধিকীকরণ করে যা এটিউ এর ফাংশন);
  • "ম্যাক্সডোর" (ডায়াগনস্টিক অডস অনুপাতকে সর্বাধিক করে তোলে);
  • "ম্যাক্সকাপা" (কাপা সূচককে সর্বাধিক করে তোলে);
  • "ম্যাক্স্যাক্যুরসিআরিয়া" (যথাযথ ক্ষেত্রটি সর্বাধিক করে তোলে);
  • "MinErrorRate" (ত্রুটির হার হ্রাস করে);
  • "MinValueNPV" (নেতিবাচক ভবিষ্যদ্বাণীমূলক মানের জন্য সর্বনিম্ন মান সেট);
  • "মিনিভ্যালিউপিপিভি" (ধনাত্মক ভবিষ্যদ্বাণীমূলক মানের জন্য সর্বনিম্ন মান সেট);
  • "MinValueNPVPPV" (ভবিষ্যদ্বাণীমূলক মানগুলির জন্য ন্যূনতম মান সেট);
  • "PROC01" (PROC প্লট এবং পয়েন্ট (0,1) এর মধ্যে দূরত্ব হ্রাস করে);
  • "NPVEqualPPV" (Neণাত্মক ভবিষ্যদ্বাণীমূলক মান = ধনাত্মক ভবিষ্যদ্বাণীমূলক মান);
  • "ValueDLR.Negative" (gণাত্মক ডায়াগনস্টিক সম্ভাবনা অনুপাতের জন্য একটি মান সেট);
  • "ValueDLR.Positive" (ধনাত্মক ডায়াগনস্টিক সম্ভাবনা অনুপাতের জন্য একটি মান সেট);
  • "মিনপ্যালু" (স্ট্যাটিস্টিকাল চি-স্কোয়ার্ড টেস্টের সাথে সম্পর্কিত পি-ভ্যালু হ্রাস করে যা কাটপয়েন্ট ব্যবহার করে প্রাপ্ত মার্কার এবং বাইনারি ফলাফলের মধ্যে সংযোগ পরিমাপ করে);
  • "অবজারভেট্রেভ" (পর্যবেক্ষণের প্রসারের নিকটতম মান);
  • "মিনপ্রেভ" (ডায়াগনস্টিক পরীক্ষার মানগুলির গড়ের নিকটতম মান);
  • "প্রিভ্যালেন্সম্যাচিং" (যার মানটির জন্য পূর্বাভাস দেওয়া হয়েছে তা ব্যবহারিকভাবে পর্যবেক্ষণের বিস্তারের সমান)।

সুতরাং এখন কার্যটি সেই পদ্ধতিটি বেছে নেওয়ার জন্য সংকীর্ণ করা হয়েছে যা প্রতিটি পরিস্থিতির জন্য সেরা ম্যাচ।

আস্থা অন্তর নির্ধারণের বিভিন্ন পদ্ধতি এবং প্রতিটি পদ্ধতির বিস্তারিত বিবরণ সহ প্যাকেজ ডকুমেন্টেশনে বর্ণিত আরও অনেক কনফিগারেশন বিকল্প রয়েছে।


18
পদ্ধতিগুলির নিখুঁত সংখ্যা হ'ল একটি কাট অফের স্বেচ্ছাসেবীর লক্ষণ। এবং যেহেতু ইনপুট ভেরিয়েবলগুলিতে কাটঅফগুলি ব্যবহার করা সম্পূর্ণরূপে অনুপযুক্ত এবং কেবলমাত্র সামগ্রিক পূর্বাভাসিত মানের উপর কাটঅফ (যদি আপনাকে অবশ্যই প্রয়োজন) সন্ধান করা উপযুক্ত, তবে কেন এত বেশি প্রচেষ্টা ব্যয় করা যায় তা পরিষ্কার নয়। যদি আপনি ক্ষতির ক্রিয়াকলাপের সাথে বায়েসের সর্বোত্তম সিদ্ধান্তের নিয়মটি সেট করেন তবে সবকিছুর যত্ন নেওয়া হবে; কোনও আরওসি বক্ররেখা, সংবেদনশীলতা এবং নির্দিষ্টকরণের মতো পিছনের সময়ের সম্ভাবনা নেই, ইনপুট ভেরিয়েবলগুলিতে কোনও কাটঅফ নেই।
ফ্রাঙ্ক হ্যারেল

@ ফ্র্যাঙ্কহারেল আপনি কি এ সম্পর্কে বিস্তারিত বলতে পারবেন? "যদি আপনি ক্ষতির ক্রিয়াকলাপের সাথে বায়েসের সর্বোত্তম সিদ্ধান্তের নিয়মটি সেট করেন তবে সবকিছুর যত্ন নেওয়া হবে।" আমি এখানে আরও সাহিত্য খুঁজে পাব?
কালো দুধ

1
বেয়েস অনুকূল সিদ্ধান্ত এবং সঠিক স্কোরিং নিয়মের উপর সাহিত্য দেখুন।
ফ্রাঙ্ক হ্যারেল

26

আমার মতে, একাধিক কাট-অফ বিকল্প রয়েছে। আপনার ওজন সংবেদনশীলতা এবং স্বতন্ত্রতার ভিন্নভাবে হতে পারে (উদাহরণস্বরূপ, সম্ভবত আপনার পক্ষে উচ্চ সংবেদনশীল পরীক্ষা নেওয়া আরও বেশি গুরুত্বপূর্ণ যদিও এর অর্থ একটি সুনির্দিষ্ট পরীক্ষা নেওয়া means বা তদ্বিপরীত)।

সংবেদনশীলতা এবং নির্দিষ্টতার আপনার কাছে একই গুরুত্ব থাকলে, কাট-অফ গণনা করার একটি উপায় সেই মানটি বেছে নেওয়া যা আপনার আরওসি বক্ররেখা এবং আপনার গ্রাফের উপরের বাম কোণার মধ্যে ইউক্যালিডিয়ান দূরত্বকে হ্রাস করে।

আর একটি উপায় হ'ল মানটি যা সংবেদনশীলতা + নির্দিষ্টকরণ - 1 - কে কাট অফ হিসাবে ব্যবহার করে।

দুর্ভাগ্যক্রমে, আমার এই দুটি পদ্ধতির রেফারেন্স নেই কারণ আমি সেগুলি অধ্যাপক বা অন্যান্য পরিসংখ্যানবিদদের কাছ থেকে শিখেছি। আমি কেবলমাত্র পরবর্তী পদ্ধতিটিকে 'ইয়ডেনের সূচক' [1]) হিসাবে উল্লেখ করতে শুনেছি।

[1] https://en.wikedia.org/wiki/Youden%27s_J_statistic


15

একটি কাট অফ খুঁজে পেতে প্রলোভন প্রতিরোধ করুন। আপনার যদি পূর্বনির্ধারিত ইউটিলিটি / ক্ষতি / ব্যয় কার্যকারিতা না থাকে তবে একটি কাটঅফ অনুকূল সিদ্ধান্ত গ্রহণের মুখে উড়ে যায়। এবং একটি আরওসি বক্ররেখা এই সমস্যাটি থেকে অপ্রাসঙ্গিক।


7

গাণিতিকভাবে বলতে গেলে, কাট-অফের জন্য সমাধান করার জন্য আপনার আরও একটি শর্ত প্রয়োজন।

আপনি @ অ্যান্ড্রিয়ার এই বক্তব্যটি অনুবাদ করতে পারেন: "অন্তর্নিহিত সমস্যা সম্পর্কে বাহ্যিক জ্ঞান ব্যবহার করুন"।

শর্তগুলির উদাহরণ:

  • এই অ্যাপ্লিকেশনটির জন্য আমাদের সংবেদনশীলতা> = x, এবং / অথবা নির্দিষ্টতা> = y দরকার।

  • একটি মিথ্যা ধনাত্মক হিসাবে মিথ্যা নেতিবাচক 10 এক্স হিসাবে খারাপ। (এটি আপনাকে আদর্শ কোণে সবচেয়ে কাছের পয়েন্টের একটি পরিবর্তন দেয়))


1
ঠিক ঠিক যে আপনার সর্বোত্তম সিদ্ধান্ত নিতে আপনার বাহ্যিক জ্ঞান প্রয়োজন। তবে ক্ষতির ক্রিয়াকলাপটি উপরের পরিমাণগুলির নিরিখে বর্ণিত হয়নি এবং লোকসানের কার্যকারিতা সহ পৃথক বিষয়ে ফলাফলের পূর্বাভাসের সম্ভাবনা থেকেই সর্বোত্তম সিদ্ধান্তটি আসে comes
ফ্রাঙ্ক হ্যারেল

6

নির্ভুলতা বনাম কাট অফকে ভিজ্যুয়ালাইজ করুন। আপনি আরআরসিআর ডকুমেন্টেশনে আরও বিশদ এবং একই থেকে খুব সুন্দর উপস্থাপনা পড়তে পারেন ।

এখানে চিত্র বর্ণনা লিখুন


1
যদি আপনি উত্স কোডটি ঘনিষ্ঠভাবে দেখেন তবে আমি এই প্যাকেজটি ব্যবহার করেছিলাম এবং এই প্যাকেজে ডকুমেন্টেশন পড়েছি। ডান কাটফুল পয়েন্ট এবং "ধূসর অঞ্চল" নির্ধারণ করার জন্য এটির কোনও সরঞ্জাম নেই
ইউরি পেট্রোভস্কি

1
আমি অবশ্যই আপনার কোডটি পড়েছি তবে "ডান কাট অফ" এর মতো কোনও শব্দ নেই তবে প্লট যথার্থতা বনাম কাটফ আপনাকে সঠিক অন্তর্দৃষ্টি দিতে পারে। এবং এই প্লটটি ব্যবহার করে আপনি সর্বাধিক নির্ভুলতার জন্য কীভাবে কাট অফ খুঁজে পাবেন তা নির্ধারণ করতে পারেন।
ভ্লাদিমির চুপাখিন

2

আরও গুরুত্বপূর্ণ - এই বক্ররেখার পিছনে খুব কম ডেটাপয়েন্ট রয়েছে। আপনি কীভাবে সংবেদনশীলতা / নির্দিষ্টতা ট্রেড অফ করতে চলেছেন তা স্থির করার সময় আমি আপনাকে দৃ strongly়ভাবে বক্ররেখা এবং ফলস্বরূপ কাট অফের নম্বরটি বুটস্ট্র্যাপ করতে উত্সাহিত করব। আপনি দেখতে পাবেন যে আপনার আনুমানিক সেরা কাটঅফটিতে অনেকগুলি অনিশ্চয়তা রয়েছে।


1
পরীক্ষাটি এখনও চলছে, তাই আমি আরও ডেটা পয়েন্ট পাব। আমি পদ্ধতিটিতে আগ্রহী (আমি মনে করি এটি কোনও ডেটা পয়েন্টের গণনার ক্ষেত্রে একই)। এবং "ধূসর অঞ্চল" নির্ধারণের কোনও পরিসংখ্যানের পদ্ধতি আমি খুঁজে পাইনি যখন এটি ধরণের ধরণের পরীক্ষায় ব্যাপকভাবে ব্যবহৃত হয়।
ইউরি পেট্রোভস্কি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.