উচ্চ এবং নিম্ন অনুসন্ধান করা হয়েছে এবং পূর্বাভাসের সাথে সম্পর্কিত কীভাবে এটিউসি বোঝায় বা তা খুঁজে পেতে সক্ষম হয় নি।
উচ্চ এবং নিম্ন অনুসন্ধান করা হয়েছে এবং পূর্বাভাসের সাথে সম্পর্কিত কীভাবে এটিউসি বোঝায় বা তা খুঁজে পেতে সক্ষম হয় নি।
উত্তর:
এআরসি বেশিরভাগ সময় অরোককে বোঝাতে ব্যবহার করা হয়, যা মারক ক্লেসেন উল্লেখ করেছেন যে এওসি অস্পষ্ট (যদিও কোনও বক্ররেখা হতে পারে) অথচ এআরওসি নেই।
AUROC এর বেশ কয়েকটি সমতুল্য ব্যাখ্যা রয়েছে :
আরও যাচ্ছি: কীভাবে অরোকের সম্ভাব্য ব্যাখ্যাটি পাওয়া যায়?
ধরুন আমাদের কাছে লজিস্টিক রিগ্রেশন এর মতো একটি সম্ভাব্য, বাইনারি শ্রেণিবদ্ধ রয়েছে।
আরওসি বক্ররেখা উপস্থাপনের আগে (= রিসিভার অপারেটিং চরিত্রগত বক্ররেখা) কনফিউশন ম্যাট্রিক্সের ধারণাটি বুঝতে হবে। আমরা যখন বাইনারি ভবিষ্যদ্বাণী করি তখন 4 ধরণের ফলাফল হতে পারে:
বিভ্রান্তির ম্যাট্রিক্স পেতে, আমরা মডেল দ্বারা তৈরি সমস্ত পূর্বাভাস পেরিয়েছি, এবং গণনা করি যে এই 4 ধরণের ফলাফলের প্রতিটি কতবার ঘটে:
একটি বিভ্রান্তির ম্যাট্রিক্সের এই উদাহরণে, শ্রেণিবদ্ধ করা হয়েছে এমন 50 টি ডাটা পয়েন্টগুলির মধ্যে 45 টি সঠিকভাবে শ্রেণিবদ্ধ করা হয়েছে এবং 5 টি ভুল শংসায়িত।
যেহেতু দুটি ভিন্ন মডেলের তুলনা করা প্রায়শই একাধিকটির চেয়ে একক মেট্রিক পাওয়া আরও সুবিধাজনক, তাই আমরা বিভ্রান্তির ম্যাট্রিক্স থেকে দুটি মেট্রিক গণনা করি, যা আমরা পরে একত্রিত করব:
এফপিআর এবং টিপিআরকে একটি একক মেট্রিকের সাথে সংযুক্ত করতে, আমরা প্রথমে দুটি প্রাক্তন মেট্রিককে লজিস্টিক রিগ্রেশনের জন্য অনেকগুলি পৃথক প্রান্তিক (উদাহরণস্বরূপ ) দিয়ে গণনা করি , তারপরে সেগুলি একটি গ্রাফে প্লট করুন, অ্যাবসিসায় এফপিআর মান এবং অর্ডিনেটে টিপিআর মান সহ। ফলস্বরূপ বক্ররেখাটিকে আরওসি বক্ররেখা বলা হয়, এবং আমরা যে মেট্রিকটিকে বিবেচনা করি তা এই বক্ররেখার এটিউসি, যাকে আমরা অরওসি বলি।
নিম্নলিখিত চিত্রটি গ্রাফিকভাবে অরোক দেখায়:
এই চিত্রটিতে, নীল অঞ্চলটি রিসিভার অপারেটিং চরিত্রগত (এআরওসি) এর বক্ররেখার সাথে থাকা অঞ্চলের সাথে মিলে যায়। তির্যকরে ড্যাশড লাইনটি আমরা একটি এলোমেলো পূর্বাভাসীর আরওসি বক্ররেখা উপস্থাপন করি: এর 0.5 টি এরওআরওসি রয়েছে। মডেলটি কার্যকর কিনা তা দেখার জন্য এলোমেলো ভবিষ্যদ্বাণী সাধারণত বেসলাইন হিসাবে ব্যবহৃত হয়।
আপনি যদি কিছু প্রথম হাতের অভিজ্ঞতা পেতে চান:
যদিও আমি পার্টিতে কিছুটা দেরি করেছি, তবে আমার 5 সেন্ট এখানে। @ ফ্র্যাঙ্কডেরননকোর্ট (+১) ইতিমধ্যে এওসি আরওসি এর সম্ভাব্য ব্যাখ্যার কথা উল্লেখ করেছে এবং আমার পছন্দের একটিটি তার তালিকার প্রথমটি (আমি ভিন্ন শব্দ ব্যবহার করি, তবে এটি একই):
এই উদাহরণটি বিবেচনা করুন (auc = 0.68):
আসুন এটি অনুকরণ করার চেষ্টা করুন: এলোমেলো ধনাত্মক এবং নেতিবাচক উদাহরণগুলি আঁকুন এবং তারপরে ধনাত্মকগুলির তুলনায় positiveণাত্মক চেয়ে বেশি স্কোর হলে কেসের অনুপাত গণনা করুন
cls = c('P', 'P', 'N', 'P', 'P', 'P', 'N', 'N', 'P', 'N', 'P',
'N', 'P', 'N', 'N', 'N', 'P', 'N', 'P', 'N')
score = c(0.9, 0.8, 0.7, 0.6, 0.55, 0.51, 0.49, 0.43, 0.42, 0.39, 0.33,
0.31, 0.23, 0.22, 0.19, 0.15, 0.12, 0.11, 0.04, 0.01)
pos = score[cls == 'P']
neg = score[cls == 'N']
set.seed(14)
p = replicate(50000, sample(pos, size=1) > sample(neg, size=1))
mean(p)
এবং আমরা 0.67926 পাই। বেশ কাছে, তাই না?
যাইহোক, আরআইতে সাধারণত আরওসি বক্ররেখা অঙ্কন এবং এওসি গণনা করার জন্য আরআরসিআর প্যাকেজ ব্যবহার করা হয়।
library('ROCR')
pred = prediction(score, cls)
roc = performance(pred, "tpr", "fpr")
plot(roc, lwd=2, colorize=TRUE)
lines(x=c(0, 1), y=c(0, 1), col="black", lwd=1)
auc = performance(pred, "auc")
auc = unlist(auc@y.values)
auc
গুরুত্বপূর্ণ বিবেচনাগুলি এই আলোচনার কোনওটিতে অন্তর্ভুক্ত নয়। উপরে উল্লিখিত পদ্ধতিগুলি অনুপযুক্ত থ্রেশহোল্ডিংকে আমন্ত্রণ জানায় এবং ভুল বৈশিষ্ট্যগুলি বেছে নিয়ে এবং তাদেরকে ভুল ওজন প্রদান করে অনুকূলিত হওয়া অনুচিত যথাযথ স্কোরিং নিয়মগুলি (অনুপাত) ব্যবহার করে।
অবিচ্ছিন্ন ভবিষ্যদ্বাণীগুলির দ্বিচোটোমাইজেশন অনুকূল সিদ্ধান্ত তত্ত্বের মুখে উড়ে যায়। আরওসি রেখাচিত্রগুলি কোনও কার্যক্ষম অন্তর্দৃষ্টি সরবরাহ করে না। গবেষকরা সুবিধাগুলি পরীক্ষা না করে এগুলি বাধ্যতামূলক হয়ে পড়েছে। তাদের একটি খুব বড় কালি আছে: তথ্য অনুপাত।
সর্বোত্তম সিদ্ধান্তগুলি "ইতিবাচক" এবং "negativeণাত্মক" বিবেচনা করে না বরং ফলাফলের সম্ভাব্য সম্ভাবনা। ইউটিলিটি / ব্যয় / ক্ষতির ফাংশন, যা আরওসি নির্মাণে কোনও ভূমিকা রাখে না তাই আরওসিগুলির অকেজোতা, ঝুঁকির প্রাক্কলনটিকে সর্বোত্তম (উদাহরণস্বরূপ, সর্বনিম্ন প্রত্যাশিত ক্ষতি) সিদ্ধান্তে অনুবাদ করতে ব্যবহৃত হয়।
একটি পরিসংখ্যানের মডেলের লক্ষ্য প্রায়শই একটি পূর্বাভাস দেওয়া হয় এবং বিশ্লেষকটি প্রায়শই সেখানে থামতে হবে কারণ বিশ্লেষক লোকসানের কার্যটি জানেন না। নিরপেক্ষভাবে বৈধতা দেওয়ার পূর্বাভাসের মূল উপাদানগুলি (উদাহরণস্বরূপ, বুটস্ট্র্যাপ ব্যবহার করে) হ'ল ভবিষ্যদ্বাণীমূলক বৈষম্য (এটি পরিমাপের একটি অর্ধ-ভাল উপায় হ'ল আরওসি এর আওতাধীন ক্ষেত্রের সমান হতে পারে তবে আপনি ডন না করলে আরও সহজে বোঝা যাবে 'টি আরওসি) এবং ক্রমাঙ্কন বক্ররেখা আঁকা। ক্রমাঙ্কন যাচাইকরণ সত্যই, সত্যিই প্রয়োজনীয় যদি আপনি পূর্বাভাসকে পরম স্কেল ব্যবহার করে থাকেন।
আরও তথ্যের জন্য বায়োমেডিকাল রিসার্চ এবং অন্যান্য অধ্যায়গুলির বায়োস্ট্যাটাস্টিকসে তথ্য ক্ষতির অধ্যায়টি দেখুন।
AUC হ'ল বক্ররেখার ক্ষেত্রের জন্য একটি সংক্ষিপ্তসার । শ্রেণীবদ্ধ বিশ্লেষণে এটি ব্যবহৃত ব্যবহৃত মডেলগুলির মধ্যে কোনটি ক্লাসের সেরা পূর্বাভাস দেয় তা নির্ধারণ করতে ব্যবহৃত হয়।
এর প্রয়োগের একটি উদাহরণ হ'ল আরওসি বক্ররেখা। এখানে সত্য ধনাত্মক হারগুলি মিথ্যা ইতিবাচক হারের বিরুদ্ধে চক্রান্ত করা হয়েছে। নীচে একটি উদাহরণ। কোনও মডেলের জন্য নিকটতম এউসি 1 এ আসে, এটি তত ভাল। সুতরাং উচ্চতর এউসি সহ মডেলগুলি কম এওসিগুলির তুলনায় বেশি পছন্দ করা হয়।
দয়া করে মনে রাখবেন, আরওসি বক্ররেখা ছাড়াও অন্যান্য পদ্ধতি রয়েছে তবে সেগুলি সত্য ধনাত্মক এবং মিথ্যা ধনাত্মক হারগুলির সাথেও সম্পর্কিত, যেমন নির্ভুলতা-রিক্যাল, এফ 1-স্কোর বা লরেঞ্জ বক্ররেখা।
auc
আপনি যে ট্যাগটি ব্যবহার করেছেন সেটির