আরওসি এউসি, সংবেদনশীলতা এবং নির্দিষ্টতার সাথে দুটি শ্রেণিবদ্ধের তুলনা করার জন্য পরিসংখ্যানগত তাত্পর্য (পি-মান)


14

আমার কাছে 100 টি কেস এবং দুটি শ্রেণিবদ্ধের একটি টেস্ট সেট রয়েছে।

আমি পূর্বাভাস এবং গণিত আরওসি এউসি তৈরি করেছি, সংবেদনশীলতা এবং উভয় শ্রেণিবদ্ধের জন্য নির্দিষ্টতা।

প্রশ্ন 1: আমি সমস্ত স্কোর (আরওসি এউসি, সংবেদনশীলতা, স্পষ্টতা) এর সাথে অন্যের তুলনায় একজনের তুলনায় উল্লেখযোগ্যভাবে ভাল কিনা তা পরীক্ষা করতে আমি কীভাবে পি-ভ্যালু গণনা করতে পারি?


এখন, 100 টি ক্ষেত্রে একই পরীক্ষার সেটের জন্য, প্রতিটি মামলার জন্য আমার আলাদা এবং স্বতন্ত্র বৈশিষ্ট্য অ্যাসাইনমেন্ট রয়েছে। এটি কারণ আমার বৈশিষ্ট্যগুলি স্থির তবে বিষয়গত এবং একাধিক (5) বিষয় সরবরাহ করে provided

সুতরাং, আমি আমার পরীক্ষার সেটটির 5 "সংস্করণ" এর জন্য আবার আমার দুটি শ্রেণিবদ্ধকে মূল্যায়ন করেছি এবং উভয় শ্রেণিবদ্ধের জন্য 5 টি আরওসি এউসি, 5 সংবেদনশীলতা এবং 5 টি বৈশিষ্ট্য পেয়েছি। তারপরে, আমি উভয় শ্রেণিবদ্ধের জন্য 5 টি বিষয়ের জন্য পারফরম্যান্স পরিমাপের গড়কে গণনা করেছি (যার অর্থ আরওসি এউসি, সংবেদনশীলতা এবং গড় স্পষ্টতা)।

প্রশ্ন 2: আমি স্কোর মানে (আরওসি এউসি বলতে বোঝায় সংবেদনশীলতা, মানে স্পেসিফিকেশন) এর চেয়ে অন্যটির তুলনায় অন্যটি তুলনামূলকভাবে ভাল কিনা তা পরীক্ষা করার জন্য আমি পি-ভ্যালু কীভাবে গণনা করতে পারি?


পাইথন (পছন্দসই) বা ম্যাটল্যাব কোড সহ কয়েকটি উদাহরণ সহ উত্তরগুলি স্বাগত অপেক্ষা বেশি।


দুজনের মধ্যে সেরা শ্রেণিবদ্ধকারী পেতে নির্ভুলতা, নির্ভুলতা, এউসি এর সরাসরি তুলনা করুন। পি-মান এখানে বোঝায় না। মডেলটি এলোমেলো / 50-50 অ্যাসাইনমেন্টের (নাল / বিকল্প অনুমানের পরীক্ষা হিসাবে) তুলনায় আরও ভাল কাজ করছে কিনা তা মূল্যায়নের প্রসঙ্গে ব্যবহৃত হয়েছে
নিশাদ

2
প্রথমত, আমি একমত নই যে পি-মান ব্যবহার করে দুটি পারফরম্যান্সের ব্যবস্থার তুলনাটি এখানে অর্থপূর্ণ নয়। আমি দেখতে পাচ্ছি যে একটি শ্রেণিবদ্ধের কাছে এউসি 0.80 এবং অন্যটি 0.85 রয়েছে। আমার নাল হাইপোথিসিসটি হ'ল উভয় শ্রেণিবদ্ধের পারফরম্যান্সে কোনও পার্থক্য নেই। পার্থক্যটি পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ কিনা তা আমি জানতে চাই।
kostek

2
দ্বিতীয়ত, আমি আমার মডেলের 5 সংস্করণ তৈরি করি না। আমার দুটি পৃথক প্রশিক্ষণ সেটকে প্রশিক্ষণ দেওয়া হয়েছে এবং এখন আমি আমার পরীক্ষার সেটটির 5 টি ভিন্ন "সংস্করণ" এ তাদের মূল্যায়ন করি। উভয় শ্রেণিবদ্ধের জন্য আমার গড় পারফরম্যান্স রয়েছে (উদাঃ 0.81 এউসি এবং 0.84 এউসি) এবং পার্থক্যটি পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ কিনা তা পরীক্ষা করতে চাই।
kostek

1
আমি বলব না যে আমি যা করছি তা ক্রস বৈধতার কাছাকাছি। আমার ক্ষেত্রে, বৈশিষ্ট্যগুলির মানগুলি তাদের সরবরাহ করে এমন বিষয়ের উপর নির্ভর করে। আমি জানি যে মডেলগুলির তুলনা করতে এওসি ব্যবহার করা যেতে পারে, তবে আমি জানতে চাই যে আমার সেটিংয়ে আমার তুলনার ফলাফলটি পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ কিনা। আমি নিশ্চিত যে এটি করা যেতে পারে এবং এটি এটি করতে অনেক অর্থবোধ করে। আমার প্রশ্নটি এটি কীভাবে করা যায়।
kostek

3
আমি নিশ্চিত না যে নিশাদ কী অর্জন করছে, আপনি যদি মডেলগুলি একে অপরের থেকে উল্লেখযোগ্যভাবে পৃথক হয়ে থাকেন তা নির্ধারণের জন্য আপনি একটি অনুমান পরীক্ষা ব্যবহার করতে পারেন এবং হওয়া উচিত। আপনার মেট্রিকগুলির স্ট্যান্ডার্ড বিচ্যুতি বিদ্যমান এবং নমুনার আকার বৃদ্ধি পাওয়ার সাথে সাথে আরও ছোট হয়ে উঠবে (সমস্ত জিনিস সমান হচ্ছে)। আপনার কাছে মাত্র ১০ টি নমুনা থাকলে 0.8 এবং 0.9 এর মধ্যে একটি এউসি পার্থক্যটি তাত্পর্যপূর্ণ নাও হতে পারে তবে আপনার যদি 10 এম নমুনা থাকে তবে খুব তাৎপর্যপূর্ণ হতে পারে। আমি ক্রস-বৈধতার সাথে কোনও সম্পর্ক দেখতে ব্যর্থ। যদি আমি পারতাম তবে মন্তব্যগুলি ডাউন-ভোট দিন।
পারমাণবিক ওয়াং

উত্তর:


11

ভোজটেক জে। ক্রজানোভস্কি এবং ডেভিড জে। হ্যান্ড আরআরসি কার্ভস অফ কনটিনিউস ডেটা (২০০৯) আরওসি বক্ররেখা সম্পর্কিত সমস্ত কিছুর জন্য দুর্দান্ত রেফারেন্স। হতাশাজনকভাবে বিস্তৃত সাহিত্যের ভিত্তি কী, এর ক্ষেত্রে এটি বেশ কয়েকটি ফলাফল সংগ্রহ করে যা প্রায়শই একই বিষয় নিয়ে আলোচনার জন্য বিভিন্ন পরিভাষা ব্যবহার করে।

অধিকন্তু, এই বইটি বিকল্প পদ্ধতির ভাষ্য এবং তুলনাগুলি সরবরাহ করে যা একই পরিমাণের অনুমান করার জন্য উত্পন্ন হয়েছে এবং উল্লেখ করেছে যে কিছু পদ্ধতি অনুমানগুলি তৈরি করে যা বিশেষ প্রেক্ষাপটে অক্ষম হতে পারে। এটি এমনই একটি প্রসঙ্গ; অন্যান্য উত্তরগুলি হ্যানলি ও ম্যাকনিল পদ্ধতিটি রিপোর্ট করে, যা স্কোর বিতরণের জন্য দ্বি-দ্বৈত মডেল গ্রহণ করে, যা ক্লাস স্কোর বিতরণ স্বাভাবিকের (কাছাকাছি) নয় এমন ক্ষেত্রে অনুচিত হতে পারে। সাধারণভাবে বিতরণ করা স্কোরগুলির অনুমান আধুনিক প্রসঙ্গে বিশেষভাবে অনুচিত বলে মনে হয় , মতো সাধারণ সাধারণ মডেলগুলি শ্রেণিবিন্যাসের কাজের জন্য "বাথটব" বিতরণ দিয়ে স্কোর তৈরি করার প্রবণতা (যা, 0 এবং 1 এর নিকটবর্তী মাত্রায় উচ্চ ঘনত্ব সহ বিতরণ) )।

প্রশ্ন 1 - এউসি

বিভাগ 6.3 দুটি আরওসি বক্ররেখার জন্য পিওসি এউসির তুলনা আলোচনা করেছে (পিপি 113-114)। বিশেষ করে, আমার বোঝার যে এই দুই মডেলের হয় হয় সম্পর্কিত, তাই কিভাবে গনা সম্পর্কে তথ্য এখানে সমালোচকদের গুরুত্বপূর্ণ; অন্যথায়, আপনার পরীক্ষার পরিসংখ্যান পক্ষপাতদুষ্ট হবে কারণ এটি পারস্পরিক সম্পর্কের অবদানের জন্য অ্যাকাউন্ট করে না।r

অসামঞ্জস্যিত আরওসি কার্ভগুলির ক্ষেত্রে কোনও প্যারাম্যাট্রিক বিতরণ অনুমানের ভিত্তিতে নয়, টু এবং আত্মবিশ্বাসের ব্যবস্থাগুলির তুলনায় এউসি'র তুলনা করা পরিসংখ্যানগুলি এবং ^ এউসি 2 এর মূল্য নির্ধারণের উপর ভিত্তি করে , এবং তাদের স্ট্যান্ডার্ড বিচ্যুতি এস 1 এবং অনুমানের উপর ভিত্তি করে তৈরি করা যেতে পারে এস 2 , বিভাগে 3.5.1 হিসাবে দেওয়া হয়েছে:AUC^1AUC^2S1S2

Z=AUC^1AUC^2S12+S22

উভয় শ্রেণিবদ্ধের জন্য একই ডেটা ব্যবহৃত হয় সেই ক্ষেত্রে এই জাতীয় পরীক্ষা করাতে আমাদের এউসি অনুমানের মধ্যে পারস্পরিক সম্পর্কের বিষয়টি গ্রহণ করতে হবে:

z=AUC^1AUC^2S12+S22rS1S2

এই পারস্পরিক সম্পর্কের অনুমান যেখানে । Hanley এবং McNeil (1983) যেমন একটি এক্সটেনশন তৈরি binormal ক্ষেত্রে তাদের বিশ্লেষণ ভিত্তিবিন্দু, কিন্তু শুধুমাত্র কিভাবে আনুমানিক পারস্পরিক সম্পর্কের সহগের নিরূপণ করা দেখানোর সময় একটি টেবিল দিলেন পারস্পরিক সম্পর্ক থেকে পি বর্গ পি তাতে থাকা দুটি ক্লাসিফায়ার, এবং এর পারস্পরিক সম্পর্ক N বর্গ এন তাতে থাকা দুটি ক্লাসিফায়ার এই বলে যে গাণিতিক শিক্ষাদীক্ষা অনুরোধের ভিত্তিতে উপলব্ধ ছিল। অন্যান্য বিভিন্ন লেখক (উদাঃ Zou, 2001) বাইনরমাল মডেলের উপর ভিত্তি করে পরীক্ষা তৈরি করেছেন, ধরে নিয়েছেন যে একটি উপযুক্ত রূপান্তর পাওয়া যাবে যা একই সাথে পি এবং এন ক্লাসের স্কোর বিতরণকে স্বাভাবিক রূপান্তরিত করবে।rrrPrn

দেওলং এট আল (1988) এইউসি এবং মান-হুইটনি পরীক্ষার পরিসংখ্যানের মধ্যে পরিচয়ের সুযোগ নিয়েছিলেন এবং একসাথে সেনের (1960) জেনারেলাইজড স্টাটিস্টিক তত্ত্বের ফলাফলের সাথে এটিউসগুলির মধ্যে পারস্পরিক সম্পর্কের একটি অনুমান পেতে পেরেছিলেন বাইনারাল অনুমানের উপর নির্ভর করে না। আসলে, ডিলং এট আল (1988) কে 2 শ্রেণিবদ্ধের মধ্যে তুলনার জন্য নিম্নলিখিত ফলাফলগুলি উপস্থাপন করেছে ।Uk2

৩.৩.১ বিভাগে, আমরা দেখিয়েছি যে অনুশীলনামূলক আরওসি বক্ররেখার অঞ্চলটি মান-হুইটনি স্ট্যাটিস্টিকের সমান এবং এটি দিয়েছিলU

যেখানেএসপিআই,আই=1,,এনপিক্লাসপিঅবজেক্ট এবংএসএনজে,=1,,এনএনএর জন্য স্কোরনমুনায়ক্লাসএনঅবজেক্টস। ধরুন আমরা আছেক্লাসিফায়ার, স্কোর ফলনশীলগুলিএন ,

AUC^=1nNnPi=1nNj=1nP[I(sPj>sNi)+12I(sPj=sNi)]
sPi,i=1,,nPPsNj,j=1,,nNNk এবং s r P i , j = 1 , , n P [আমি এই অংশে একটি সূচী ত্রুটি সংশোধন করেছি - সাইকোরাক্স], এবং ^ ইউ সি আর , আর = 1 , , কে । নির্ধারণ করাsNjr,j=1nNsPir,j=1,,nPAUC^r,r=1,,k

এবং ভি আর 01 =1

V10r=1nNj=1nN[I(sPir>sNjr)+12I(sPir=sNjr)],i=1,,nP
V01r=1nPi=1nP[I(sPir>sNjr)+12I(sPir=sNjr)],j=1,,nN

পরবর্তী, নির্ধারণ ম্যাট্রিক্স ডব্লিউ 10 সঙ্গে ( , গুলি ) তম উপাদান W , গুলি 10 = 1k×kW10(r,s) এবংকে×কেম্যাট্রিক্সডব্লিউ01সঙ্গে(,গুলি)তম উপাদান W R

w10r,s=1nP1i=1nP[V10r(sPi)AUC^r][V10s(sPi)AUC^s]
k×kW01(r,s) তারপরে ভেক্টরের জন্য অনুমানিত কোভারিয়েন্স ম্যাট্রিক্স( ^ একজন ইউ সি 1,..., ^ একজন ইউ সি
w01r,s=1nN1i=1nN[V01r(sNi)AUC^r][V01s(sNi)AUC^s]
বক্ররেখার অধীনে আনুমানিক অঞ্চলগুলির ডাব্লু = 1(AUC^1,,AUC^k)উপাদানের সঙ্গেW,গুলি। এটি একটি একক অনুমানকৃত এউসির আনুমানিক পরিবর্তনের জন্য ফলাফলটির সাধারণীকরণ, এটি বিভাগে 3.5.1.1 এও দেওয়া হয়েছে। দুই ক্লাসিফায়ার ক্ষেত্রে, estiamted পারস্পরিক সম্পর্কআনুমানিক AUCs মধ্যে এইভাবে দেওয়া হয়W1,2
W=1nPW10+1nNW01
wr,sr যাউপরেরজেডেব্যবহার করা যেতে পারে।w1,2w1,1w2,2z

যেহেতু অন্য উত্তরগুলি হানলি এবং ম্যাকনিলকে এউসি বৈকল্পিকের অনুমানের জন্য এক্সপ্রেশন দেয়, তাই এখানে আমি পি থেকে দেওলং অনুমানকারী পুনরুত্পাদন করব। 68:

sss1F(s)s1G(s)sNisNiPsNivar(sPiN)

AUC^

s2(AUC^)=1nPvar(sPiN)+1nNvar(sNiP)

FGFG

Zz

হাইপোথিসিস টেস্টিং কীভাবে কাজ করে এটি এটি একটি সরল, উচ্চ-স্তরের রূপরেখা:

  • আপনার কথায়, পরীক্ষা করা, "একটি শ্রেণিবদ্ধ অন্যের তুলনায় উল্লেখযোগ্যভাবে উন্নত কিনা" এই নাল অনুমানের পরীক্ষার জন্য পুনরায় কেন্দ্রীভূত করা যেতে পারে যে দুটি মডেলের পরিসংখ্যানটি অসম যে বিকল্প অনুমানের বিরুদ্ধে পরিসংখ্যানগতভাবে সমান এউসি রয়েছে।

  • এটি একটি দ্বি-পুচ্ছ পরীক্ষা।

  • পরীক্ষার পরিসংখ্যান যদি রেফারেন্স বিতরণের সমালোচনামূলক অঞ্চলে থাকে তবে আমরা নাল অনুমানকে প্রত্যাখ্যান করি, যা এই ক্ষেত্রে একটি সাধারণ স্ট্যান্ডার্ড বিতরণ।

  • αz>1.96z<1.96α/21α/2

প্রশ্ন 1 - সংবেদনশীলতা এবং নির্দিষ্টতা

t

sensitivity=tp=P(sP>t)1specificity=fp=P(sN>t)

মূল স্টিকিং পয়েন্টটি যথাযথ পরীক্ষার বিকাশ করছে যে দুটি নমুনা অনুপাতের সাথে সম্পর্কযুক্ত হবে (আপনি একই পরীক্ষার ডেটাতে দুটি মডেল প্রয়োগ করেছেন)। এটি পি। 111।

tpfpt(tp1tp2)/s12tpiis122tp1tp2

tp1tp2

N

tp1=tp2tp1tp2

Model 1 Positive at tModel 1 Negative at tModel 2 Positive at tabModel 2 Negative at tcd

a=i=1nPI(sPi1>t)I(sPi2>t)b=i=1nPI(sPi1t)I(sPi2>t)c=i=1nPI(sPi1>t)I(sPi2t)d=i=1nPI(sPi1t)I(sPi2t)

M=(bc)2b+c
χ12α=95%M>3.841459

sPirsNjr

প্রশ্ন 2

দেখে মনে হচ্ছে যে প্রতিটি প্রতিবেদকের জন্য পূর্বাভাসের মানগুলি গড় করে ফলাফলগুলি মার্জ করার পক্ষে যথেষ্ট, যাতে প্রতিটি মডেলের জন্য আপনার 100 গড় পূর্বাভাসিত মানের 1 ভেক্টর রয়েছে। তারপরে যথারীতি আরওসি এউসি, সংবেদনশীলতা এবং নির্দিষ্টকরণের পরিসংখ্যানগুলি গণনা করুন যেন মূল মডেলগুলির অস্তিত্ব নেই। এটি এমন একটি মডেলিং কৌশল প্রতিফলিত করে যা 5 জন উত্তরদাতাদের প্রত্যেককেই মডেলগুলির একটি "কমিটি" হিসাবে বিবেচনা করে, বাছাইয়ের মতো সাজায় each


আপনার উত্তর এবং প্রদত্ত রেফারেন্সের জন্য ধন্যবাদ। সংবেদনশীলতা এবং নির্দিষ্টতার জন্য পি-মানগুলি সম্পর্কে কী?
kostek

কিউ 1 এর জন্য, এর অর্থ কি এই যে সংবেদনশীলতা এবং নির্দিষ্টতার জন্য পি-ভ্যালু গণনা করার মধ্যে কোনও পার্থক্য নেই এবং তাদের উভয়েরই সবসময় একই পি-মান থাকে এবং আমি কেবল একটি কন্টিজেন্সি টেবিল তৈরি করি এবং তাতে ম্যাকনেমার পরীক্ষা চালাই?
kostek

না, আপনি প্রত্যেকের জন্য একটি করে পরীক্ষা করতেন।
সাইকোরাক্স মনিকাকে

a,b,c,d

@ ড্রে তারা অনুপাত নয়; তারা গণনা। আমি এটি একটি পুনর্বিবেচনায় স্পষ্ট করে তুলি।
সাইকোরাক্স মনিকাকে

2

আমাকে উত্তরটি সংক্ষিপ্ত রাখি, কারণ এই গাইডটি আরও অনেক বেশি এবং আরও ভাল করে ব্যাখ্যা করে

nTPnTN

SEA=A(1A)+(nTP1)(Q1A2)+(nTN1)(Q2A2)nTPnTN

Q1=A/(2A)Q2=2A2/(1+A)

দুটি এউসির তুলনা করতে আপনার উভয়ের ব্যবহার করে সেগুলির এসই গুনতে হবে:

SEA1A2=(SEA1)2+(SEA2)22r(SEA1)(SEA2)

rr=0

প্রদত্ত যে আপনি গণনা করুনz

z=(A1A2)/SEA1A2

সেখান থেকে আপনি একটি আদর্শ সাধারণ বন্টনের সম্ভাব্যতা ঘনত্ব ব্যবহার করে পি-মান গণনা করতে পারেন। অথবা কেবল এই ক্যালকুলেটর ব্যবহার করুন।

এটি আশাবাদী প্রশ্ন 1 এর উত্তর দেয় । - কমপক্ষে অংশটি এউসিগুলির সাথে তুলনা করে। সেনস / স্পেক ইতিমধ্যে কোনওভাবে আরওসি / এওসি দ্বারা আচ্ছাদিত। অন্যথায়, আমি মনে করি উত্তরটি প্রশ্ন 2-এ রয়েছে।

প্রশ্ন 2 হিসাবে , কেন্দ্রীয় সীমাবদ্ধ তত্ত্বটি আমাদের বলে যে আপনার সারসংক্ষেপ পরিসংখ্যানগুলি একটি সাধারণ বিতরণ অনুসরণ করবে। অতএব, আমি মনে করি একটি সাধারণ টি-টেস্টই যথেষ্ট হবে (দ্বিতীয় শ্রেণিবদ্ধের 5 টি ব্যবস্থার বিরুদ্ধে এক শ্রেণিবদ্ধের 5 টি ব্যবস্থা যেখানে পদক্ষেপগুলি এউসি, সংবেদন, স্পেক হতে পারে)

SE2r


প্রদত্ত লিঙ্কগুলির জন্য ধন্যবাদ। প্রশ্ন 1 এর জন্য, আমি যদি সংবেদনশীলতা বা নির্দিষ্টতা হিসাবে এ সেট করি তবে এসই এবং জেড-স্কোর সমীকরণগুলি কি ধরে রাখতে পারে?
kostek

p^

0

প্রশ্ন 1 এর জন্য, @ সাইকোরাক্স একটি বিস্তৃত উত্তর সরবরাহ করেছে।

প্রশ্ন 2 এর জন্য, আমার জ্ঞানের সর্বোত্তম হিসাবে, বিষয়গুলি থেকে গড় অনুমানগুলি ভুল। আমি পি-ভ্যালুগুলি গণনা করতে এবং মডেলগুলির সাথে তুলনা করতে বুটস্ট্র্যাপিং ব্যবহার করার সিদ্ধান্ত নিয়েছি।

এই ক্ষেত্রে, পদ্ধতিটি নিম্নরূপ:

For N iterations:
  sample 5 subjects with replacement
  sample 100 test cases with replacement
  compute mean performance of sampled subjects on sampled cases for model M1
  compute mean performance of sampled subjects on sampled cases for model M2
  take the difference of mean performance between M1 and M2
p-value equals to the proportion of differences smaller or equal than 0

এই পদ্ধতিটি এক-লেজযুক্ত পরীক্ষা করে এবং ধরে নেয় যে এম 1 মানে পারফরম্যান্স> এম 2 মানে পারফরম্যান্স।

একাধিক পাঠকের তুলনা করে পি-মানগুলি গণনা করার জন্য বুটস্ট্র্যাপিংয়ের একটি পাইথন বাস্তবায়ন এই গিটহাব রেপোতে পাওয়া যাবে: https://github.com/mateuszbuda/ML-stat-util

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.