টি-পরীক্ষার সাথে পরিসংখ্যানগত তাত্পর্য জন্য দুটি শ্রেণিবদ্ধ নির্ভুলতার ফলাফলের তুলনা করা

আমি পরিসংখ্যানগত তাৎপর্যের জন্য দুটি শ্রেণিবদ্ধের যথার্থতার তুলনা করতে চাই। উভয় শ্রেণিবদ্ধকারী একই ডেটা সেটটিতে চালিত হয়। এটি আমার বিশ্বাস করতে পরিচালিত করে যে আমি যা পড়ছি তার থেকে আমার একটি নমুনা টি-পরীক্ষা ব্যবহার করা উচিত ।

উদাহরণ স্বরূপ:

Classifier 1: 51% accuracy
Classifier 2: 64% accuracy
Dataset size: 78,000

এটি কি সঠিক পরীক্ষাটি ব্যবহার করা উচিত? যদি তাই হয় তবে শ্রেণিবদ্ধকারের মধ্যে নির্ভুলতার পার্থক্য উল্লেখযোগ্য হলে আমি কীভাবে গণনা করব?

অথবা আমি অন্য পরীক্ষা ব্যবহার করা উচিত?

— ক্রিস
সূত্র

উত্তর:

আপনি যদি কেবল ক্লাসিফায়ারদের একবার প্রশিক্ষণ দেন তবে আমি সম্ভবত ম্যাকনেমার পরীক্ষার জন্য বেছে নেব । ডেভিড বারবার একটি বরং ঝরঝরে বায়েশিয়ান পরীক্ষার পরামর্শও দেয় যা আমার কাছে বরং মার্জিত বলে মনে হয়, তবে বহুল ব্যবহৃত হয় না (এটি তাঁর বইয়েও উল্লেখ করা হয়েছে) )।

কেবল যোগ করার মতো, পিটার ফ্লুম যেমন বলেছেন, উত্তরটি প্রায় অবশ্যই "হ্যাঁ" ঠিক পারফরম্যান্সের পার্থক্য এবং নমুনার আকার দেখে (আমি উদ্ধৃত পরিসংখ্যানগুলি প্রশিক্ষণের সেট পারফরম্যান্সের পরিবর্তে টেস্ট সেট পারফরম্যান্স গ্রহণ করি)।

ঘটনাক্রমে জাপকভিচ এবং শাহের "মূল্যায়ন শিক্ষার অ্যালগরিদম: একটি শ্রেণিবিন্যাসের দৃষ্টিভঙ্গি" নিয়ে একটি সাম্প্রতিক বই বের হয়েছে , আমি এটি পড়ি নি, তবে এগুলি বিভিন্ন ধরণের সমস্যার জন্য একটি দরকারী রেফারেন্সের মতো বলে মনে হচ্ছে।

— ডিকরান মার্সুপিয়াল
সূত্র

এই ফলাফলগুলি পেতে আমি 10-গুণ ক্রস বৈধতা চালিয়ে যাচ্ছি। তার মানে কি তারা আসলে বিভিন্ন ডেটা সেট। এটি মোট আকার, যা ক্রস বৈধকরণে পরীক্ষা / ট্রেনের জন্য বিভক্ত

— ক্রিস

প্রতিটি ভাঁজের জন্য যথাযথতা স্বাধীন হবে না, যা বেশিরভাগ পরিসংখ্যান পরীক্ষার অনুমানকে লঙ্ঘন করবে, তবে সম্ভবত এটি কোনও বড় সমস্যা হবে না। আমি প্রায়শই 100 র্যান্ডম প্রশিক্ষণ / পরীক্ষার বিভাজনগুলি ব্যবহার করি এবং তারপরে উইলকক্সন জোড়যুক্ত স্বাক্ষরিত র‌্যাঙ্ক পরীক্ষা ব্যবহার করি (উভয় শ্রেণিবদ্ধের জন্য একই র্যান্ডম বিভাজনগুলি ব্যবহার করুন)। আমি সেই ধরণের পরীক্ষাকে পছন্দ করি কারণ আমি প্রায়শই ছোট ডেটাসেটগুলি ব্যবহার করি (যেমন আমি অত্যধিক মানায় আগ্রহী) তাই এলোমেলো বিভক্তির মধ্যে পরিবর্তনশীলতা শ্রেণিবদ্ধদের মধ্যে পারফরম্যান্সের পার্থক্যের সাথে তুলনীয় হয়ে থাকে।

— ডিকরান মার্শুপিয়াল

(+1) উইলকক্সনের স্বাক্ষরিত র‌্যাঙ্ক পরীক্ষার জন্য (এবং বইটির লিঙ্ক ... টোক যদি প্রতিশ্রুতি পূরণ করতে পারে তবে এই বইটি সমস্ত এমএলগুলির আবশ্যক পাঠযোগ্য হতে পারে: ও)

— স্টিফেন

আমি শ্রেণিবদ্ধদের তুলনা করার জন্য স্বাক্ষরযুক্ত র‌্যাঙ্ক পরীক্ষার পাশাপাশি জোড়যুক্ত টি-টেস্টও ব্যবহার করেছি। তবে প্রতিবারই আমি এই উদ্দেশ্যে একতরফা পরীক্ষার সাহায্যে রিপোর্ট করার কারণে আমি পর্যালোচকদের কাছ থেকে একটি কঠিন সময় পাই তাই দ্বি-পার্শ্বযুক্ত পরীক্ষাগুলি ব্যবহার করে আবার ফিরে এসেছি!

— বিগ্রিন

ওপ মন্তব্যে স্পষ্ট করে যে প্রশ্নটি আসলে ক্রস-বৈধকরণ সম্পর্কিত ছিল, আপনি কি সম্ভবত এই বিষয়টি কভার করার জন্য আপনার উত্তরটি প্রসারিত করার কথা বিবেচনা করবেন? আমরা তখন কিউ সম্পাদনা করতে পারি। এটি একটি গুরুত্বপূর্ণ বিষয় এবং এখানে বেশ কয়েকটি সম্পর্কিত (বা এমনকি ডুপ্লিকেট) প্রশ্ন রয়েছে তবে কোনওটিরই উত্তর নেই। উপরের একটি মন্তব্যে আপনি সিভি অনুমানের জোড়যুক্ত পরীক্ষাটি ব্যবহার করার পরামর্শ দিয়েছিলেন এবং বলেছিলেন যে এখানে আপনি স্ব-স্বাধীনতা একটি বড় বিষয় বলে মনে করেন না। কেন না? এটি আমার কাছে সম্ভাব্য বৃহত্তর সমস্যার মতো শোনায়!

— অ্যামিবা বলছেন মনিকা

কিছু না চালিয়েও আমি আপনাকে বলতে পারি যে পার্থক্যটি অত্যন্ত পরিসংখ্যানগতভাবে তাত্পর্যপূর্ণ হবে। এটি আইওটিটি পাস করে (আন্তঃকোষীয় ট্রমা পরীক্ষা - এটি আপনাকে চোখের মাঝে আঘাত করে)।

আপনি যদি কোনও পরীক্ষা করতে চান তবে আপনি দুটি অনুপাতের পরীক্ষা হিসাবে এটি করতে পারতেন - এটি দুটি নমুনা টি-পরীক্ষা দিয়ে করা যেতে পারে।

আপনি তার উপাদানগুলির মধ্যে "নির্ভুলতা" ভেঙে দিতে চাইতে পারেন, যদিও; সংবেদনশীলতা এবং নির্দিষ্টতা, বা মিথ্যা-ইতিবাচক এবং মিথ্যা-নেতিবাচক। অনেক অ্যাপ্লিকেশনগুলিতে, বিভিন্ন ত্রুটির দাম একেবারেই আলাদা।

— পিটার ফ্লুম - মনিকা পুনরায়
সূত্র

সম্মত - এটি স্পষ্টভাবে তাৎপর্যপূর্ণ হবে। নিতপিক: আপনি দুটি অনুপাত (আনুমানিক) পরীক্ষা করার জন্য একটি

টেষ্ট ব্যবহার করবেন - এটি

বৃদ্ধি পাওয়ার সাথে সাথে দ্বিপদী বিতরণকে স্বাভাবিক হিসাবে রূপান্তরিত করতে পারে with বিভাগ 5.2 en.wikedia.org/wiki/Statistical_hypothesis_testing

z

$z$

n

$n$

— ম্যাক্রো

দ্বিতীয় চিন্তার, একটি

-test এখনও asymptotically বৈধ হতে পারে CLT দ্বারা, কিন্তু একটি কারণ অবশ্যই

-test সাধারণত এখানে ব্যবহার করা হয়।

t

$t$

z

$z$

— ম্যাক্রো

আমার প্রশ্নে আমি যে নির্ভুলতা রেখেছি তা কেবল একটি উদাহরণ।

— ক্রিস

যথার্থতা যেহেতু, নমুনাগুলির অনুপাত সঠিকভাবে শ্রেণিবদ্ধ করা হয়েছে তাই আমরা দুটি অনুপাতের একটি সিস্টেম সম্পর্কিত অনুমানের পরীক্ষাটি প্রয়োগ করতে পারি।

যাক এবং accuracies যথাক্রমে ক্লাসিফায়ার 1 এবং 2 থেকে প্রাপ্ত হও, নমুনার সংখ্যা হতে। শ্রেণিবদ্ধ 1 এবং 2 তে সঠিকভাবে শ্রেণিবদ্ধ নমুনাগুলির সংখ্যা যথাক্রমে এবং । $\hat p_1$ $\hat p_2$ $n$ $x_1$ $x_2$

$\hat p_1 = x_1/n,\quad \hat p_2 = x_2/n$

পরীক্ষার পরিসংখ্যান দ্বারা দেওয়া হয়

$\displaystyle Z = \frac{\hat p_1 - \hat p_2}{\sqrt{2\hat p(1 -\hat p)/n}}\qquad$ where $\quad\hat p= (x_1+x_2)/2n$

Our intention is to prove that the global accuracy of classifier 2, i.e., $p_2$ , is better than that of classifier 1, which is $p_1$ . This frames our hypothesis as

$H_0: p_1 = p_2\quad$ (null hypothesis stating both are equal)
$H_a: p_1 < p_2\quad$ (alternative hypotyesis claiming the newer one is better than the existing)

The rejection region is given by

$Z < -z_\alpha \quad$ (if true reject $H_0$ and accept $H_a$ )

where $z_\alpha$ is obtained from a standard normal distribition that pertains to a level of significance, $\alpha$ . For instance $z_{0.5} = 1.645$ for 5% level of significance. This means that if the relation $Z < -1.645$ is true, then we could say with 95% confidence level ( $1-\alpha$ ) that classifier 2 is more accurate than classifier 1.

References:

R. Johnson and J. Freund, Miller and Freund’s Probability and Statistics for Engineers, 8th Ed. Prentice Hall International, 2011. (Primary source)
Test of Hypothesis-Concise Formula Summary. (Adopted from [1])

— Ébe Isaac
সূত্র

Shouldn't

\hat{p}

$\quad\hat p$ be the average of

{\hat{p}}_{1}

$\hat p_1$ and

{\hat{p}}_{2}

$\hat p_2$ ? So the denominator should be 2n in

\hat{p} = (x_{1} + x_{2}) / 2 n

$\quad\hat p= (x_1+x_2)/2n$ .

— Shiva Tp

Though I agree that a test for proportions could be used, there is nothing in the original question that suggests a one-sided test is appropriate. Moreover, "we could say with 95% confidence" is a common misinterpretation. See e.g. here: metheval.uni-jena.de/lehre/0405-ws/evaluationuebung/haller.pdf

— Frans Rodenburg

@ShivaTp Indeed. Thanks for pointing the much needed typo correction. Edit confirmed.

— Ébe Isaac