টি-পরীক্ষার সাথে পরিসংখ্যানগত তাত্পর্য জন্য দুটি শ্রেণিবদ্ধ নির্ভুলতার ফলাফলের তুলনা করা


17

আমি পরিসংখ্যানগত তাৎপর্যের জন্য দুটি শ্রেণিবদ্ধের যথার্থতার তুলনা করতে চাই। উভয় শ্রেণিবদ্ধকারী একই ডেটা সেটটিতে চালিত হয়। এটি আমার বিশ্বাস করতে পরিচালিত করে যে আমি যা পড়ছি তার থেকে আমার একটি নমুনা টি-পরীক্ষা ব্যবহার করা উচিত ।

উদাহরণ স্বরূপ:

Classifier 1: 51% accuracy
Classifier 2: 64% accuracy
Dataset size: 78,000

এটি কি সঠিক পরীক্ষাটি ব্যবহার করা উচিত? যদি তাই হয় তবে শ্রেণিবদ্ধকারের মধ্যে নির্ভুলতার পার্থক্য উল্লেখযোগ্য হলে আমি কীভাবে গণনা করব?

অথবা আমি অন্য পরীক্ষা ব্যবহার করা উচিত?

উত্তর:


14

আপনি যদি কেবল ক্লাসিফায়ারদের একবার প্রশিক্ষণ দেন তবে আমি সম্ভবত ম্যাকনেমার পরীক্ষার জন্য বেছে নেব । ডেভিড বারবার একটি বরং ঝরঝরে বায়েশিয়ান পরীক্ষার পরামর্শও দেয় যা আমার কাছে বরং মার্জিত বলে মনে হয়, তবে বহুল ব্যবহৃত হয় না (এটি তাঁর বইয়েও উল্লেখ করা হয়েছে) )।

কেবল যোগ করার মতো, পিটার ফ্লুম যেমন বলেছেন, উত্তরটি প্রায় অবশ্যই "হ্যাঁ" ঠিক পারফরম্যান্সের পার্থক্য এবং নমুনার আকার দেখে (আমি উদ্ধৃত পরিসংখ্যানগুলি প্রশিক্ষণের সেট পারফরম্যান্সের পরিবর্তে টেস্ট সেট পারফরম্যান্স গ্রহণ করি)।

ঘটনাক্রমে জাপকভিচ এবং শাহের "মূল্যায়ন শিক্ষার অ্যালগরিদম: একটি শ্রেণিবিন্যাসের দৃষ্টিভঙ্গি" নিয়ে একটি সাম্প্রতিক বই বের হয়েছে , আমি এটি পড়ি নি, তবে এগুলি বিভিন্ন ধরণের সমস্যার জন্য একটি দরকারী রেফারেন্সের মতো বলে মনে হচ্ছে।


1
এই ফলাফলগুলি পেতে আমি 10-গুণ ক্রস বৈধতা চালিয়ে যাচ্ছি। তার মানে কি তারা আসলে বিভিন্ন ডেটা সেট। এটি মোট আকার, যা ক্রস বৈধকরণে পরীক্ষা / ট্রেনের জন্য বিভক্ত
ক্রিস

4
প্রতিটি ভাঁজের জন্য যথাযথতা স্বাধীন হবে না, যা বেশিরভাগ পরিসংখ্যান পরীক্ষার অনুমানকে লঙ্ঘন করবে, তবে সম্ভবত এটি কোনও বড় সমস্যা হবে না। আমি প্রায়শই 100 র্যান্ডম প্রশিক্ষণ / পরীক্ষার বিভাজনগুলি ব্যবহার করি এবং তারপরে উইলকক্সন জোড়যুক্ত স্বাক্ষরিত র‌্যাঙ্ক পরীক্ষা ব্যবহার করি (উভয় শ্রেণিবদ্ধের জন্য একই র্যান্ডম বিভাজনগুলি ব্যবহার করুন)। আমি সেই ধরণের পরীক্ষাকে পছন্দ করি কারণ আমি প্রায়শই ছোট ডেটাসেটগুলি ব্যবহার করি (যেমন আমি অত্যধিক মানায় আগ্রহী) তাই এলোমেলো বিভক্তির মধ্যে পরিবর্তনশীলতা শ্রেণিবদ্ধদের মধ্যে পারফরম্যান্সের পার্থক্যের সাথে তুলনীয় হয়ে থাকে।
ডিকরান মার্শুপিয়াল

2
(+1) উইলকক্সনের স্বাক্ষরিত র‌্যাঙ্ক পরীক্ষার জন্য (এবং বইটির লিঙ্ক ... টোক যদি প্রতিশ্রুতি পূরণ করতে পারে তবে এই বইটি সমস্ত এমএলগুলির আবশ্যক পাঠযোগ্য হতে পারে: ও)
স্টিফেন

3
আমি শ্রেণিবদ্ধদের তুলনা করার জন্য স্বাক্ষরযুক্ত র‌্যাঙ্ক পরীক্ষার পাশাপাশি জোড়যুক্ত টি-টেস্টও ব্যবহার করেছি। তবে প্রতিবারই আমি এই উদ্দেশ্যে একতরফা পরীক্ষার সাহায্যে রিপোর্ট করার কারণে আমি পর্যালোচকদের কাছ থেকে একটি কঠিন সময় পাই তাই দ্বি-পার্শ্বযুক্ত পরীক্ষাগুলি ব্যবহার করে আবার ফিরে এসেছি!
বিগ্রিন

2
ওপ মন্তব্যে স্পষ্ট করে যে প্রশ্নটি আসলে ক্রস-বৈধকরণ সম্পর্কিত ছিল, আপনি কি সম্ভবত এই বিষয়টি কভার করার জন্য আপনার উত্তরটি প্রসারিত করার কথা বিবেচনা করবেন? আমরা তখন কিউ সম্পাদনা করতে পারি। এটি একটি গুরুত্বপূর্ণ বিষয় এবং এখানে বেশ কয়েকটি সম্পর্কিত (বা এমনকি ডুপ্লিকেট) প্রশ্ন রয়েছে তবে কোনওটিরই উত্তর নেই। উপরের একটি মন্তব্যে আপনি সিভি অনুমানের জোড়যুক্ত পরীক্ষাটি ব্যবহার করার পরামর্শ দিয়েছিলেন এবং বলেছিলেন যে এখানে আপনি স্ব-স্বাধীনতা একটি বড় বিষয় বলে মনে করেন না। কেন না? এটি আমার কাছে সম্ভাব্য বৃহত্তর সমস্যার মতো শোনায়!
অ্যামিবা বলছেন মনিকা

4

কিছু না চালিয়েও আমি আপনাকে বলতে পারি যে পার্থক্যটি অত্যন্ত পরিসংখ্যানগতভাবে তাত্পর্যপূর্ণ হবে। এটি আইওটিটি পাস করে (আন্তঃকোষীয় ট্রমা পরীক্ষা - এটি আপনাকে চোখের মাঝে আঘাত করে)।

আপনি যদি কোনও পরীক্ষা করতে চান তবে আপনি দুটি অনুপাতের পরীক্ষা হিসাবে এটি করতে পারতেন - এটি দুটি নমুনা টি-পরীক্ষা দিয়ে করা যেতে পারে।

আপনি তার উপাদানগুলির মধ্যে "নির্ভুলতা" ভেঙে দিতে চাইতে পারেন, যদিও; সংবেদনশীলতা এবং নির্দিষ্টতা, বা মিথ্যা-ইতিবাচক এবং মিথ্যা-নেতিবাচক। অনেক অ্যাপ্লিকেশনগুলিতে, বিভিন্ন ত্রুটির দাম একেবারেই আলাদা।


সম্মত - এটি স্পষ্টভাবে তাৎপর্যপূর্ণ হবে। নিতপিক: আপনি দুটি অনুপাত (আনুমানিক) পরীক্ষা করার জন্য একটি টেষ্ট ব্যবহার করবেন - এটি n বৃদ্ধি পাওয়ার সাথে সাথে দ্বিপদী বিতরণকে স্বাভাবিক হিসাবে রূপান্তরিত করতে পারে with বিভাগ 5.2 en.wikedia.org/wiki/Statistical_hypothesis_testingzn
ম্যাক্রো

দ্বিতীয় চিন্তার, একটি -test এখনও asymptotically বৈধ হতে পারে CLT দ্বারা, কিন্তু একটি কারণ অবশ্যই z- র -test সাধারণত এখানে ব্যবহার করা হয়। tz
ম্যাক্রো

2
আমার প্রশ্নে আমি যে নির্ভুলতা রেখেছি তা কেবল একটি উদাহরণ।
ক্রিস

0

যথার্থতা যেহেতু, নমুনাগুলির অনুপাত সঠিকভাবে শ্রেণিবদ্ধ করা হয়েছে তাই আমরা দুটি অনুপাতের একটি সিস্টেম সম্পর্কিত অনুমানের পরীক্ষাটি প্রয়োগ করতে পারি।

যাক পি 1 এবং পি 2 accuracies যথাক্রমে ক্লাসিফায়ার 1 এবং 2 থেকে প্রাপ্ত হও, এন নমুনার সংখ্যা হতে। শ্রেণিবদ্ধ 1 এবং 2 তে সঠিকভাবে শ্রেণিবদ্ধ নমুনাগুলির সংখ্যা যথাক্রমে x 1 এবং x 2p^1p^2nx1x2

p^1=x1/n,p^2=x2/n

পরীক্ষার পরিসংখ্যান দ্বারা দেওয়া হয়

Z=p^1p^22p^(1p^)/n where p^=(x1+x2)/2n

Our intention is to prove that the global accuracy of classifier 2, i.e., p2, is better than that of classifier 1, which is p1. This frames our hypothesis as

  • H0:p1=p2 (null hypothesis stating both are equal)
  • Ha:p1<p2 (alternative hypotyesis claiming the newer one is better than the existing)

The rejection region is given by

Z<zα (if true reject H0 and accept Ha)

where zα is obtained from a standard normal distribition that pertains to a level of significance, α. For instance z0.5=1.645 for 5% level of significance. This means that if the relation Z<1.645 is true, then we could say with 95% confidence level (1α) that classifier 2 is more accurate than classifier 1.

References:

  1. R. Johnson and J. Freund, Miller and Freund’s Probability and Statistics for Engineers, 8th Ed. Prentice Hall International, 2011. (Primary source)
  2. Test of Hypothesis-Concise Formula Summary. (Adopted from [1])

Shouldn't p^ be the average of p^1 and p^2? So the denominator should be 2n in p^=(x1+x2)/2n.
Shiva Tp

Though I agree that a test for proportions could be used, there is nothing in the original question that suggests a one-sided test is appropriate. Moreover, "we could say with 95% confidence" is a common misinterpretation. See e.g. here: metheval.uni-jena.de/lehre/0405-ws/evaluationuebung/haller.pdf
Frans Rodenburg

@ShivaTp Indeed. Thanks for pointing the much needed typo correction. Edit confirmed.
Ébe Isaac
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.