ফ্রিডম্যান টেস্ট বনাম উইলকক্সন পরীক্ষা


11

আমি একটি তত্ত্বাবধানে থাকা মেশিন লার্নিং শ্রেণিবদ্ধকরণ অ্যালগরিদমের কার্যকারিতা মূল্যায়নের চেষ্টা করছি trying পর্যবেক্ষণগুলি নামমাত্র শ্রেণিতে পড়ে (আপাতত ২, তবে আমি এটি বহু শ্রেণীর সমস্যায় সাধারণীকরণ করতে চাই), এটি 99 টি বিষয়ের জনসংখ্যা থেকে প্রাপ্ত।

আমি যে প্রশ্নের উত্তর দিতে সক্ষম হতে চাই তার মধ্যে একটি হল, যদি আলগরিদম ইনপুট ক্লাসগুলির মধ্যে শ্রেণিবদ্ধকরণের যথার্থতার ক্ষেত্রে উল্লেখযোগ্য পার্থক্য প্রদর্শন করে। বাইনারি শ্রেণিবদ্ধকরণের ক্ষেত্রে আমি জোড়িত উইলকক্সন পরীক্ষা ব্যবহার করে বিষয়গুলি জুড়ে ক্লাসগুলির মধ্যে গড় নির্ভুলতার তুলনা করছি (যেহেতু অন্তর্নিহিত বিতরণটি স্বাভাবিক নয়)। এই পদ্ধতিটি বহু-শ্রেণীর সমস্যাগুলিতে সাধারণীকরণের জন্য আমি একটি ফ্রেডম্যান টেস্ট ব্যবহারের উদ্যোগ নিয়েছিলাম ।

যাইহোক, বাইনারি চতুর্থ ক্ষেত্রে এই দুটি পদ্ধতির দ্বারা প্রাপ্ত পি মানগুলি হিংস্রভাবে পরিবর্তিত হয়, উইলকক্সন পরীক্ষার ফলন পাওয়া যায় p < .001যেখানে p = .25ফ্রেডম্যান পরীক্ষার জন্য। এটি আমাকে বিশ্বাস করতে পরিচালিত করে যে ফ্রেডম্যান পরীক্ষার কাঠামোর বিষয়ে আমার কাছে একটি মৌলিক ভুল বোঝাবুঝি।

সমস্ত বিষয় জুড়ে নির্ভুলতার পুনরাবৃত্তি ব্যবস্থার ফলাফলের তুলনা করার জন্য এই ক্ষেত্রে ফ্রেডম্যান পরীক্ষা ব্যবহার করা কি উপযুক্ত নয়?

এই ফলাফলগুলি পেতে আমার আর কোড ( subjectবিষয় শনাক্তকারী, accনির্ভুল ডিভি এবং expectedপর্যবেক্ষণ শ্রেণি চতুর্থ):

> head(subject.accuracy, n=10)
   subject expected        acc
1       10     none 0.97826087
2       10     high 0.55319149
3      101     none 1.00000000
4      101     high 0.68085106
5      103     none 0.97826087
6      103     high 1.00000000
7      104     none 1.00000000
8      104     high 0.08510638
9      105     none 0.95121951
10     105     high 1.00000000
> ddply(subject.accuracy, .(expected), summarise, mean.acc = mean(acc), se.acc = sd(acc)/sqrt(length(acc)))
  expected  mean.acc     se.acc
1     none 0.9750619 0.00317064
2     high 0.7571259 0.03491149
> wilcox.test(acc ~ expected, subject.accuracy, paired=T)

    Wilcoxon signed rank test with continuity correction

data:  acc by expected
V = 3125.5, p-value = 0.0003101
alternative hypothesis: true location shift is not equal to 0

> friedman.test(acc ~ expected | subject, subject.accuracy)

    Friedman rank sum test

data:  acc and expected and subject
Friedman chi-squared = 1.3011, df = 1, p-value = 0.254

আমি নিশ্চিত নই যে আপনার কলের জন্য wilcox.testদুটি শর্তের অধীনে নির্ভুলতার তুলনা করে একটি স্বাক্ষরিত র‌্যাঙ্ক পরীক্ষা করা হয়েছে, কারণ আপনি কখনই এটি জুটি পরিবর্তনশীল বলবেন না। খুব কমপক্ষে এটি পরীক্ষা চালানোর একটি অনিরাপদ উপায়, কারণ এটি ইনপুট ডেটাতে সারিগুলির ক্রম নির্ভর করে।
আনিকো 30'14

উত্তর:


11

ফ্রিডম্যান টেস্ট উইলকক্সন পরীক্ষার সম্প্রসারণ নয়, সুতরাং যখন আপনার কাছে মাত্র 2 সম্পর্কিত নমুনা থাকে এটি উইলকক্সন স্বাক্ষরিত র‌্যাঙ্ক পরীক্ষার মতো নয়। পরবর্তী ক্ষেত্রে কোনও মামলার মধ্যে পার্থক্যের মাত্রা দেখা যায় (এবং তারপরে এটি কেসগুলি জুড়ে চিহ্নিত করে), যেখানে ফ্রেডম্যান কেবল একটি মামলার মধ্যে থাকে (এবং কোনও ক্ষেত্রেই দেখা যায় না): এটি কম সংবেদনশীল।

ফ্রাইডম্যান আসলে সাইন টেস্টের প্রায় বর্ধিতাংশ । ২ টি নমুনা সহ, তাদের পি-মানগুলি খুব কাছাকাছি, ফ্রেডম্যানের সাথে আরও কিছুটা রক্ষণশীল (এই দুটি পরীক্ষাগুলি কিছুটা ভিন্ন উপায়ে সম্পর্কগুলির আচরণ করে)। নমুনার আকার বাড়ার সাথে সাথে এই ছোট পার্থক্যটি দ্রুত অদৃশ্য হয়ে যায়। সুতরাং, দুটি সম্পর্কিত নমুনার জন্য এই দুটি পরীক্ষা সত্যিই পিয়ার বিকল্প।

উইলকক্সনের সমতুল্য - ফ্রিডম্যান স্বাক্ষর করতে একই অর্থে - খুব পরিচিত কোয়েড পরীক্ষা নয়, উদাহরণস্বরূপ এখানে উল্লেখ করা হয়েছে: http://www.itl.nist.gov/div898/software/dataplot/refman1/ সহায়ক / friedman.htm

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.