আমি একটি তত্ত্বাবধানে থাকা মেশিন লার্নিং শ্রেণিবদ্ধকরণ অ্যালগরিদমের কার্যকারিতা মূল্যায়নের চেষ্টা করছি trying পর্যবেক্ষণগুলি নামমাত্র শ্রেণিতে পড়ে (আপাতত ২, তবে আমি এটি বহু শ্রেণীর সমস্যায় সাধারণীকরণ করতে চাই), এটি 99 টি বিষয়ের জনসংখ্যা থেকে প্রাপ্ত।
আমি যে প্রশ্নের উত্তর দিতে সক্ষম হতে চাই তার মধ্যে একটি হল, যদি আলগরিদম ইনপুট ক্লাসগুলির মধ্যে শ্রেণিবদ্ধকরণের যথার্থতার ক্ষেত্রে উল্লেখযোগ্য পার্থক্য প্রদর্শন করে। বাইনারি শ্রেণিবদ্ধকরণের ক্ষেত্রে আমি জোড়িত উইলকক্সন পরীক্ষা ব্যবহার করে বিষয়গুলি জুড়ে ক্লাসগুলির মধ্যে গড় নির্ভুলতার তুলনা করছি (যেহেতু অন্তর্নিহিত বিতরণটি স্বাভাবিক নয়)। এই পদ্ধতিটি বহু-শ্রেণীর সমস্যাগুলিতে সাধারণীকরণের জন্য আমি একটি ফ্রেডম্যান টেস্ট ব্যবহারের উদ্যোগ নিয়েছিলাম ।
যাইহোক, বাইনারি চতুর্থ ক্ষেত্রে এই দুটি পদ্ধতির দ্বারা প্রাপ্ত পি মানগুলি হিংস্রভাবে পরিবর্তিত হয়, উইলকক্সন পরীক্ষার ফলন পাওয়া যায় p < .001
যেখানে p = .25
ফ্রেডম্যান পরীক্ষার জন্য। এটি আমাকে বিশ্বাস করতে পরিচালিত করে যে ফ্রেডম্যান পরীক্ষার কাঠামোর বিষয়ে আমার কাছে একটি মৌলিক ভুল বোঝাবুঝি।
সমস্ত বিষয় জুড়ে নির্ভুলতার পুনরাবৃত্তি ব্যবস্থার ফলাফলের তুলনা করার জন্য এই ক্ষেত্রে ফ্রেডম্যান পরীক্ষা ব্যবহার করা কি উপযুক্ত নয়?
এই ফলাফলগুলি পেতে আমার আর কোড ( subject
বিষয় শনাক্তকারী, acc
নির্ভুল ডিভি এবং expected
পর্যবেক্ষণ শ্রেণি চতুর্থ):
> head(subject.accuracy, n=10)
subject expected acc
1 10 none 0.97826087
2 10 high 0.55319149
3 101 none 1.00000000
4 101 high 0.68085106
5 103 none 0.97826087
6 103 high 1.00000000
7 104 none 1.00000000
8 104 high 0.08510638
9 105 none 0.95121951
10 105 high 1.00000000
> ddply(subject.accuracy, .(expected), summarise, mean.acc = mean(acc), se.acc = sd(acc)/sqrt(length(acc)))
expected mean.acc se.acc
1 none 0.9750619 0.00317064
2 high 0.7571259 0.03491149
> wilcox.test(acc ~ expected, subject.accuracy, paired=T)
Wilcoxon signed rank test with continuity correction
data: acc by expected
V = 3125.5, p-value = 0.0003101
alternative hypothesis: true location shift is not equal to 0
> friedman.test(acc ~ expected | subject, subject.accuracy)
Friedman rank sum test
data: acc and expected and subject
Friedman chi-squared = 1.3011, df = 1, p-value = 0.254
wilcox.test
দুটি শর্তের অধীনে নির্ভুলতার তুলনা করে একটি স্বাক্ষরিত র্যাঙ্ক পরীক্ষা করা হয়েছে, কারণ আপনি কখনই এটি জুটি পরিবর্তনশীল বলবেন না। খুব কমপক্ষে এটি পরীক্ষা চালানোর একটি অনিরাপদ উপায়, কারণ এটি ইনপুট ডেটাতে সারিগুলির ক্রম নির্ভর করে।