আমার মতো অ-পরিসংখ্যানবিদদের জন্য, VI
মেরিনা মেলিয়া " তুলনা ক্লাস্টারিংস - একটি তথ্য ভিত্তিক দূরত্ব " (মাল্টিভারিয়েট অ্যানালাইসিস, 2007 এর জার্নাল) দ্বারা প্রাসঙ্গিক কাগজ পড়ার পরেও মেট্রিকের (তথ্যের প্রকরণ) ধারণাটি ধারণ করা খুব কঠিন । আসলে, আমি সেখানে ক্লাস্টারিংয়ের অনেক শর্তের সাথে পরিচিত নই।
নীচে একটি এমডব্লিউই রয়েছে এবং আমি জানতে চাইছি ব্যবহৃত বিভিন্ন মেট্রিকগুলিতে আউটপুট কী বোঝায়। আমার কাছে আর এবং একই আইডিতে এই দুটি ক্লাস্টার রয়েছে:
> dput(a)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L,
4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L,
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L,
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L,
4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 4L, 4L, 4L,
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L,
4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
> dput(b)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L,
4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L,
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L,
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L,
3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 3L, 4L, 4L, 4L, 4L,
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L,
4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
এখন VI
অন্যান্য মেট্রিক / সূচকগুলির ভিত্তিতে এবং সাহিত্যে তাদের উপস্থিতির কালক্রমিক ক্রমের ভিত্তিতে তুলনা করা ।
library(igraph)
# Normalized Mutual Information (NMI) measure 2005:
compare(a, b, method = c("nmi"))
[1] 0.8673525
# Variation of Information (VI) metric 2003:
compare(a, b, method = c("vi"))
[1] 0.2451685
# Jaccard Index 2002:
clusteval::cluster_similarity(a, b, similarity = c("jaccard"), method = "independence")
[1] 0.8800522
# van Dongen S metric 2000:
compare(a, b, method = c("split.join"))
[1] 8
# Adjusted Rand Index 1985:
compare(a, b, method = c("adjusted.rand"))
[1] 0.8750403
# Rand Index 1971:
compare(a, b, method = c("rand"))
[1] 0.9374788
আপনি দেখতে পাচ্ছেন যে VI
মানটি অন্য সকলের থেকে আলাদা ছিল।
- এই মানটি কী বলে (এবং এটি নীচের চিত্রের সাথে কীভাবে সম্পর্কিত)?
- এই মানটি কম বা উচ্চ বিবেচনার জন্য গাইডলাইনগুলি কী?
- কোন নির্দেশিকা সংজ্ঞায়িত করা আছে?
ক্ষেত্রের বিশেষজ্ঞরা এই জাতীয় ফলাফলের প্রতিবেদন করার চেষ্টা করার সময় আমার মতো সাধারণ লোকদের জন্য কিছু বুদ্ধিমান বিবরণ প্রদান করতে পারেন। কেউ যদি অন্য মেট্রিকের জন্যও গাইডলাইন সরবরাহ করে তবে আমি সত্যিই প্রশংসা করব (যখন মানটি বড় বা ছোট, অর্থাত্ দুটি ক্লাস্টারের মধ্যে মিলের ক্ষেত্রে))
আমি এখানে এবং এখানে সম্পর্কিত সিভি থ্রেড পড়েছি , তবে এখনও অন্তরঙ্গতাটি বুঝতে পারি নি VI
। কেউ কি সরল ইংরেজিতে এটি ব্যাখ্যা করতে পারেন?
উপরে উল্লিখিত কাগজটি থেকে নীচের চিত্রটি 2 নম্বর VI
।