গুচ্ছ বৈধতার জন্য তথ্য (ষষ্ঠ) মেট্রিকের প্রকরণের পিছনে অন্তর্দৃষ্টি কী?


11

আমার মতো অ-পরিসংখ্যানবিদদের জন্য, VIমেরিনা মেলিয়া " তুলনা ক্লাস্টারিংস - একটি তথ্য ভিত্তিক দূরত্ব " (মাল্টিভারিয়েট অ্যানালাইসিস, 2007 এর জার্নাল) দ্বারা প্রাসঙ্গিক কাগজ পড়ার পরেও মেট্রিকের (তথ্যের প্রকরণ) ধারণাটি ধারণ করা খুব কঠিন । আসলে, আমি সেখানে ক্লাস্টারিংয়ের অনেক শর্তের সাথে পরিচিত নই।

নীচে একটি এমডব্লিউই রয়েছে এবং আমি জানতে চাইছি ব্যবহৃত বিভিন্ন মেট্রিকগুলিতে আউটপুট কী বোঝায়। আমার কাছে আর এবং একই আইডিতে এই দুটি ক্লাস্টার রয়েছে:

> dput(a)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 
4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L, 
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
> dput(b)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 
4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L, 
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L, 
3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")

এখন VIঅন্যান্য মেট্রিক / সূচকগুলির ভিত্তিতে এবং সাহিত্যে তাদের উপস্থিতির কালক্রমিক ক্রমের ভিত্তিতে তুলনা করা ।

library(igraph)
  # Normalized Mutual Information (NMI) measure 2005:
compare(a, b, method = c("nmi")) 
[1] 0.8673525
  # Variation of Information (VI) metric 2003:
compare(a, b, method = c("vi")) 
[1] 0.2451685
  # Jaccard Index 2002:
clusteval::cluster_similarity(a, b, similarity = c("jaccard"), method = "independence") 
[1] 0.8800522
  # van Dongen S metric 2000:
compare(a, b, method = c("split.join")) 
[1] 8
  # Adjusted Rand Index 1985:
compare(a, b, method = c("adjusted.rand")) 
[1] 0.8750403
  # Rand Index 1971:
compare(a, b, method = c("rand")) 
[1] 0.9374788

আপনি দেখতে পাচ্ছেন যে VIমানটি অন্য সকলের থেকে আলাদা ছিল।

  • এই মানটি কী বলে (এবং এটি নীচের চিত্রের সাথে কীভাবে সম্পর্কিত)?
  • এই মানটি কম বা উচ্চ বিবেচনার জন্য গাইডলাইনগুলি কী?
  • কোন নির্দেশিকা সংজ্ঞায়িত করা আছে?

ক্ষেত্রের বিশেষজ্ঞরা এই জাতীয় ফলাফলের প্রতিবেদন করার চেষ্টা করার সময় আমার মতো সাধারণ লোকদের জন্য কিছু বুদ্ধিমান বিবরণ প্রদান করতে পারেন। কেউ যদি অন্য মেট্রিকের জন্যও গাইডলাইন সরবরাহ করে তবে আমি সত্যিই প্রশংসা করব (যখন মানটি বড় বা ছোট, অর্থাত্ দুটি ক্লাস্টারের মধ্যে মিলের ক্ষেত্রে))

আমি এখানে এবং এখানে সম্পর্কিত সিভি থ্রেড পড়েছি , তবে এখনও অন্তরঙ্গতাটি বুঝতে পারি নি VI। কেউ কি সরল ইংরেজিতে এটি ব্যাখ্যা করতে পারেন?

উপরে উল্লিখিত কাগজটি থেকে নীচের চিত্রটি 2 নম্বর VI

এখানে চিত্র বর্ণনা লিখুন


2
এই সমস্ত মিল এবং মেট্রিক্স (দুটি ধরণের পার্থক্যের বিষয়টি নোট করুন) কোনও উপায়ে পরিমাপ করুন বা দুটি পার্টিশনের মধ্যে বৃহত্তম সাধারণ সাবক্লাস্টারিংয়ের সাথে যুক্ত বিভাজনের পরিমাণ। তারা সকলেই যা ব্যবহার করে কনফিউশন ম্যাট্রিক্স হিসাবে পরিচিত। ষষ্ঠ সুনির্দিষ্ট সূত্রটি বিবেচনা করে বোঝা যাবে যে খণ্ডটি পরিমাপ করা হচ্ছে। আমি মাইলা পাবলিকেশনগুলির একটিতে সূত্রটি দেখার পরামর্শ দিচ্ছি এবং এই সমস্ত দূরত্বের স্বাভাবিক সংস্করণগুলিও পড়তে চাই, কারণ সেগুলির সকলের আলাদা আলাদা স্কেল রয়েছে। এটি সবচেয়ে গুরুত্বপূর্ণ পয়েন্ট হতে পারে।
মাইকান

আমিও ষষ্ঠ ব্যাখ্যার সাথে লড়াই করে যাচ্ছিলাম এবং এই নিবন্ধটি খুব দরকারী বলে খুঁজে পেয়েছি !
পিজ্জা

উত্তর:


1

আপনার বুঝতে হবে যে ব্যবস্থাগুলির আলাদা ব্যাখ্যা থাকতে পারে।

আপনার চক্রান্ত থেকে বিচার করা, একটি কম ষষ্ঠ ভাল হয়।

1 - 0.2451685 = 0.7548315

যা অন্যান্য ব্যবস্থার সাথে সামঞ্জস্যপূর্ণ।

তবে নোট করুন যে এই ব্যবস্থাগুলির বেশিরভাগটি আলাদা কিছু পরিমাপ করে

এটি ধরে নেওয়ার কোনও কারণ নেই যে কেবল একটি পরিমাপ 0.8, অন্যটিও 0.8 হওয়া উচিত


আমি মনে করি ওপি এটির প্রশংসা করবে যদি আপনি তাদের প্রত্যেককে কী আলাদা জিনিস পরিমাপ করে তা ব্যাখ্যা করতে পারেন।
গুং - মনিকা পুনরায়

আমি তাদের প্রত্যেককে ব্যাখ্যা করার মতো যথেষ্ট পরিমাণে জানি না। এটি কেবল পরিষ্কার যে এর তুলনামূলক স্কেল / ইউনিট নেই। ঠিক যেমন ভোল্ট এবং পায়ের তুলনা হয় না।
কিউইট আছে - অ্যানি-মউসে
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.