আমার মতে, এখানে বিশাল পার্থক্য রয়েছে। র্যাণ্ড সূচকগুলি যে ক্লাস্টারিংগুলিতে এটি পরিচালনা করে তার গ্রানুলারিটি দ্বারা খুব বেশি প্রভাবিত হয়। এরপরে আমি মিরকিন দূরত্বটি ব্যবহার করব যা র্যান্ড সূচকের একটি সামঞ্জস্য ফর্ম (দেখতে সহজ, তবে উদাহরণস্বরূপ মাইলা)। আমি বিভাজন / যোগ দুরত্বও ব্যবহার করব, যা মাইলার কয়েকটি গবেষণাপত্রেও উল্লেখ করা হয়েছে (অস্বীকৃতি: বিভাজন / যোগ দুরত্ব প্রস্তাব করেছিলেন)। ধরা যাক এক শতাধিক উপাদানের একটি মহাবিশ্ব। আমি সমস্ত উপাদান সমন্বিত একক ক্লাস্টার দিয়ে ক্লাস্টার বোঝাতে শীর্ষ ব্যবহার করব, ক্লাস্টার বোঝাতে নীচে যেখানে সমস্ত নোড পৃথক সিঙ্গলটন সেটে রয়েছে, ক্লাস্টারিং ote {1,2, .. 10}, {11, 12..20}, {21,22..30}, ..., {91,92, .. 100}} , এবং ক্লাস্টারিংকে বোঝানোর অধিকার {{1,11, .. 91}, {2, 12, .. 92}, {3,13, .. 93}, ...,, 10,20, .. 100}।
আমার মতে, নীচে এবং শীর্ষগুলি সামঞ্জস্যপূর্ণ (নেস্টিং) ক্লাস্টার, যেখানে বাম এবং ডান সর্বাধিক বিরোধী ক্লাস্টার। এই দুটি যুগল যুক্ত তুলনার জন্য উল্লিখিত মেট্রিকগুলির দূরত্বগুলি নিম্নরূপ:
Top-Bottom Left-Right
Mirkin 9900 1800
VI 4.605 4.605
Split/join 99 180
এটি অনুসরণ করে যে মিরকিন / র্যান্ড সর্বাধিক বিরোধপূর্ণ বাম-ডান জুটির তুলনায় সামঞ্জস্যপূর্ণ শীর্ষ-নীচের জুটিটি আরও অনেক বেশি বিবেচনা করে। এটি পয়েন্টটি চিত্রিত করার জন্য এটি একটি চূড়ান্ত উদাহরণ, তবে মিরকিন / র্যান্ড সাধারণভাবে এটি যে ক্লাস্টারিংগুলি পরিচালনা করে তার গ্রানুলারিটি দ্বারা খুব বেশি প্রভাবিত হয়। কারণ এই অন্তর্নিহিত এই মেট্রিক এবং ক্লাস্টারের মাপ মধ্যে একটি দ্বিঘাত সম্পর্ক নেই যে, আসলে বেড়ে চলেছে দ্বারা ব্যাখ্যা জোড়া নোড জড়িত আছেন। বাস্তবে, মিরকিন দূরত্ব হ'ল ক্লাস্টারিংস দ্বারা প্ররোচিত সম্পূর্ণ গ্রাফের ইউনিয়নের প্রান্ত সেটগুলির মধ্যে একটি হামিং দূরত্ব (এটি আমার মনে হয় আপনার প্রশ্নের উত্তর)।
তথ্যের ভিন্নতা এবং বিভক্ত / যোগদানের মধ্যে পার্থক্য সম্পর্কে, মাইলা প্রদর্শিত হিসাবে প্রথমটি কয়েকটি বিরোধ সংক্রান্ত পরিস্থিতিতে বেশি সংবেদনশীল। এটি হ'ল, স্প্লিট / জয়েন কেবল প্রতিটি ক্লাস্টারের জন্য সেরা ম্যাচটিকে বিবেচনা করে এবং সেই ক্লাস্টারের অবশিষ্ট অংশে যে খণ্ড হতে পারে তা উপেক্ষা করে, তথ্যের বৈচিত্র্যতা এটি গ্রহণ করবে। এটি বলেছিল, স্প্লিট / জয়েন সহজেই ব্যাখ্যাযোগ্য যা নোডের সংখ্যা হিসাবে অপর থেকে একটি ক্লাস্টার পেতে সরানো প্রয়োজন , এবং সেই অর্থে এর পরিসর আরও সহজে বোঝা যায়; অনুশীলনে বিভাজন সমস্যাটিও সাধারণ নয়।
এই প্রতিটি মেট্রিক দুটি দূরত্বের যোগফল হিসাবে গঠিত হতে পারে, যথা দুটি ক্লাস্টারিংয়ের প্রতিটি থেকে তাদের সর্বশ্রেষ্ঠ সাধারণ সাবক্লাস্টারিংয়ের দূরত্ব। আমি মনে করি কেবলমাত্র তাদের যোগফলের চেয়ে এই পৃথক অংশগুলির সাথে কাজ করা প্রায়শই উপকারী। উপরের টেবিলটি তখন পরিণত হয়:
Top-Bottom Left-Right
Mirkin 0,9900 900,900
VI 0,4.605 2.303,2.303
Split/join 0,99 90,90
টপ এবং বটমের মধ্যে উপস্থাপকের সম্পর্কটি তাত্ক্ষণিকভাবে পরিষ্কার হয়ে যায়। দুটি ক্লাস্টারিংগুলি সুসংগত কিনা (যেমন একটি (প্রায়) অন্যের একটি সাবক্লাস্টারিং) সেগুলি কাছাকাছি কিনা এই প্রশ্নের শিথিলতা হিসাবে এটি প্রায়শই বেশ কার্যকর । একটি ক্লাস্টারিং সোনার স্ট্যান্ডার্ড থেকে বেশ দূরে হতে পারে, তবে এখনও সামঞ্জস্যপূর্ণ বা প্রায় সামঞ্জস্যপূর্ণ হতে পারে। এই জাতীয় ক্ষেত্রে সোনার মানটির সাথে সম্মতভাবে ক্লাস্টারিংটিকে খারাপ বিবেচনা করার কোনও কারণ থাকতে পারে না। অবশ্যই, তুচ্ছ ক্লাস্টারিং শীর্ষ এবং নীচে যে কোনও ক্লাস্টারিংয়ের সাথে সামঞ্জস্য থাকবে , তাই এটি অবশ্যই বিবেচনায় নেওয়া উচিত।
পরিশেষে, আমি বিশ্বাস করি যে মিরকিন, তথ্যের বৈকল্পিককরণ এবং স্প্লিট / জয়েনের মতো মেট্রিকগুলি ক্লাস্টারিংয়ের তুলনা করার প্রাকৃতিক সরঞ্জাম। বেশিরভাগ অ্যাপ্লিকেশন পদ্ধতির জন্য যা পরিসংখ্যানগত স্বতন্ত্রতা সংযুক্ত করার চেষ্টা করে এবং সুযোগের জন্য সঠিক হয় তা স্পষ্ট করে বলার চেয়ে অতিরিক্ত স্বীকৃত এবং অপ্রচলিত হয়।
দ্বিতীয় উদাহরণ
ক্লাস্টারিংয়ের নিম্নলিখিত জোড়াগুলি বিবেচনা করুন:
সি 1 = 1 {1, 2, 3, 4, 5, 6, 7, 8}, {9, 10, 11, 12, 13, 14, 15, 16} C সি 2 সহ = {{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}
এবং
সি 3 = {{1, 2, 3, 4}, {5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}} {{1, 2, 3 , 4}, {5, 6, 7, 8, 9, 10, 11, 12}, {13, 14, 15, 16}
এখানে C2 এ থেকে যাবে গঠিত গ 1 সরিয়ে নোড 9 ও 10 এবং C3 এ থেকে যাবে গঠিত C3 এ নোড 11 এবং 12. উভয় পরিবর্তন সরিয়ে ( "দুই নোড সরাতে") অভিন্ন সত্য যে জড়িত ক্লাস্টার এর মাপ পার্থক্য ছাড়া । এই দুটি উদাহরণের জন্য ক্লাস্টারিং মেট্রিক্স টেবিলটি হ'ল:
C1-C2 C3-C4
Mirkin 56 40
VI 0.594 0.520
Split/Join 4 4
এটি দেখা যায় যে মিরকিন / র্যান্ড এবং তথ্যের বৈকল্পিকতা ক্লাস্টারের আকারগুলি দ্বারা প্রভাবিত হয় (এবং মিরকিন একটি বৃহত পরিমাণে; এটি ক্লাস্টার আকারের বিভাজন হিসাবে আরও বেশি প্রকাশিত হবে), যেখানে বিভক্ত / যোগদানের দূরত্বটি নয় (এর মান 4 হয়) যেহেতু এটি সর্বদা বৃহত্তম সাধারণ সাবক্লাস্টারিংয়ের মাধ্যমে একটি ক্লাস্টারিং থেকে অন্য ক্লাস্টারিং থেকে নোডগুলি "চালিত করে"। এটি পরিস্থিতির উপর নির্ভর করে একটি পছন্দসই বৈশিষ্ট্য হতে পারে। স্প্লিট / জয়েন (সরানো নোডের সংখ্যা) এর সহজ ব্যাখ্যা এবং ক্লাস্টারের আকারের স্বাধীনতা সম্পর্কে সচেতন হওয়ার মতো worth মিরকিন এবং তথ্যের পরিবর্তনের মধ্যে আমি মনে করি যে আধুনিকটি অনেক বেশি পছন্দনীয়।