ক্লাস্টারিংগুলির তুলনা: র‌্যান্ড সূচক বনাম তথ্যের বৈচিত্র্য


21

আমি ভাবছিলাম যে ক্লাস্টারিংয়ের তুলনা করার জন্য তথ্যের ভেরিয়েশন এবং র‌্যান্ড সূচকগুলির মধ্যে পার্থক্যের পিছনে কারও কোনও অন্তর্দৃষ্টি বা অন্তর্দৃষ্টি আছে কিনা ।

আমি ম্যারিনা মেলিয়া (তুলনামূলক ক্লাস্টারিংস - একটি তথ্য ভিত্তিক দূরত্ব) পত্রিকাটি পড়েছি (মাল্টিভায়েট অ্যানালাইসিসের জার্নাল, 2007), তবে, সংজ্ঞাগুলির মধ্যে পার্থক্যটি লক্ষ্য করা ছাড়া, আমি বুঝতে পারি না যে এটির তথ্যের প্রকরণটি কী ক্যাপচার করে যে র‌্যান্ড সূচক ক্যাপচার করে না।

উত্তর:


8

দুটি পদ্ধতির মধ্যে পার্থক্যটি সূক্ষ্ম। এটি সম্পর্কে চিন্তা করার সর্বোত্তম উপায় হ'ল ক্লাস্টারিংগুলিতে মার্জ-স্প্লিট অপারেশন দ্বারা সংজ্ঞায়িত জালিকে বিবেচনা করা। এই দুটি পদক্ষেপই একটি ক্লাস্টারিতে ফাংশন সংজ্ঞায়িত করে এবং তারপর সূত্র দ্বারা দুটি ক্লাস্টারিংয়ের মধ্যে দূরত্ব নির্ধারণ করে পুনর্গঠন করা যেতে পারে :

(সি,সি')=(সি)+ +(সি')-2(সিসি')
যেখানে জালির দুটি ক্লাস্টারিংয়ের যোগসূত্র।সিসি'

এখন যাক এবং। সেট উৎপাদনের রান্ড সূচক, এবং সেটিং উৎপাদনের ষষ্ঠ।সি={সি1,সি2,...,সি}এনআমি=|সিআমি|(সি)=Σএনআমি2(সি)=Σএনআমিলগএনআমি


ধন্যবাদ সুরেশ! আপনি কি জানেন যে (এবং কীভাবে) এই সূত্রগুলির পার্থক্য ব্যাখ্যা করে যে কেন র‌্যাণ্ড সূচক এবং তথ্যের প্রকরণটি পৃথকভাবে ক্লাস্টারিংয়ের মধ্যে ধারাবাহিকতাটিকে (এক ক্লাস্টারিংগুলির মধ্যে একটির কতগুলি বিয়োগফলককে আরও বেশি) দণ্ডিত করে? (micans'answer অনুযায়ী)
আমেলিও

2
মিকানরা যেমন উল্লেখ করেছে, র‌্যান্ড সূচকের চতুর্ভুজীয় আচরণ রয়েছে, সুতরাং এটি লৌকিকের কাছাকাছি থাকা এনট্রপি ফাংশনের চেয়ে পাত্রে পরিবর্তনগুলির প্রতি আরও সংবেদনশীল।
সুরেশ ভেঙ্কটাসুব্রমনিয়ান

দুঃখিত, তবে আমি এখনও ক্লাস্টারিংয়ের মধ্যে অন্যান্য ধরণের বিভেদগুলির চেয়ে চতুর্ভুজ পদগুলিকে আরও কীভাবে প্রভাবিত করে তা দেখতে পাই না। আপনি কি আরও কিছুটা এই সম্পর্কে বিস্তারিত মনে করতে পারেন?
অ্যামিলিও ওয়াজকেজ-রেইনা

@ ব্যবহারকারী023472 হ্যালো ব্যবহারকারী023472। আমি আপনার অনুসন্ধানে আগ্রহী, আপনি এই প্রশ্নটি জিজ্ঞাসা করেছিলেন কিছুক্ষণ আগে মনে হচ্ছে। আপনি কি দুটি পদ্ধতির মধ্যে পার্থক্যটি সত্যই সমান হতে পেরেছেন? ধন্যবাদ।
ক্রিয়েট্রন

14

আমার মতে, এখানে বিশাল পার্থক্য রয়েছে। র‌্যাণ্ড সূচকগুলি যে ক্লাস্টারিংগুলিতে এটি পরিচালনা করে তার গ্রানুলারিটি দ্বারা খুব বেশি প্রভাবিত হয়। এরপরে আমি মিরকিন দূরত্বটি ব্যবহার করব যা র‌্যান্ড সূচকের একটি সামঞ্জস্য ফর্ম (দেখতে সহজ, তবে উদাহরণস্বরূপ মাইলা)। আমি বিভাজন / যোগ দুরত্বও ব্যবহার করব, যা মাইলার কয়েকটি গবেষণাপত্রেও উল্লেখ করা হয়েছে (অস্বীকৃতি: বিভাজন / যোগ দুরত্ব প্রস্তাব করেছিলেন)। ধরা যাক এক শতাধিক উপাদানের একটি মহাবিশ্ব। আমি সমস্ত উপাদান সমন্বিত একক ক্লাস্টার দিয়ে ক্লাস্টার বোঝাতে শীর্ষ ব্যবহার করব, ক্লাস্টার বোঝাতে নীচে যেখানে সমস্ত নোড পৃথক সিঙ্গলটন সেটে রয়েছে, ক্লাস্টারিং ote {1,2, .. 10}, {11, 12..20}, {21,22..30}, ..., {91,92, .. 100}} , এবং ক্লাস্টারিংকে বোঝানোর অধিকার {{1,11, .. 91}, {2, 12, .. 92}, {3,13, .. 93}, ...,, 10,20, .. 100}

আমার মতে, নীচে এবং শীর্ষগুলি সামঞ্জস্যপূর্ণ (নেস্টিং) ক্লাস্টার, যেখানে বাম এবং ডান সর্বাধিক বিরোধী ক্লাস্টার। এই দুটি যুগল যুক্ত তুলনার জন্য উল্লিখিত মেট্রিকগুলির দূরত্বগুলি নিম্নরূপ:

               Top-Bottom     Left-Right 

Mirkin            9900          1800
VI                4.605         4.605
Split/join        99            180

এটি অনুসরণ করে যে মিরকিন / র‌্যান্ড সর্বাধিক বিরোধপূর্ণ বাম-ডান জুটির তুলনায় সামঞ্জস্যপূর্ণ শীর্ষ-নীচের জুটিটি আরও অনেক বেশি বিবেচনা করে। এটি পয়েন্টটি চিত্রিত করার জন্য এটি একটি চূড়ান্ত উদাহরণ, তবে মিরকিন / র্যান্ড সাধারণভাবে এটি যে ক্লাস্টারিংগুলি পরিচালনা করে তার গ্রানুলারিটি দ্বারা খুব বেশি প্রভাবিত হয়। কারণ এই অন্তর্নিহিত এই মেট্রিক এবং ক্লাস্টারের মাপ মধ্যে একটি দ্বিঘাত সম্পর্ক নেই যে, আসলে বেড়ে চলেছে দ্বারা ব্যাখ্যা জোড়া নোড জড়িত আছেন। বাস্তবে, মিরকিন দূরত্ব হ'ল ক্লাস্টারিংস দ্বারা প্ররোচিত সম্পূর্ণ গ্রাফের ইউনিয়নের প্রান্ত সেটগুলির মধ্যে একটি হামিং দূরত্ব (এটি আমার মনে হয় আপনার প্রশ্নের উত্তর)।

তথ্যের ভিন্নতা এবং বিভক্ত / যোগদানের মধ্যে পার্থক্য সম্পর্কে, মাইলা প্রদর্শিত হিসাবে প্রথমটি কয়েকটি বিরোধ সংক্রান্ত পরিস্থিতিতে বেশি সংবেদনশীল। এটি হ'ল, স্প্লিট / জয়েন কেবল প্রতিটি ক্লাস্টারের জন্য সেরা ম্যাচটিকে বিবেচনা করে এবং সেই ক্লাস্টারের অবশিষ্ট অংশে যে খণ্ড হতে পারে তা উপেক্ষা করে, তথ্যের বৈচিত্র্যতা এটি গ্রহণ করবে। এটি বলেছিল, স্প্লিট / জয়েন সহজেই ব্যাখ্যাযোগ্য যা নোডের সংখ্যা হিসাবে অপর থেকে একটি ক্লাস্টার পেতে সরানো প্রয়োজন , এবং সেই অর্থে এর পরিসর আরও সহজে বোঝা যায়; অনুশীলনে বিভাজন সমস্যাটিও সাধারণ নয়।

এই প্রতিটি মেট্রিক দুটি দূরত্বের যোগফল হিসাবে গঠিত হতে পারে, যথা দুটি ক্লাস্টারিংয়ের প্রতিটি থেকে তাদের সর্বশ্রেষ্ঠ সাধারণ সাবক্লাস্টারিংয়ের দূরত্ব। আমি মনে করি কেবলমাত্র তাদের যোগফলের চেয়ে এই পৃথক অংশগুলির সাথে কাজ করা প্রায়শই উপকারী। উপরের টেবিলটি তখন পরিণত হয়:

               Top-Bottom     Left-Right 

Mirkin          0,9900          900,900
VI              0,4.605       2.303,2.303
Split/join      0,99             90,90

টপ এবং বটমের মধ্যে উপস্থাপকের সম্পর্কটি তাত্ক্ষণিকভাবে পরিষ্কার হয়ে যায়। দুটি ক্লাস্টারিংগুলি সুসংগত কিনা (যেমন একটি (প্রায়) অন্যের একটি সাবক্লাস্টারিং) সেগুলি কাছাকাছি কিনা এই প্রশ্নের শিথিলতা হিসাবে এটি প্রায়শই বেশ কার্যকর । একটি ক্লাস্টারিং সোনার স্ট্যান্ডার্ড থেকে বেশ দূরে হতে পারে, তবে এখনও সামঞ্জস্যপূর্ণ বা প্রায় সামঞ্জস্যপূর্ণ হতে পারে। এই জাতীয় ক্ষেত্রে সোনার মানটির সাথে সম্মতভাবে ক্লাস্টারিংটিকে খারাপ বিবেচনা করার কোনও কারণ থাকতে পারে না। অবশ্যই, তুচ্ছ ক্লাস্টারিং শীর্ষ এবং নীচে যে কোনও ক্লাস্টারিংয়ের সাথে সামঞ্জস্য থাকবে , তাই এটি অবশ্যই বিবেচনায় নেওয়া উচিত।

পরিশেষে, আমি বিশ্বাস করি যে মিরকিন, তথ্যের বৈকল্পিককরণ এবং স্প্লিট / জয়েনের মতো মেট্রিকগুলি ক্লাস্টারিংয়ের তুলনা করার প্রাকৃতিক সরঞ্জাম। বেশিরভাগ অ্যাপ্লিকেশন পদ্ধতির জন্য যা পরিসংখ্যানগত স্বতন্ত্রতা সংযুক্ত করার চেষ্টা করে এবং সুযোগের জন্য সঠিক হয় তা স্পষ্ট করে বলার চেয়ে অতিরিক্ত স্বীকৃত এবং অপ্রচলিত হয়।

দ্বিতীয় উদাহরণ ক্লাস্টারিংয়ের নিম্নলিখিত জোড়াগুলি বিবেচনা করুন: সি 1 = 1 {1, 2, 3, 4, 5, 6, 7, 8}, {9, 10, 11, 12, 13, 14, 15, 16} C সি 2 সহ = {{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}

এবং সি 3 = {{1, 2, 3, 4}, {5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}} {{1, 2, 3 , 4}, {5, 6, 7, 8, 9, 10, 11, 12}, {13, 14, 15, 16}

এখানে C2 এ থেকে যাবে গঠিত গ 1 সরিয়ে নোড 9 ও 10 এবং C3 এ থেকে যাবে গঠিত C3 এ নোড 11 এবং 12. উভয় পরিবর্তন সরিয়ে ( "দুই নোড সরাতে") অভিন্ন সত্য যে জড়িত ক্লাস্টার এর মাপ পার্থক্য ছাড়া । এই দুটি উদাহরণের জন্য ক্লাস্টারিং মেট্রিক্স টেবিলটি হ'ল:

            C1-C2         C3-C4

Mirkin       56            40 
VI            0.594         0.520
Split/Join    4             4

এটি দেখা যায় যে মিরকিন / র্যান্ড এবং তথ্যের বৈকল্পিকতা ক্লাস্টারের আকারগুলি দ্বারা প্রভাবিত হয় (এবং মিরকিন একটি বৃহত পরিমাণে; এটি ক্লাস্টার আকারের বিভাজন হিসাবে আরও বেশি প্রকাশিত হবে), যেখানে বিভক্ত / যোগদানের দূরত্বটি নয় (এর মান 4 হয়) যেহেতু এটি সর্বদা বৃহত্তম সাধারণ সাবক্লাস্টারিংয়ের মাধ্যমে একটি ক্লাস্টারিং থেকে অন্য ক্লাস্টারিং থেকে নোডগুলি "চালিত করে"। এটি পরিস্থিতির উপর নির্ভর করে একটি পছন্দসই বৈশিষ্ট্য হতে পারে। স্প্লিট / জয়েন (সরানো নোডের সংখ্যা) এর সহজ ব্যাখ্যা এবং ক্লাস্টারের আকারের স্বাধীনতা সম্পর্কে সচেতন হওয়ার মতো worth মিরকিন এবং তথ্যের পরিবর্তনের মধ্যে আমি মনে করি যে আধুনিকটি অনেক বেশি পছন্দনীয়।


ধন্যবাদ মিকান, এটি খুব অন্তর্দৃষ্টিযুক্ত। আমি নিশ্চিত না যে আমি দ্বিতীয় টেবিলটি বুঝতে পেরেছি। টেবিলে প্রতিটি প্রবেশের জন্য কমা দ্বারা আলাদা দুটি সংখ্যা কেন? এছাড়াও, আপনি কি জানেন যে এই যুক্তিটি কীভাবে @ সুরেশের সাথে সম্পর্কিত?
অ্যামিলিও ওয়াজকুয়েজ-রেইনা

1
যদি এ এবং বি ক্লাস্টারিং হয় তবে ডি (এ, বি) কে ডি (এ, বি) = ডি (এ, এক্স) + ডি (বি, এক্স) হিসাবে বিভক্ত করা যেতে পারে যেখানে এক্স বৃহত্তম ক্লাস্টারিং যা একটি সাবক্লাস্টারিং উভয়। সুরেশের স্বরলিপিতে আমাদের কাছে সেই ডি (এ, বি) = চ (এ) + চ (বি) -২ এফ (এক্স) রয়েছে। এটি f (A) + f (X) -2f (X) + f (B) + f (X) -2f (X) = d (A, X) + d (B, X) হিসাবে আবার লেখা যেতে পারে। উপরে আমি দুটি (ক, এক্স) এবং ডি (বি, এক্স) কমা দ্বারা পৃথক দুটি উপাদান লিখেছি। দুজনের মধ্যে এখন পর্যন্ত সবচেয়ে বড় পার্থক্য হ'ল মিরকিন / র্যান্ডের চতুর্ভুজ বৈশিষ্ট্য। আপনি শীর্ষ / নীচে এবং বাম / ডান উদাহরণগুলি দেখুন, শীর্ষ-নীচের দূরত্ব বিশাল; এটি সম্পূর্ণরূপে শীর্ষের আকারের কারণে।
মাইকানগুলি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.