হায়ারারিকাল ক্লাস্টারিংয়ের ত্রুটিগুলি কীভাবে বোঝবেন?


19

কেউ কি হায়ারারিকাল ক্লাস্টারিংয়ের উপকারিতা এবং বিধিগুলি ব্যাখ্যা করতে পারেন?

  1. হায়ারার্কিকাল ক্লাস্টারিং এর কে যেমন বোঝাচ্ছে একই ত্রুটি রয়েছে?
  2. কে হায়ারারিকিকাল ক্লাস্টারিং এর সুবিধা কী?
  3. হায়ারারিকাল ক্লাস্টারিং ও তার বিপরীতে কখন আমাদের কে ব্যবহার করা উচিত?

এই পোস্টের উত্তরগুলি কে এর ত্রুটিগুলি বোঝায় খুব ভাল। কে-উপায়গুলির ত্রুটিগুলি কীভাবে বোঝা যায়


2
ইন এই উত্তর আমি হায়ারারকিকাল agglomerative ক্লাস্টার বিশ্লেষণ সম্ভাব্য সমস্যাযুক্ত মতকে কিছু ছোঁয়া। প্রধান "অপূর্ণতা" হ'ল এটি নিরক্ষর, একক-পাস লোভী অ্যালগরিদম। একটি লোভী অ্যালগরিদমের সাহায্যে আপনি বর্তমান পদক্ষেপের কাজটি অনুকূল করে তোলেন, যা - বেশিরভাগ এইচসি পদ্ধতিতে - দূরবর্তী ভবিষ্যতের পদক্ষেপে অগত্যা সেরা পার্টিশনের গ্যারান্টি দেয় না। এইচসির প্রধান সুবিধাটি হ'ল এটি ব্যবহারের সান্নিধ্যের পরিমাপের পছন্দের ক্ষেত্রে নমনীয়। @ মাইক ইতিমধ্যে নীচে একটি ভাল উত্তর দিয়েছে, তাই আমি শুধু প্রতিধ্বনি করছি।
ttnphns

উত্তর:


13

যেহেতু মিয়ানসগুলি বিশ্বব্যাপী লক্ষ্যকে (ক্লাস্টারগুলির বৈকল্পিক) অনুকূলকরণ করার চেষ্টা করে এবং একটি স্থানীয় সর্বোত্তম অর্জন করে, আগ্রাসী শ্রেণিবদ্ধ ক্লাস্টারিং প্রতিটি ক্লাস্টার ফিউশন (লোভী অ্যালগরিদম) -এর সর্বোত্তম পদক্ষেপটি সন্ধান করতে লক্ষ্য করে যা হুবহু সম্পন্ন হয় তবে ফলস্বরূপ সম্ভাব্য সাবঅপটিমাল সমাধানের ফলে ঘটে ।k

অন্তর্নিহিত ডেটাগুলির একটি শ্রেণিবদ্ধ কাঠামো থাকে (আর্থিক বাজারের পারস্পরিক সম্পর্কগুলির মতো) এবং যখন আপনি শ্রেণিবিন্যাস পুনরুদ্ধার করতে চান তখন একজনকে হায়ারারিকিকাল ক্লাস্টারিং ব্যবহার করা উচিত। এটি করার জন্য আপনি মিন প্রয়োগ করতে পারেন , তবে আপনি পার্টিশনের সাথে শেষ করতে পারেন (মোটামুটি এক (একটি ক্লাস্টারের সমস্ত ডেটা পয়েন্ট) থেকে সেরাটি (প্রতিটি ডাটা পয়েন্ট একটি ক্লাস্টার)) যা নেস্টেড নয় এবং সুতরাং একটি সঠিক শ্রেণিবিন্যাস নয়।k

আপনি যদি ক্লাস্টারিংয়ের সূক্ষ্ম বৈশিষ্ট্যগুলি খনন করতে চান, আপনি মেনস হিসাবে একক, গড়, সম্পূর্ণ লিঙ্কেজের মতো শ্রেণিবদ্ধ ক্লাস্টারিংয়ের সমতল ক্লাস্টারিংয়ের বিরোধিতা করতে পারবেন না । উদাহরণস্বরূপ, এই সমস্ত ক্লাস্টারিং হ'ল স্পেস-সংরক্ষণ, অর্থাৎ যখন আপনি ক্লাস্টার তৈরি করছেন তখন আপনি স্থানটি বিকৃত করবেন না, যখন ওয়ার্ডের মতো একটি শ্রেণিবদ্ধ ক্লাস্টারিং স্থান সংরক্ষণ নয়, অর্থাত্ প্রতিটি মার্জিং পদক্ষেপে এটি মেট্রিক স্থানকে বিকৃত করবে।k

উপসংহারে, শ্রেণিবিন্যাসের ক্লাস্টারিং অ্যালগরিদমের ত্রুটিগুলি একে অপরের থেকে খুব আলাদা হতে পারে। কিছু মিন্সে অনুরূপ বৈশিষ্ট্যগুলি ভাগ করতে পারে : ওয়ার্ডের উদ্দেশ্যটি বৈকল্পিকাকে অনুকূলকরণ করা, তবে একক লিঙ্কেজ নয়। কিন্তু তারা বিভিন্ন বৈশিষ্ট্য আছে করতে পারেন: ওয়ার্ড স্পেস-dilating হয়, একক লিঙ্কেজ স্পেস-সংরক্ষণে মত হল যেহেতু -means।kk

- স্পেস-সংরক্ষণ এবং স্পেস-ডিলটিং বৈশিষ্ট্যগুলি সুনির্দিষ্ট করতে সম্পাদনা করুন

ব্যবধান নিয়ন্ত্রণ সংরক্ষণে: যেখানে ডি আমি দূরত্ব ক্লাস্টার মধ্যে সি আমি এবং সি আপনি একত্রীকরণ করতে চান, এবং

Dij[minxCi,yCjd(x,y),maxxCi,yCjd(x,y)]
DijCiCjd ডেটাপয়েন্টগুলির মধ্যে দূরত্ব।

স্পেস-ডিলিটিং: অর্থাৎ সি আই এবং সি জে মার্জ করার মাধ্যমে অ্যালগোরিদম ক্লাস্টারটিকে আরও দূরে ঠেলে দেবে

D(CiCj,Ck)max(Dik,Djk),
CiCjCk

শ্রেণিবদ্ধ কাঠামোযুক্ত ডেটার আরও কয়েকটি উদাহরণ আপনি দিতে পারেন? আর্থিক বাজারের উদাহরণ অনুসরণ করেনি।
জর্জেফএফআরএফ

অবশ্যই। cf. arxiv.org/pdf/cond-mat/9802256.pdf বা arxiv.org/pdf/1506.00976.pdf এ কেবল চিত্র 7 which যা একটি (কোলাহল) হায়ারারিকিকাল পারস্পরিক সম্পর্ক ব্লক কাঠামোযুক্ত একটি পারস্পরিক সম্পর্ক ম্যাট্রিক্স চিত্রিত করে: আপনি মূলতে ব্লকগুলি লক্ষ্য করতে পারেন তির্যক, যা আরও বেশি ব্লকে বিভক্ত, প্রত্যেকে আরও বেশি ব্লকে বিভক্ত। এটি অঞ্চলে (ইউরোপ, মার্কিন যুক্তরাষ্ট্র, এশিয়া প্রাক্তন জাপান, জাপান) মোটামুটি একটি মহকুমার সাথে সামঞ্জস্য করে, তারপরে প্রতিটি অঞ্চল সম্পত্তির গুণমান দ্বারা বিভক্ত (উচ্চ মানের বনাম জাঙ্ক বলে), তারপরে বড় শিল্প খাত (খুচরা, শিল্প, মিডিয়া), (মহাকাশ, স্বয়ংক্রিয় ...) মধ্যে আরও subdiv
মাইক

3
+1 টি। তবে, should use hierarchical clustering when underlying data has a hierarchical structure... and you want to recover the hierarchyঅগত্যা নয়। বেশিরভাগ ক্ষেত্রে বরং বিপরীতে। এইচ সি এর শ্রেণিবিন্যাস তথ্যের কাঠামোর চেয়ে বরং আলগো গল্প । তবুও, এই প্রশ্নটি শেষ পর্যন্ত দার্শনিক / যৌক্তিক, এত পরিসংখ্যানগত নয়।
ttnphns

Ward is not space-conserving, i.e. at each merging step it will distort the metric space। আপনি এটি সম্পর্কে আরও লিখতে পারেন? এটি খুব বেশি পরিষ্কার নয়।
ttnphns

Ward is space-dilating, whereas Single Linkage is space-conserving like k-means। আপনি কি একক সংযোগের জন্য স্থান-চুক্তি বলতে চেয়েছিলেন?
ttnphns

13

স্কেলেবিলিটি

মানে এখানে পরিষ্কার বিজয়ী। O ( n k d i ) ( এন 3 ডি ) এর তুলনায় অনেক ভাল(কয়েকটি ক্ষেত্রে( এন 2 ডি ) ) শ্রেণিবদ্ধ ক্লাস্টারিংয়ের স্কেলিবিলিটি কারণ সাধারণত কে এবং আমি এবং ডি উভয়ই ছোট (দুর্ভাগ্যক্রমে, আমি এন দিয়ে বৃদ্ধি পেতে ঝোঁক, তাই হে ( এন )kO(nkdi)O(n3d)O(n2d)kidinO(n) হয় নাসাধারণত রাখা) এছাড়াও, মেমোরি খরচ গ্রামীণ বিরোধী হিসাবে লিনিয়ার, (সাধারণত, রৈখিক বিশেষ ক্ষেত্রে বিদ্যমান)।

নমনীয়তা

-means প্রয়োগের ক্ষেত্রে অত্যন্ত সীমিত। এটি মূলত ইউক্লিডিয়ান দূরত্বের মধ্যে সীমাবদ্ধ (কার্নেল স্পেসের ইউক্লিডিয়ান এবং গ্রেগম্যান ডাইভারজেন্স সহ, তবে এগুলি বেশ বহিরাগত এবং আসলে কে- মিনেরসাহায্যেএগুলিব্যবহার করে না)। এর চেয়েও খারাপ, কে- মিন্স কেবল সংখ্যাগত ডেটাতে কাজ করে (যা আসলে ক্রমাগত এবং কে -মানেরজন্য উপযুক্ত হওয়ার জন্য ঘন হওয়া উচিত)।kkkk

শ্রেণিবদ্ধ ক্লাস্টারিং এখানে পরিষ্কার বিজয়ী। এমনকি এটি কোনও দূরত্বেরও প্রয়োজন হয় না - কম মানগুলির চেয়ে উচ্চ মানের পছন্দ করে কেবল কোনও মিল ব্যবহার করতে পারা যায়, শ্রেণিবদ্ধ ডেটা? অবশ্যই ঠিক যেমন জ্যাকার্ড ব্যবহার করুন। স্ট্রিংস? লেভেনস্টাইন দূরত্ব চেষ্টা করুন। সময়ের ধারাবাহিকতা? নিশ্চিত করুন। মিশ্রিত টাইপের ডেটা? উত্পাদনের দূরত্ব। সেখানে যেখানে আপনি হায়ারারকিকাল ক্লাস্টারিং ব্যবহার করতে পারেন ডেটা সেট লক্ষ লক্ষ, কিন্তু আপনি ব্যবহার করতে পারবেন না যেখানে k মিন ।

মডেল

এখানে কোন বিজয়ী নেই। মিন্স স্কোরগুলি বেশি কারণ এটি একটি দুর্দান্ত ডেটা হ্রাস পায়। সেন্ট্রয়েডগুলি বোঝা এবং ব্যবহার করা সহজ। অন্যদিকে হায়ারারিকিকাল ক্লাস্টারিং একটি ডেনড্রোগ্রাম তৈরি করে। আপনার ডেটা সেট বোঝার জন্য একটি ডেনড্রগ্রামও খুব কার্যকর হতে পারে।k


হায়ারার্কিকাল কি K এর মত ব্যর্থ হয় যখন ক্লাস্টারগুলি 1) নন গোলাকার 2) এর ব্যাসার্ধ 3 থাকে) ঘনত্বের আলাদা থাকে?
জর্জঅফTheআরএফ

2
উভয়ই কাজ করতে পারে, এবং উভয়ই ব্যর্থ হতে পারে। এজন্য ডেনড্রোগ্রামের মতো জিনিস কার্যকর। কোনও ক্লাস্টারিং ফলাফলকে কখনই "সঠিক" হতে বিশ্বাস করবেন না।
অ্যানি-মৌসে -রিনস্টেট মনিকা

হায়ারারিকিকাল ক্লাস্টারিং স্থানীয়ভাবে ক্লাস্টারগুলিকে অনুকূল করতে পারে কারণ এটি লোভী পদ্ধতির উপর ভিত্তি করে তবে কে এর অর্থ বিশ্বব্যাপী অনুকূলিত ক্লাস্টার দেয়। আমি আরও অভিজ্ঞতা পেয়েছি যে ক্রমবর্ধমান ক্লাস্টারিংয়ের ব্যাখ্যা কে লোকের তুলনায় ব্যবসায়ের পক্ষে তুলনামূলক সহজ।
অর্পিত সিসোদিয়া

7

আমি কেবলমাত্র অন্যান্য উত্তরগুলিতে কিছুটা যুক্ত করতে চেয়েছিলাম, কীভাবে কিছু বুদ্ধিমানভাবে, কিছু নির্দিষ্ট শ্রেণিবিন্যাসের ক্লাস্টারিং পদ্ধতির পছন্দ করার জন্য একটি দৃ the় তাত্ত্বিক কারণ রয়েছে।

ক্লাস্টার বিশ্লেষণে একটি সাধারণ ধৃষ্টতা যে ডেটা কিছু অন্তর্নিহিত সম্ভাব্যতা ঘনত্ব থেকে নমুনা হয় যে আমরা এক্সেস আছে না। তবে ধরুন আমাদের এটির অ্যাক্সেস ছিল। কীভাবে আমরা সংজ্ঞায়িত হবে ক্লাস্টার এর ff ?

একটি খুব প্রাকৃতিক এবং স্বজ্ঞাত পদ্ধতিতে বলা যায় যে এর ক্লাস্টারগুলি উচ্চ ঘনত্বের অঞ্চল। উদাহরণস্বরূপ, নীচে দুটি-পিক ঘনত্ব বিবেচনা করুন:f

enter image description here

গ্রাফ জুড়ে একটি লাইন অঙ্কন করে আমরা ক্লাস্টারগুলির একটি সেট প্ররোচিত করি। উদাহরণস্বরূপ, আমরা যদি 1 একটি লাইন আঁকি , আমরা দুটি ক্লাস্টার দেখিয়েছি। তবে আমরা যদি λ 3 এ লাইনটি আঁকি তবে আমরা একটি ক্লাস্টার পাই।λ1λ3

এটি আরও সুনির্দিষ্ট করে তুলতে, ধরুন আমাদের একটি স্বেচ্ছাসেবী । এর ক্লাস্টার কি কি পর্যায়ে λ ? এরা superlevel সেট সংযুক্ত উপাদান { এক্স : ( এক্স ) λ }λ>0fλ{x:f(x)λ}

λ λff

fXC1{x:f(x)λ1}C2{x:f(x)λ2}C1λ1C2λ2λ2<λ1C1C2C1C2=

তাই এখন আমার কাছে ঘনত্ব থেকে কিছু ডেটা নমুনা রয়েছে। গুচ্ছ গাছটি পুনরুদ্ধার করে এমন উপায়ে কি আমি এই ডেটা ক্লাস্টার করতে পারি? বিশেষত, আমরা এই পদ্ধতিতে সামঞ্জস্য বজায় রাখতে চাই যে আমরা আরও এবং বেশি তথ্য সংগ্রহ করার সাথে সাথে আমাদের ক্লাস্টার গাছের অভিজ্ঞতাগত অনুমানটি সত্য গুচ্ছ গাছের কাছাকাছি এবং আরও কাছাকাছি বৃদ্ধি পেতে পারে।

ABfnfXnXnAn empirical cluster containing all of AXn, and let Bn be the smallest containing all of BXn. Then our clustering method is said to be Hartigan consistent if Pr(AnBn)=1 as n for any pair of disjoint clusters A and B.

Essentially, Hartigan consistency says that our clustering method should adequately separate regions of high density. Hartigan investigated whether single linkage clustering might be consistent, and found that it is not consistent in dimensions > 1. The problem of finding a general, consistent method for estimating the cluster tree was open until just a few years ago, when Chaudhuri and Dasgupta introduced robust single linkage, which is provably consistent. I'd suggest reading about their method, as it is quite elegant, in my opinion.

So, to address your questions, there is a sense in which hierarchical cluster is the "right" thing to do when attempting to recover the structure of a density. However, note the scare-quotes around "right"... Ultimately density-based clustering methods tend to perform poorly in high dimensions due to the curse of dimensionality, and so even though a definition of clustering based on clusters being regions of high probability is quite clean and intuitive, it often is ignored in favor of methods which perform better in practice. That isn't to say robust single linkage isn't practical -- it actually works quite well on problems in lower dimensions.

সবশেষে, আমি বলব যে হার্টিগান ধারাবাহিকতা কিছুটা অর্থে আমাদের একীকরণের অন্তর্নিহিত অনুসারে নয়। সমস্যাটি হর্টিগান ধারাবাহিকতা একটি ক্লাস্টারিং পদ্ধতিটিকে ওভার-সেগমেন্ট ক্লাস্টারগুলিকে প্রচুর পরিমাণে অনুমতি দেয় যেমন একটি অ্যালগোরিদম হার্টিগান সামঞ্জস্যপূর্ণ হতে পারে, তবুও ক্লাস্টারিংগুলি উত্পাদন করে যা সত্য গুচ্ছ গাছের তুলনায় খুব আলাদা। আমরা এই বছর অভিজাতকরণের একটি বিকল্প ধারনা যা এই সমস্যাগুলিকে সম্বোধন করে তাতে কাজ তৈরি করেছি। কাজটি সিওএলটি ২০১৫ সালে "হার্টিগান ধারাবাহিকতা ছাড়িয়ে: শ্রেণিবিন্যাসের ক্লাস্টারিংয়ের জন্য বিকৃতি মেট্রিককে মার্জ করুন" এ উপস্থিত হয়েছিল।


This is an interesting way of thinking about hierarchical clustering. I find it strongly reminiscent of clustering by nonparametric density estimation (pdf), which is implemented in R in the pdfCluster package. (I discuss it here.)
gung - Reinstate Monica

HDBSCAN* uses a similar approach.
Anony-Mousse -Reinstate Monica

3

An additional practical advantage in hierarchical clustering is the possibility of visualising results using dendrogram. If you don't know in advance what number of clusters you're looking for (as is often the case...), you can the dendrogram plot can help you choose k with no need to create separate clusterings. Dedrogram can also give a great insight into data structure, help identify outliers etc. Hierarchical clustering is also deterministic, whereas k-means with random initialization can give you different results when run several times on the same data. In k-means, you also can choose different methods for updating cluster means (although the Hartigan-Wong approach is by far the most common), which is no issue with hierarchical method.

EDIT thanks to ttnphns: One feature that hierarchical clustering shares with many other algorithms is the need to choose a distance measure. This is often highly dependent on the particular application and goals. This might be seen as an additional complication (another parameter to select...), but also as an asset - more possibilities. On the contrary, classical K-means algorithm specifically uses Euclidean distance.


3
I suppose "problem" in your last paragraph would be seen positively as an asset. K-means, however, is based implicitly on euclidean distance only.
ttnphns

Many possible choices can be a problem as well as an asset, indeed :) Thanks for the comment on k-means, I'll improve that paragraph.
Jacek Podlewski

@ttnphns Actually, " k-means " can be used with any Bregman divergences jmlr.org/papers/volume6/banerjee05b/banerjee05b.pdf ; I mean this is the case when considering that k-means is what results when considering the limiting case of Gaussian mixture models (from soft to hard), then by replacing Gaussian by another member of the exponential family, you replace the Euclidean distance by another Bregman divergence associated with the member of the family you picked. You end up with a similar algorithm scheme that aims to find a maximum likelihood with an expectation-maximization.
mic

I believe the original question was made with regard to "classical' K-means and not a slightest intention to delve into Bregman divergences. Nice remark though, I'll check out this paper more thoroughly for sure.
Jacek Podlewski

@mic nobody uses Bregman divergences beyond variations of Euclidean distance... it is a tiny tiny class only. But people would like to use e.g. Manhattan distance, Gower etc. which are not Bregman divergences for all I know.
Anony-Mousse -Reinstate Monica
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.