একটি ডেনড্রগ্রাম কাটা কোথায়?


60

হায়ারারিকিকাল ক্লাস্টারিং একটি ডেনড্রগ্রাম দ্বারা প্রতিনিধিত্ব করা যেতে পারে। একটি নির্দিষ্ট স্তরে একটি ডেনড্রোগ্রাম কাটা ক্লাস্টারের একটি সেট দেয়। অন্য স্তরে কাটা ক্লাস্টারের আরও একটি সেট দেয়। আপনি ডেনড্রোগ্রাম কাটা কোথায় বেছে নেবেন? এমন একটি কি আছে যা আমরা একটি অনুকূল বিষয় বিবেচনা করতে পারি? যদি আমি সময়ের সাথে সাথে কোনও ডেনড্র্রামের দিকে তাকান তবে এটি একই পয়েন্টে কাটা উচিত?


আমি এই সমস্যাটি নিয়েও ভাবছি, তবে (দুর্ভাগ্যক্রমে) এখনও কোন দৃ conv় প্রত্যয় পাওয়া যায় নি। আমার মনে হয় এর কোন সমাধান নেই। এখানে hopack(এবং অন্যান্য) মতো আর / বায়োসি প্যাকেজ রয়েছে যা ক্লাস্টারের সংখ্যা অনুমান করতে পারে তবে এটি আপনার প্রশ্নের উত্তর দেয় না।
সানকুলসু

এর pvclustজন্য প্যাকেজটিতে Rফাংশন রয়েছে যা ডেনড্রগ্রাম ক্লাস্টারগুলির জন্য বুটস্ট্র্যাপযুক্ত পি-মান দেয় যা আপনাকে গ্রুপগুলি সনাক্ত করতে দেয়: is.titech.ac.jp/~shimo/prog/pvclust
বেন

উত্তর:


45

গুচ্ছ বিশ্লেষণ মূলত একটি অনুসন্ধানের পদ্ধতির হওয়ায় কোনও নির্দিষ্ট উত্তর নেই; ফলস্বরূপ শ্রেণিবদ্ধ কাঠামোর ব্যাখ্যা প্রাসঙ্গিক নির্ভর এবং প্রায়শই বেশ কয়েকটি সমাধান তাত্ত্বিক দৃষ্টিভঙ্গি থেকে সমানভাবে ভাল হয়।

সম্পর্কিত প্রশ্নে বেশ কয়েকটি ক্লু দেওয়া হয়েছিল, অভ্যাসগতভাবে শ্রেণিবিন্যাসের ক্লাস্টারিংয়ের কী স্টপ-মাপদণ্ড ব্যবহার করা হয়? আমি সাধারণত ভিজ্যুয়াল মানদণ্ড, উদাহরণস্বরূপ সিলুয়েট প্লট এবং কিছু ধরণের সংখ্যাগত মানদণ্ড ব্যবহার করি, যেমন ডনের বৈধতা সূচক, হুবার্টের গামা, জি 2 / জি 3 সহগ, বা সংশোধন করা র‌্যান্ড সূচক। মূলত, আমরা জানতে চাই ক্লাস্টার স্পেসে মূল দূরত্বের ম্যাট্রিক্সটি কতটা ভালভাবে অনুমান করা যায়, তাই কোফেনেটিক পারস্পরিক সম্পর্কের একটি পরিমাপও দরকারী। আমি বেশ কয়েকটি শুরুর মান সহ কে- অর্থগুলি এবং অভ্যন্তরীণ-এসএসের মধ্যে সংক্ষিপ্ততর ক্লাস্টারের সংখ্যা নির্ধারণ করতে ফাঁক পরিসংখ্যান ( আয়না ) ব্যবহার করি। ওয়ার্ড হায়ারারিকিকাল ক্লাস্টারিং এর সাথে সম্মতিটি ক্লাস্টারের সমাধানের স্থায়িত্ব সম্পর্কে ধারণা দেয় (আপনি ব্যবহার করতে পারেনmatchClasses()এর জন্য e1071 প্যাকেজে)।

আপনি পিভিক্লাস্ট , এফপিসি , ক্লিভ সহ অন্যদের মধ্যে সিআরএএন টাস্ক ভিউ ক্লাস্টারে দরকারী সংস্থানগুলি পাবেন । এছাড়াও ব্যবহার করে দেখুন দিতে সাধ্যমতো clValid প্যাকেজ ( বর্ণনা মধ্যে পরিসংখ্যানগত সফটওয়্যার জার্নাল )।

এখন, সময়ের সাথে সাথে যদি আপনার ক্লাস্টারগুলি পরিবর্তিত হয়, তবে এটি কিছুটা জটিল; কেন অন্যের চেয়ে প্রথম ক্লাস্টার-সলিউশন বেছে নিচ্ছেন? সময়ের সাথে বিবর্তিত অন্তর্নিহিত প্রক্রিয়ার ফলস্বরূপ কিছু ব্যক্তি একটি ক্লাস্টার থেকে অন্য ক্লাস্টারে চলে যায় বলে আপনি কি আশা করেন?

আপনার পূর্ববর্তী প্রশ্নে আপনাকে পরামর্শ দেওয়া হয়েছিল এমন কিছু পরিমাপ রয়েছে যা সর্বাধিক পরম বা আপেক্ষিক ওভারল্যাপযুক্ত ক্লাস্টারগুলিকে মেলে দেখার চেষ্টা করে। ক্লাস্টারিংয়ের তুলনা করে দেখুন - ওয়াগনার এবং ওয়াগনার থেকে একটি ওভারভিউ


12

সত্যিই কোন উত্তর নেই। এটি কোথাও 1 এবং N এর মধ্যে

তবে, আপনি এটি লাভের দৃষ্টিকোণ থেকে ভাবতে পারেন।

উদাহরণস্বরূপ, বিপণনে কেউ বিভাগকে ব্যবহার করে যা অনেকটা ক্লাস্টারিংয়ের মতো।

একটি বার্তা (একটি বিজ্ঞাপন বা চিঠি, বলুন) যা প্রতিটি ব্যক্তির জন্য তৈরি করা হয় তাতে সর্বাধিক প্রতিক্রিয়া হার হবে। গড় অনুসারে তৈরি একটি জেনেরিক বার্তায় সর্বনিম্ন প্রতিক্রিয়া হার হবে। তিনটি বিভাগে তৈরি তিনটি বার্তা বলার মধ্যে কোথাও কোথাও থাকবে। এটিই রাজস্বের দিক।

প্রতিটি ব্যক্তির জন্য তৈরি একটি বার্তা সর্বাধিক ব্যয় হবে। গড় অনুসারে তৈরি একটি জেনেরিক বার্তায় সর্বনিম্ন ব্যয় হবে। তিনটি বিভাগে তৈরি তিনটি বার্তা এর মধ্যে কোথাও থাকবে।

বলুন কোনও লেখককে একটি কাস্টম বার্তা লিখতে অর্থ প্রদানের জন্য 1000, দুটি ব্যয় 2000 এবং আরও অনেক বেশি খরচ হয়।

একটি বার্তা ব্যবহার করে বলুন, আপনার আয়টি 5000 হবে you বলুন আয় এখন 7500 three তিনটি বিভাগের সাথে, সামান্য উচ্চতর প্রতিক্রিয়ার হার এবং আপনার আয় 9000 more

সর্বাধিক লাভের জন্য, সেগমেন্টিংয়ের প্রান্তিক আয় যতক্ষণ না সেগমেন্টিংয়ের প্রান্তিক ব্যয়ের সমান হয় সে পর্যন্ত সেগমেন্টিং চালিয়ে যান। এই উদাহরণে, আপনি লাভটি সর্বাধিকীকরণের জন্য তিনটি বিভাগ ব্যবহার করবেন।

Segments  Revenue  Cost  Profit
1         5000     1000  4000
2         7500     2000  5500
3         9000     3000  6000
4         9500     4000  5500

এটি একটি আকর্ষণীয় দৃষ্টিকোণ!
অ্যান্ডিএফ

5

সম্ভবত সহজ পদ্ধতির মধ্যে একটি গ্রাফিকাল উপস্থাপনা হতে পারে যাতে এক্স-অক্ষগুলি গ্রুপের সংখ্যা এবং ওয়াই-অক্ষের দূরত্ব বা মিল হিসাবে কোনও মূল্যায়ন মেট্রিক as এই প্লটে আপনি সাধারণত দুটি স্বতন্ত্র অঞ্চল পর্যবেক্ষণ করতে পারবেন, রেখার 'হাঁটুতে' ক্লাস্টারের সংখ্যার 'অনুকূল' সংখ্যার এক্স-অক্ষ মানের হয়ে।

কিছু পরিসংখ্যানও রয়েছে যা এই কাজটি করতে পারে: হুবার্ট গামা, সিউডো-টি, সিউডো-এফ বা অন্যের মধ্যে কিউবিক ক্লাস্টারিং মানদণ্ড (সিসিসি)।


আমি chl সাথে একমত ক্লাস্টার বিশ্লেষণগুলি অনুসন্ধানের পন্থাগুলি এবং ফলাফলগুলির ব্যাখ্যা, এই বিশেষ ক্ষেত্রে ক্লাস্টারের অনুকূল সংখ্যা, আপনার প্রসঙ্গের উপর নির্ভর করে। উদাহরণস্বরূপ, আমার কাজগুলিতে বেশ কয়েকটি বৈশিষ্ট্যের উপর ভিত্তি করে ব্যক্তিদের শ্রেণিবদ্ধকরণের জন্য ক্লাস্টার বিশ্লেষণগুলি ব্যবহৃত সাধারণ এবং কখনও কখনও ক্লাস্টারের সংখ্যা প্রিসেট থাকে। এই ক্ষেত্রে, আমাদের উদ্দেশ্যটি ক্লাসিফিক্যারি ভেরিয়েবলগুলির সেটটি সন্ধান করা যা বিভিন্ন ক্লাস্টারের অন্তর্ভুক্ত ব্যক্তিদের সর্বোত্তমভাবে আলাদা করে দেয়।
ম্যানুয়েল রামন

3

এছাড়াও রয়েছে "ক্লাস্টারগ্রাম: ক্লাস্টার বিশ্লেষণের জন্য ভিজ্যুয়ালাইজেশন এবং ডায়াগোনস্টিকস" (আর কোড সহ)

সত্যই উত্তর নয়, তবে টুলবক্সের জন্য আরও একটি আকর্ষণীয় ধারণা।


3

হায়ারারিকিকাল ক্লাস্টিংয়ে আউটপুট পার্টিশনের সংখ্যা কেবল অনুভূমিক কাটই নয়, চূড়ান্ত ক্লাস্টারিংয়ের সিদ্ধান্ত নেয় এমন অনুভূমিক কাটও নয়। সুতরাং এটিকে 1. দূরত্বের মেট্রিক এবং 2. লিংকেজ মাপদণ্ডকে বাদ দিয়ে তৃতীয় মাপদণ্ড হিসাবে দেখা যেতে পারে । http://en.wikipedia.org/wiki/Hierarchical_clustering

আপনি যে মাপদণ্ডটি উল্লেখ করেছেন এটি একটি তৃতীয় ধরণের যা হায়ারার্কির পার্টিশনের সেটের ক্ষেত্রে এক ধরণের অপ্টিমাইজেশন বাধা। এটি আনুষ্ঠানিকভাবে এই কাগজে উপস্থাপন করা হয় এবং বিভাগকরণের উদাহরণ দেওয়া হয়!

http://www.esiee.fr/~kiranr/ClimbingECCV2012_Preprint.pdf


1

অন্য উত্তরগুলি যেমন বলেছে, আপনি অবশ্যই কোন ধরণের গ্রানুলারিটি অধ্যয়নের জন্য চেষ্টা করছেন তার উপর এটি অবশ্যই সাবজেক্টিভ এবং নির্ভরশীল। একটি সাধারণ পদ্ধতির জন্য, আমি আমার 2 টি ক্লাস্টার এবং 1 আউটলেট দিতে এইটিকে কেটেছি। এরপরে আমি দুটি ক্লাস্টারে ফোকাস করব যাতে তাদের মধ্যে কোনও উল্লেখযোগ্য কিছু ছিল কিনা তা দেখার জন্য।

# Init
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()

# Load data
from sklearn.datasets import load_diabetes

# Clustering
from scipy.cluster.hierarchy import dendrogram, fcluster, leaves_list
from scipy.spatial import distance
from fastcluster import linkage # You can use SciPy one too

%matplotlib inline

# Dataset
A_data = load_diabetes().data
DF_diabetes = pd.DataFrame(A_data, columns = ["attr_%d" % j for j in range(A_data.shape[1])])

# Absolute value of correlation matrix, then subtract from 1 for disimilarity
DF_dism = 1 - np.abs(DF_diabetes.corr())

# Compute average linkage
A_dist = distance.squareform(DF_dism.as_matrix())
Z = linkage(A_dist,method="average")

# Dendrogram
D = dendrogram(Z=Z, labels=DF_dism.index, color_threshold=0.7, leaf_font_size=12, leaf_rotation=45)

এখানে চিত্র বর্ণনা লিখুন

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.