ফাঁক পরিসংখ্যান এটি করার একটি দুর্দান্ত উপায়; তিবশিরানী, হাস্টি ও ওয়ালথার (2001)।
http://stat.ethz.ch/R-manual/R-devel/library/cluster/html/clusGap.html - সম্পর্কিত আর প্যাকেজ।
ধারণাটি হ'ল এটি কে = 1,2,3, ... এর জন্য আপনার ডেটা ক্লাস্টারিংয়ের ক্রমিক অনুমানমূলক পরীক্ষা করে ... বনাম এলোমেলো শব্দের একটি নাল অনুমান, যা একটি ক্লাস্টারের সমতুল্য। এর বিশেষ শক্তিটি হ'ল এটি আপনাকে কে = 1 কিনা, অর্থাত্ কোনও গুচ্ছ নেই কিনা তার একটি নির্ভরযোগ্য ইঙ্গিত দেয়।
উদাহরণস্বরূপ, আমি কিছুদিন আগে কিছু জ্যোতির্বিজ্ঞানের তথ্য যা যা ঘটেছিল তা পর্যবেক্ষণ করছিলাম - যথা একটি স্থানান্তর এক্সোপ্ল্যানেট সমীক্ষা থেকে। আমি জানতে চেয়েছিলাম (উত্তল) গুচ্ছগুলির জন্য কী প্রমাণ রয়েছে। আমার ডেটা 'ট্রানজিট'
library(cluster)
cgap <- clusGap(transit, FUN=kmeans, K.max=kmax, B=100)
for(k in 1:(kmax-1)) {
if(cgap$Tab[k,3]>cgap$Tab[(k+1),3]-cgap$Tab[(k+1),4]) {print(k)};
break;
}
ব্যবধানের পরিসংখ্যান সহ আপনি কে এর প্রথম মানটি সন্ধান করছেন যেখানে পরীক্ষা 'ব্যর্থ' অর্থাৎ ফাঁক পরিসংখ্যান উল্লেখযোগ্যভাবে হ্রাস পায়। উপরের লুপটি এরকম আক প্রিন্ট করবে, তবে স্রেফ সিগ্যাপ প্লট করা আপনাকে নিম্নোক্ত চিত্রটি দেয়:
দেখুন কেপ = 1 থেকে কে = 2 পর্যন্ত গ্যাপে কীভাবে একটি উল্লেখযোগ্য নিমজ্জন রয়েছে, এটি বোঝায় যে আসলে কোনও ক্লাস্টার নেই (অর্থাত্ 1 ক্লাস্টার)।