কেন স্পেস স্ট্যাটিস্টিকস কেন-ই মানেগুলির একটি ক্লাস্টারের পরামর্শ দেয়, যদিও এর মধ্যে অবশ্যই দুটি আছে?


18

আমি আমার ডেটা ক্লাস্টার করতে কে-মানে ব্যবহার করছি এবং একটি "অনুকূল" ক্লাস্টার নম্বর প্রস্তাব করার উপায় খুঁজছিলাম। গ্যাপের পরিসংখ্যান মনে হয় একটি ভাল ক্লাস্টার নম্বর খুঁজতে একটি সাধারণ উপায়।

কোনও কারণে এটি সর্বোত্তম ক্লাস্টার নম্বর হিসাবে 1 প্রদান করে, তবে আমি যখন ডেটা দেখি তখন স্পষ্ট হয় যে 2 টি গুচ্ছ রয়েছে:

! [1] (http://i60.tinypic.com/28bdy6u.jpg)

এইভাবে আমি আরকে ফাঁক বলি:

gap <- clusGap(data, FUN=kmeans, K.max=10, B=500)
with(gap, maxSE(Tab[,"gap"], Tab[,"SE.sim"], method="firstSEmax"))

ফলাফল সেট:

> Number of clusters (method 'firstSEmax', SE.factor=1): 1
          logW   E.logW           gap    SE.sim
[1,]  5.185578 5.085414 -0.1001632148 0.1102734
[2,]  4.438812 4.342562 -0.0962498606 0.1141643
[3,]  3.924028 3.884438 -0.0395891064 0.1231152
[4,]  3.564816 3.563931 -0.0008853886 0.1387907
[5,]  3.356504 3.327964 -0.0285393917 0.1486991
[6,]  3.245393 3.119016 -0.1263766015 0.1544081
[7,]  3.015978 2.914607 -0.1013708665 0.1815997
[8,]  2.812211 2.734495 -0.0777154881 0.1741944
[9,]  2.672545 2.561590 -0.1109558011 0.1775476
[10,] 2.656857 2.403220 -0.2536369287 0.1945162

আমি কি কিছু ভুল করছি বা কেউ ভাল ক্লাস্টার নম্বর পাওয়ার আরও ভাল উপায় জানতে পারে?

উত্তর:


37

ক্লাস্টারিং অন্যান্য বিষয়ের সাথে সাথে স্কেল নির্ভর করে । এই ইস্যুটির আলোচনার জন্য দেখুন ( অন্যান্য বিষয়সমূহ ) কখন আপনার ডেটা কেন্দ্র এবং মানক করা উচিত? এবং সমবায় বা পারস্পরিক সম্পর্ক সম্পর্কিত পিসিএ?

দুটি ভেরিয়েবলের স্কেলগুলি কতটা পৃথক করে তা প্রকাশ করে এখানে আপনার 1: 1 টি অনুপাতের সাথে আপনার ডেটা অঙ্কিত হয়েছে:

চিত্র 1

clusGap

()

=1

একটি

চিত্র ২

=2{1,2,3,4,5}=2=1=2। এগুলিকে এখানে কেবল সাধারণ পদ্ধতি বর্ণনা করার জন্য দেখানো হয়েছে।


Rএই পরিসংখ্যান উত্পাদন কোড এখানে । তথ্যের সাথে প্রায়শই প্রশ্নের সাথে দেখা মিলছে।

library(cluster)
xy <- matrix(c(29,391, 31,402, 31,380, 32.5,391, 32.5,360, 33,382, 33,371,
        34,405, 34,400, 34.5,404, 36,343, 36,320, 36,303, 37,344,
        38,358, 38,356, 38,351, 39,318, 40,322, 40, 341), ncol=2, byrow=TRUE)
colnames(xy) <- c("a", "b")
title <- "Raw data"
par(mfrow=c(1,2))
for (i in 1:2) {
  #
  # Estimate optimal cluster count and perform K-means with it.
  #
  gap <- clusGap(xy, kmeans, K.max=10, B=500)
  k <- maxSE(gap$Tab[, "gap"], gap$Tab[, "SE.sim"], method="Tibs2001SEmax")
  fit <- kmeans(xy, k)
  #
  # Plot the results.
  #
  pch <- ifelse(fit$cluster==1,24,16); col <- ifelse(fit$cluster==1,"Red", "Black")
  plot(xy, asp=1, main=title, pch=pch, col=col)
  plot(gap, main=paste("Gap stats,", title))
  abline(v=k, lty=3, lwd=2, col="Blue")
  #
  # Prepare for the next step.
  #
  xy <- apply(xy, 2, scale)
  title <- "Standardized data"
}

ঠিক আছে ব্যাখ্যার জন্য ধন্যবাদ। বিটিডব্লিউ: গ্যাপের পরিসংখ্যানের মতো কোনও ক্লাস্টার মেট্রিক জানেন? আমি কিছু খুঁজে পেয়েছি, তবে আমি জানি না কোনটি সাধারণত কে-দিয়ে ব্যবহার করা হয়?
মাইকহুবার

+1 টি। খুব সুন্দর বিক্ষোভ, এবং এটি চিত্তাকর্ষক যে একই ডেটা পেতে আপনি ওপি এর চিত্র ডিজিটাইজড করেছেন বলে মনে হয়।
অ্যামিবা

3
@ অ্যামিবা আমি স্ক্যাটারপ্লটকে চোখের পাতায় ফেলেছিলাম এবং এখানে যেমন দেখছি ঠিক ততক্ষণ স্থানাঙ্কগুলিতে টাইপ করেছি (অর্থাত্ জড়িত অঙ্কগুলি আমার নিজের আঙ্গুলগুলি ছিল :-))। কখনও কখনও সহজ পদ্ধতির দক্ষ হয়।
শুক্র

ব্যবধানের পরিসংখ্যানকে একক 1-ডি অ্যারে সংখ্যাসূচক মানগুলির মধ্যে গুচ্ছের সংখ্যা সন্ধানের জন্য ব্যবহার করা যেতে পারে?
ব্যবহারকারী 1971988

xyxy <- xy[, 1, drop=FALSE]এন×1R(এক্সআমি)(এক্সআমি,0)

9

xyকে=1কে>1নাল অনুমানকে প্রত্যাখ্যান করতে অক্ষমতা এটি সত্য করে তোলে না । জিএপি পরিসংখ্যান বর্ণনা করার পদ্ধতি সংক্রান্ত কাগজটি যদি আপনি আরও প্রযুক্তিগত বিবরণগুলি পরীক্ষা করতে চান তবে এটি অনলাইনে উপলব্ধ

2×2

কে=2


+1 আপনি প্লটটি মনোযোগ সহকারে পড়ে সম্ভাব্য সমস্যাটি দেখেছেন: ভাল হয়েছে! হাসটির কাগজের লিঙ্কটিও, আপনার উত্তরের স্বাগত সমর্থন।
whuber

@ ভুবার: আইশ নিয়ে আমাদের এই আলোচনা হয়েছিল, তাই না? :)
usεr11852


এটা প্রকৃতপক্ষে একটি ভিন্ন প্রসঙ্গ ছিল; আমি এটি আপনার কাছে কেবল উল্লেখ করেছি কারণ এটি সেখানে "আইশ" এবং এখানে "স্কেল" ছিল।
ইউএসআর 11852

0

মূল পোস্টার হিসাবে আমারও একই সমস্যা ছিল। আর ডকুমেন্টেশন বর্তমানে বলে যে d.power = 1 এর আসল এবং ডিফল্ট সেটিংটি ভুল ছিল এবং d.power দ্বারা প্রতিস্থাপন করা উচিত: "ডিফল্ট, d.power = 1," historicalতিহাসিক "আর প্রয়োগের সাথে মিলে যায়, যেখানে d.power = 2 টিবশিরানী এট আল প্রস্তাব করেছিলেন তার সাথে মিলে যায় This এটি ২০১ Ju-০২-এ জুয়ান গঞ্জালেজের দ্বারা পাওয়া গেছে। "

ফলস্বরূপ, d.power = 2 পরিবর্তন করা আমার জন্য সমস্যার সমাধান করেছে।

https://www.rdocumentation.org/packages/cluster/versions/2.0.6/topics/clusGap

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.