আমি গ্রুপগুলিতে ডেটা শ্রেণিবদ্ধকরণ নিয়ে পরীক্ষা করছি। আমি এই বিষয়টিতে বেশ নতুন, এবং কিছু বিশ্লেষণের ফলাফল বুঝতে চেষ্টা করছি।
কুইক-আর-এর উদাহরণ ব্যবহার করে কয়েকটি R
প্যাকেজ প্রস্তাবিত। আমি এই দুটি প্যাকেজ ব্যবহার করার চেষ্টা করেছি ( ফাংশনটি fpc
ব্যবহার করে kmeans
এবং mclust
)। এই বিশ্লেষণের একটি দিক যা আমি বুঝতে পারি না তা হল ফলাফলগুলির তুলনা comparison
# comparing 2 cluster solutions
library(fpc)
cluster.stats(d, fit1$cluster, fit2$cluster)
আমি fpc
ম্যানুয়ালটির প্রাসঙ্গিক অংশগুলি পড়েছি এবং আমার কী লক্ষ্য করা উচিত সে সম্পর্কে এখনও স্পষ্ট নয়। উদাহরণস্বরূপ, এটি দুটি পৃথক পৃথক ক্লাস্টারিং পদ্ধতির তুলনা করার আউটপুট:
$n
[1] 521
$cluster.number
[1] 4
$cluster.size
[1] 250 119 78 74
$diameter
[1] 5.278162 9.773658 16.460074 7.328020
$average.distance
[1] 1.632656 2.106422 3.461598 2.622574
$median.distance
[1] 1.562625 1.788113 2.763217 2.463826
$separation
[1] 0.2797048 0.3754188 0.2797048 0.3557264
$average.toother
[1] 3.442575 3.929158 4.068230 4.425910
$separation.matrix
[,1] [,2] [,3] [,4]
[1,] 0.0000000 0.3754188 0.2797048 0.3557264
[2,] 0.3754188 0.0000000 0.6299734 2.9020383
[3,] 0.2797048 0.6299734 0.0000000 0.6803704
[4,] 0.3557264 2.9020383 0.6803704 0.0000000
$average.between
[1] 3.865142
$average.within
[1] 1.894740
$n.between
[1] 91610
$n.within
[1] 43850
$within.cluster.ss
[1] 1785.935
$clus.avg.silwidths
1 2 3 4
0.42072895 0.31672350 0.01810699 0.23728253
$avg.silwidth
[1] 0.3106403
$g2
NULL
$g3
NULL
$pearsongamma
[1] 0.4869491
$dunn
[1] 0.01699292
$entropy
[1] 1.251134
$wb.ratio
[1] 0.4902123
$ch
[1] 178.9074
$corrected.rand
[1] 0.2046704
$vi
[1] 1.56189
এখানে আমার প্রাথমিক প্রশ্নটি এই ক্লাস্টারের তুলনার ফলাফলগুলি কীভাবে ব্যাখ্যা করতে হবে তা আরও ভালভাবে বোঝা।
পূর্বে, আমি ডেটা স্কেলিংয়ের প্রভাব এবং একটি দূরত্বের ম্যাট্রিক্স গণনা করার বিষয়ে আরও জিজ্ঞাসা করেছি। তবে এর স্পষ্টভাবে মেরিয়ানা সফফার দ্বারা জবাব দেওয়া হয়েছিল, এবং আমি আমার প্রশ্নটির উপর জোর দিয়েই পুনর্গঠিত করছি যে আমি আমার আউটপুটটির ব্যাখ্যাটির প্রতি আগ্রহী যা দুটি ভিন্ন ভিন্ন ক্লাস্টারিং অ্যালগরিদমের তুলনা।
প্রশ্নের পূর্ববর্তী অংশ : আমি যদি কোনও ধরণের ক্লাস্টারিং করছি, আমার কি সবসময় ডেটা স্কেল করা উচিত? উদাহরণস্বরূপ, আমি dist()
আমার স্কেলড ডেটাসেটে cluster.stats()
ফাংশনটি ইনপুট হিসাবে ব্যবহার করছি , তবে কী চলছে তা আমি পুরোপুরি বুঝতে পারি না। আমি dist()
এখানে পড়ি এবং এতে বলা হয়েছে :
এই ফাংশনটি ডেটা ম্যাট্রিক্সের সারিগুলির মধ্যে দূরত্বগুলি গণনা করতে নির্দিষ্ট দূরত্ব পরিমাপটি ব্যবহার করে গণনা করে দূরত্বের ম্যাট্রিক্স প্রদান করে।