আমার কাছে আধা-ছোট ম্যাট্রিক্সের বাইনারি বৈশিষ্ট্যগুলির মাত্রা 250 কে x 100 রয়েছে Each
user 1 2 3 4 5 ...
-------------------------
A 1 0 1 0 1
B 0 1 0 1 0
C 1 0 0 1 0
আমি ব্যবহারকারীদের 5-10 ক্লাস্টারে ফিট করতে এবং লোডিংগুলি বিশ্লেষণ করে দেখতে চাই যে আমি ব্যবহারকারীর আচরণের গ্রুপগুলি ব্যাখ্যা করতে পারি কিনা। বাইনারি ডেটাতে ফিটিং ক্লাস্টারের বেশ কয়েকটি পন্থা উপস্থিত রয়েছে - আমাদের কাছে কি মনে হয় যে এই ডেটার জন্য সেরা কৌশল হতে পারে?
পিসিএ
একটি জ্যাকার্ড সাদৃশ্য ম্যাট্রিক্স তৈরি করা, একটি শ্রেণিবিন্যাস ক্লাস্টার লাগানো এবং তারপরে শীর্ষ "নোডগুলি" ব্যবহার করা।
কে-মধ্যমা
কে-medoids
এগনেস
হায়ারারিকিকাল ক্লাস্টারিং ব্যবহার করে এখনও অবধি আমি কিছুটা সাফল্য পেয়েছি তবে আমি নিশ্চিত নই যে এটি যাওয়ার সর্বোত্তম উপায় ..
tags = read.csv("~/tags.csv")
d = dist(tags, method = "binary")
hc = hclust(d, method="ward")
plot(hc)
cluster.means = aggregate(tags,by=list(cutree(hc, k = 6)), mean)