একটি বাইনারি ম্যাট্রিক্স ক্লাস্টারিং


22

আমার কাছে আধা-ছোট ম্যাট্রিক্সের বাইনারি বৈশিষ্ট্যগুলির মাত্রা 250 কে x 100 রয়েছে Each

user  1   2   3   4   5  ...
-------------------------
A     1   0   1   0   1
B     0   1   0   1   0
C     1   0   0   1   0

আমি ব্যবহারকারীদের 5-10 ক্লাস্টারে ফিট করতে এবং লোডিংগুলি বিশ্লেষণ করে দেখতে চাই যে আমি ব্যবহারকারীর আচরণের গ্রুপগুলি ব্যাখ্যা করতে পারি কিনা। বাইনারি ডেটাতে ফিটিং ক্লাস্টারের বেশ কয়েকটি পন্থা উপস্থিত রয়েছে - আমাদের কাছে কি মনে হয় যে এই ডেটার জন্য সেরা কৌশল হতে পারে?

  • পিসিএ

  • একটি জ্যাকার্ড সাদৃশ্য ম্যাট্রিক্স তৈরি করা, একটি শ্রেণিবিন্যাস ক্লাস্টার লাগানো এবং তারপরে শীর্ষ "নোডগুলি" ব্যবহার করা।

  • কে-মধ্যমা

  • কে-medoids

  • প্রক্সিমাস ?

  • এগনেস

হায়ারারিকিকাল ক্লাস্টারিং ব্যবহার করে এখনও অবধি আমি কিছুটা সাফল্য পেয়েছি তবে আমি নিশ্চিত নই যে এটি যাওয়ার সর্বোত্তম উপায় ..

tags = read.csv("~/tags.csv")
d = dist(tags, method = "binary")
hc = hclust(d, method="ward")
plot(hc)
cluster.means = aggregate(tags,by=list(cutree(hc, k = 6)), mean)

এখানে চিত্র বর্ণনা লিখুন


1
বৃহত (অনেকগুলি নোড) এবং উচ্চ-মাত্রিক ডেটার জন্য গ্রাফ ক্লাস্টারিং অ্যালগরিদম (যেমন টানিমোটো মিল এবং লুভাইন ক্লাস্টারিং, আরএনএসসি, এমসিএল) এর মতো পদ্ধতিগুলি ব্যবহার করে চেষ্টা করা সার্থক হতে পারে। আপনার ধরণের ডেটা অর্থপূর্ণ ক্লাস্টার তৈরি করবে কিনা তা সম্পর্কে আমার কিছু সন্দেহ আছে (এটি অবশ্যই খুব ভাল হতে পারে) তবে এই সন্দেহগুলি সাধারণত ক্লাস্টারিংয়ের সাথে সম্পর্কিত, বিশেষত কোনও নির্দিষ্ট ধরণের ক্লাস্টারিংয়ের সাথে নয়। পিসিএ অবশ্যই চেষ্টা করার কিছু।
মিকানস

6
সত্যি কথা বলতে, আমি অবাক হয়েছি যে এই প্রশ্নটি এতটা মনোযোগ আকর্ষণ করেছে। এটা এমন কেন? আমার কাছে এটি অত্যন্ত আকর্ষণীয় প্রশ্নের মতো শোনাচ্ছে।
আতঙ্কিত আতারিয়াহ

উত্তর:


9

প্রচ্ছন্ন শ্রেণীর বিশ্লেষণ একটি সম্ভাব্য পন্থা।

নিম্নলিখিত সম্ভাব্যতা বন্টন নিন যেখানে A, B এবং C 1 বা 0 এর মান গ্রহণ করতে পারে।

P(Ai,Bj,Ck)

এগুলি যদি একে অপরের থেকে স্বতন্ত্র থাকে তবে আমরা আশা করব:

P(Ai,Bj,Ck)=P(Ai)P(Bj)P(Ck)

একবার এই সম্ভাব্যতাটি শেষ হয়ে গেলে, আমরা অনুমান করতে পারি যে কোনও পর্যবেক্ষণ নির্ভরতা অন্যথায় অনাবৃত সাবগ্রুপগুলির মধ্যে ক্লাস্টারিং মানগুলির কারণে। এই ধারণাটি পরীক্ষা করতে, আমরা নিম্নলিখিত মডেলটি অনুমান করতে পারি:

P(Ai,Bj,Ck)=P(Xn)P(Ai|Xn)P(Bj|Xn)P(Ck|Xn)

যেখানে হ'ল স্তরগুলির সাথে একটি সুপ্ত শ্রেণীবদ্ধ পরিবর্তনশীল । আপনি এবং মডেল প্যারামিটারগুলি (শ্রেণীর সদস্যপদের প্রান্তিক সম্ভাবনা এবং প্রতিটি পরিবর্তনশীলের জন্য শ্রেণি নির্দিষ্ট সম্ভাবনা) প্রত্যাশা-সর্বাধিককরণের মাধ্যমে অনুমান করা যায়।এন এনXnn

অনুশীলনে, আপনি সহ কয়েকটি মডেল অনুমান করতে পারেন , এবং তত্ত্ব, সম্ভাবনা ভিত্তিক ফিট সূচক এবং শ্রেণিবিন্যাসের মানের উপর ভিত্তি করে সেরা মডেলটি "চয়ন" করতে পারেন যা শ্রেণীর সদস্যতার উত্তরোত্তর সম্ভাবনা গণনা করে মূল্যায়ন করা যেতে পারে পর্যবেক্ষণ)।5n10

যাইহোক, 5-10 টি গ্রুপ সহ 100 ভেরিয়েবলগুলিতে অর্থবহ নিদর্শনগুলি সনাক্ত করার চেষ্টা করার জন্য মডেলটি অনুমান করার আগে এই তালিকাটি হ্রাস করা প্রয়োজন যা এটি নিজস্ব ডান ( আরএফএফ ) তেমন জটিল একটি বিষয় ।


দুর্দান্ত, আকর্ষণীয় আপনি কী বলবেন যে অন্যের কারওর উপর সেই কৌশলটি ব্যবহারের সুবিধা?
wije

একটি সুবিধা হ'ল ক্লাস্টারিং অস্পষ্ট, আপনাকে পরবর্তী কোনও ক্লাস অ্যাসাইনমেন্টে অনিশ্চয়তার জন্য অ্যাকাউন্ট করতে দেয়। আরেকটি কারণ এটি একটি মডেল ভিত্তিক পদ্ধতি, ,. আপনি সম্ভাবনা ভিত্তিক ফিট সূচকগুলি পান যা মডেল নির্বাচনের জন্য সহায়তা করতে পারে। এটি অবশ্যই বিতরণীয় অনুমানগুলি করার জন্য ব্যয় করে আসে ... আমি নিশ্চিত যে অন্যান্য বৈধ পদ্ধতিগুলির নিজস্ব ট্রেড অফ থাকবে।
ডিএল ডাহলি

5

প্রকৃতপক্ষে, ঘন ঘন আইটেমসেট খনন এই জাতীয় ডেটাতে ক্লাস্টারিংয়ের চেয়ে ভাল পছন্দ হতে পারে।

সাধারণ ভেক্টর-ভিত্তিক অ্যালগরিদমের সেটটি খুব একটা বোঝায় না। কে-মানে উদাহরণস্বরূপ এমন উত্পাদন করবে যা আর বাইনারি হয় না।


আমি ট্যাগ (কলাম) এর চেয়ে ব্যবহারকারীদের ক্লাস্টার করতে চাইলেও ঘন ঘন আইটেমগুলি ব্যবহার করা কি বোধগম্য?
wije

1
হ্যাঁ হ্যাঁ তবে সুস্পষ্ট কারণে, অ্যাসোসিয়েশন বিধিগুলি ডেটা সেটের কঠোরভাবে বিভাজন নয়। একজন ব্যবহারকারী একাধিক "ঘন ঘন আইটেমসেট" এর সদস্য হতে পারে। অর্থাত্ কোনও ব্যবহারকারী একটি বিড়াল পাখা এবং একটি কুকুর পাখা উভয় হতে পারে; এই দুটি গোষ্ঠী বিচ্ছিন্ন হতে বাধ্য করা হয় না।
অ্যানি-মৌসে -রিনস্টেট মনিকা

কোন আইএমএইচও আসলে ভাল। ধরে নিই যে প্রতিটি ব্যবহারকারী ঠিক একটি ক্লাস্টারের সদস্য আমার কাছে অত্যধিক নির্বোধ বলে মনে হয়।
অ্যানি-মৌসে -রিনস্টেট মনিকা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.