কে-মানেগুলির জন্য ক্লাস্টার নির্বাচন করা: 1 ক্লাস্টারের কেস


9

কেমেস ব্যবহার করে গুচ্ছবদ্ধ হওয়া কি যথাযথ কিনা তা নির্ধারণ করার জন্য কি কেউ একটি ভাল পদ্ধতি জানেন? অর্থাত্ যদি আপনার নমুনাটি বাস্তবে সমজাতীয় হয় তবে কী হবে? আমি জানি মিশ্রণ মডেলের মতো কিছু (আরআর এমক্লাস্টের মাধ্যমে) 1: কে ক্লাস্টারের ক্ষেত্রে উপযুক্ত পরিসংখ্যান সরবরাহ করবে, তবে মনে হয় কমিয়ানদের মূল্যায়নের সমস্ত কৌশলগুলির জন্য কমপক্ষে 2 টি ক্লাস্টার প্রয়োজন।

কি কেউ কুমেনের জন্য 1 এবং 2 ক্লাস্টার কেসের তুলনা করার কোনও কৌশল জানেন?

উত্তর:


10

ফাঁক পরিসংখ্যান এটি করার একটি দুর্দান্ত উপায়; তিবশিরানী, হাস্টি ও ওয়ালথার (2001)।

http://stat.ethz.ch/R-manual/R-devel/library/cluster/html/clusGap.html - সম্পর্কিত আর প্যাকেজ।

ধারণাটি হ'ল এটি কে = 1,2,3, ... এর জন্য আপনার ডেটা ক্লাস্টারিংয়ের ক্রমিক অনুমানমূলক পরীক্ষা করে ... বনাম এলোমেলো শব্দের একটি নাল অনুমান, যা একটি ক্লাস্টারের সমতুল্য। এর বিশেষ শক্তিটি হ'ল এটি আপনাকে কে = 1 কিনা, অর্থাত্ কোনও গুচ্ছ নেই কিনা তার একটি নির্ভরযোগ্য ইঙ্গিত দেয়।

উদাহরণস্বরূপ, আমি কিছুদিন আগে কিছু জ্যোতির্বিজ্ঞানের তথ্য যা যা ঘটেছিল তা পর্যবেক্ষণ করছিলাম - যথা একটি স্থানান্তর এক্সোপ্ল্যানেট সমীক্ষা থেকে। আমি জানতে চেয়েছিলাম (উত্তল) গুচ্ছগুলির জন্য কী প্রমাণ রয়েছে। আমার ডেটা 'ট্রানজিট'

library(cluster)
cgap <- clusGap(transit, FUN=kmeans, K.max=kmax, B=100)
for(k in 1:(kmax-1)) {
    if(cgap$Tab[k,3]>cgap$Tab[(k+1),3]-cgap$Tab[(k+1),4]) {print(k)}; 
    break;
}

ব্যবধানের পরিসংখ্যান সহ আপনি কে এর প্রথম মানটি সন্ধান করছেন যেখানে পরীক্ষা 'ব্যর্থ' অর্থাৎ ফাঁক পরিসংখ্যান উল্লেখযোগ্যভাবে হ্রাস পায়। উপরের লুপটি এরকম আক প্রিন্ট করবে, তবে স্রেফ সিগ্যাপ প্লট করা আপনাকে নিম্নোক্ত চিত্রটি দেয়:
এখানে চিত্র বর্ণনা লিখুন দেখুন কেপ = 1 থেকে কে = 2 পর্যন্ত গ্যাপে কীভাবে একটি উল্লেখযোগ্য নিমজ্জন রয়েছে, এটি বোঝায় যে আসলে কোনও ক্লাস্টার নেই (অর্থাত্ 1 ক্লাস্টার)।


একক লিংকেজ সহ শ্রেণিবিন্যাসের ক্লাস্টারিংয়ের জন্য কীভাবে? আপনি কি ক্লাসগ্যাপের মজাদার যুক্তিটি ব্যাখ্যা করতে পারেন? হায়ারারিকাল kmax = 20 cgap <- clusGap (ক্লাস্টার_ফিয়াট_বাস [, 2: এনসিএল (ক্লাস্টার_ফেট_ব্যাস)]], FUN = hclust, K.max = kmax, B = 100) এর জন্য আমি নীচের লাইনটি চালিয়েছি। তবে এটি FUNcluster (এক্স, কে,, ...) এ ত্রুটি বলে একটি ত্রুটি দেয়: অবৈধ ক্লাস্টারিং পদ্ধতি 2
জর্জঅফ দ্যআরএফ

4

আপনি আরও সাম্প্রতিক পদ্ধতিতেও চেষ্টা করতে পারেন: এ। কালোগেরাতোস এবং এ.লিকাস, ডিপ-অর্থ: গুচ্ছগুলির সংখ্যা নির্ধারণের জন্য একটি বর্ধিত ক্লাস্টারিং পদ্ধতি , এনআইপিএস ২০১২।

ধারণাটি হ'ল এক বিন্দু এবং সেটের বাকী পয়েন্টগুলির মধ্যে সাদৃশ্য / দূরত্ব সমেত ভেক্টরগুলিতে অভিন্নতার জন্য পরিসংখ্যান অনুমানের পরীক্ষা করা। হার্টিগান-হার্টিগান ডিপ টেস্ট , আন ব্যবহার করে পরীক্ষাটি করা হয় । পরিসংখ্যানবিৎ। 13 (1): 70-84।

পদ্ধতিটি একটি ক্লাস্টার হিসাবে সমস্ত ডেটাসেটের সাথে শুরু হয় এবং যতক্ষণ না অবিচ্ছিন্নতা অনুমানটি প্রত্যাখ্যান করা হয় ততক্ষণ ক্রমবর্ধমানভাবে এটি বিভক্ত হয় (যেমন একাধিক ক্লাস্টার উপস্থিত থাকে)।

সুতরাং এই পদ্ধতিটি ডেটাতে (আপনার প্রশ্ন) একাধিক ক্লাস্টার রয়েছে কিনা তা নির্দেশ করে তবে এটি চূড়ান্ত ক্লাস্টারিংও সরবরাহ করতে পারে।

এখানে আপনি মতলব কিছু কোড খুঁজে পেতে পারেন


0

মনে করুন আমি একই উদাহরণ বিবেচনা করছি,

লাইব্রেরি (ক্লাস্টার) সিজিএপ <- ক্লাসগ্যাপ (ট্রানজিট, এফইএন = কিমানস, কে। ম্যাক্স = কেম্যাক্স, বি = 100) এর জন্য (কে ইন 1: (কেম্যাক্স -1)) {যদি (সিজিএপি)Tab[k,3]>cgapট্যাব [(কে + 1), 3] -সিগ্যাপ $ ট্যাব [(কে + 1), 4]) {মুদ্রণ (কে)}; বিরতি; }

সর্বাধিক ব্যবধানের পরিসংখ্যানের ভিত্তিতে সেরা ক্লাস্টারিং সমাধানের সাথে সম্পর্কিত গুচ্ছগুলির উপাদানগুলিকে কীভাবে সাবসেট করতে পারি? যাতে আমি এটি প্রতিটি ক্লাস্টারে আরও বিশ্লেষণের জন্য ব্যবহার করতে পারি।

আমি জানি সাবসেট নামক একটি কমান্ড আছে। আমরা যখন চাই ক্লাস্টারের সংখ্যা দিয়েছি তখন এই কমান্ডটি ব্যবহার করার কোনও সমস্যা নেই। তবে যখন আমরা ব্যবধানটি ব্যবহার করে অনুকূল কে এর উপর ভিত্তি করে সাবসেট করতে চাই তখন কীভাবে এটি উপসেট করা যায় (সংক্ষেপে, একটি লুপ থাকলে ক্লাস্টারগুলির উপসেটেটিং উপাদানগুলি)

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.