কে-ক্লাস্টারিং ক্লাস্টার সংখ্যার সংজ্ঞা কীভাবে দেওয়া যায়?


19

অনুকূল ক্লাস্টার নম্বর নির্ধারণ করার কোনও উপায় আছে কি আমার ভাল মান সম্পর্কে সিদ্ধান্ত নেওয়ার জন্য আলাদা আলাদা মানগুলি চেষ্টা করা উচিত এবং ত্রুটির হারগুলি পরীক্ষা করা উচিত?


1
@ বার্কে এই নিষ্ক্রিয় পদ্ধতিটির জন্য আপনি ত্রুটির হারকে কীভাবে সংজ্ঞায়িত করবেন? (বা এসএসের মধ্যে আপনি কী বোঝাতে চান?)
সিএল

@ সিএইচএল, আমি সমস্ত ক্লাস্টার বা সামগ্রিক নির্ভুলতার জন্য স্কোয়ার ত্রুটির যোগফল ব্যবহার করতে পারি (এই ক্ষেত্রে আমি শ্রেণীর লেবেলগুলি জানি))
বার্কে

3
@ বার্কে নং ক্লাস্টারগুলি সন্ধানের জন্য একটি সাধারণ অ্যালগরিদম হ'ল ক্রমসংখ্যার ক্রমবর্ধমান সংখ্যার উপর ভিত্তি করে 20-র কে-ইউনের জন্য ডাব্লুএসএস গণনা করা (2 দিয়ে শুরু হওয়া এবং 9 বা 10 বলে শেষ হওয়া) এবং সমাধানটি রেখে দেওয়া এই ক্লাস্টারস সেটগুলির উপর ন্যূনতম ডাব্লুএসএস। আরেকটি পদ্ধতি হল শূন্যস্থান পরিসংখ্যাত । আপনি যদি ইতিমধ্যে লেবেলযুক্ত দৃষ্টান্তগুলি দেখে থাকেন তবে কেন আপনি একটি নিষ্ক্রিয় পদ্ধতি ব্যবহার করছেন?
chl

@ সিএল ধন্যবাদ, ভাল প্রশ্ন, আমরা অনুমানগুলির বৈশিষ্ট্যগুলির উপর নির্ভর করে গুচ্ছগুলি অনুমান করতে পারি, আমি নতুন অনুপ্রবেশের বৈশিষ্ট্যগুলি বিশ্লেষণ করছি, আইনী প্রয়োগগুলির নকল করছি।
বার্কে

2
আমি এখানে অর্ধ ডজন পদ্ধতি (ব্যবহার করে R) এর সাথে একই ধরণের প্রশ্নটির উত্তর দিয়েছি : stackoverflow.com/a/15376462/1036500
বেন

উত্তর:


8

আমি যে পদ্ধতিটি ব্যবহার করি তা হ'ল সিসিসি (কিউবিক ক্লাস্টারিং মানদণ্ড)। আমি ক্লাস্টারের সংখ্যা 1 দ্বারা বাড়ানোর সাথে সাথে সিসিসি সর্বাধিক বাড়তে চাইছি এবং তারপরে সিসিসি কমতে শুরু করলে পর্যবেক্ষণ করব। এই মুহুর্তে আমি সর্বাধিক (স্থানীয়) ক্লাস্টারের সংখ্যা নিই। এটি মূল উপাদানগুলির সংখ্যা বাছাইয়ের জন্য স্ক্রি প্লট ব্যবহার করার মতো হবে।


এসএএস প্রযুক্তিগত প্রতিবেদন এ -৩০০ কিউবিক ক্লাস্টারিং মানদণ্ড ( পিডিএফ )

= পর্যবেক্ষণের সংখ্যা এন কে = ক্লাস্টারে কে পি পি = ভেরিয়েবলের সংখ্যা q = ক্লাস্টারের সংখ্যা এক্স = এন × পি ডেটা ম্যাট্রিক্স এম = কিউ × পি ক্লাসারের ম্যাট্রিক্স অর্থ জেড = ক্লাস্টার সূচক ( জেড i কে = 1 যদি obs । আমি ক্লাস্টারের মধ্যে K , 0 অন্যভাবে) n
nkk
p
q
Xএন×পি
এমকুই×পি
জেডz- রআমি=1আমি

ধরুন প্রতিটি ভেরিয়েবলের অর্থ 0:
, এম = ( জেড জেড ) - 1 জেড এক্সজেড'জেড=diag এর(এন1,,এনকুই)এম=(জেড'জেড)-1জেড'এক্স

(মোট) ম্যাট্রিক্স = টি = এক্স এক্স এস এস (ক্লাস্টারগুলির মধ্যে) ম্যাট্রিক্স = বি = এম জেড জেড এম এস এস (ক্লাস্টারের মধ্যে) ম্যাট্রিক্স = ডাব্লু = টি - বিএসএসটিএক্স'এক্স
এসএসবিএম'জেড'জেডএম
এসএসওয়াটটি-বি

(ট্রেস = তির্যক উপাদানের যোগফল)আর2=1-ট্রেস (ওয়াট)চিহ্ন(টি)

কলামগুলি একটি দীর্ঘ কলামে স্ট্যাক করুন । উপর প্রত্যাবর্তন Kronecker পণ্য এর টু Z সঙ্গে পি × পি পরিচয় ম্যাট্রিক্স কম্পিউট আর 2 এই রিগ্রেশন জন্য - একই আর 2এক্স
জেডপি×পি
আর2আর2

চট্টগ্রাম সিটি করপোরেশন ধারণা তুলনা হয় আপনার সাথে ক্লাস্টার একটি প্রদত্ত বিন্যাসের জন্য পেতে আর 2 আপনি পয়েন্ট অবিশেষে বিতরণ সেট ক্লাস্টারিং দ্বারা পাবে পি মাত্রিক স্থান।আর2আর2পি


2
সিসিসি ছাড়াও অন্যান্য মানদণ্ড রয়েছে। কটাক্ষপাত আছে একটি ডেটা সেটের ক্লাস্টার সংখ্যা নির্ধারণ প্রধান বেশী দেখতে।
ভিনসেন্ট লাবাতুত
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.