সিলুয়েট প্লটটির অর্থ কীভাবে ব্যাখ্যা করবেন?


34

আমি আমার ডেটাসেটে ক্লাস্টারের সংখ্যা নির্ধারণের জন্য সিলুয়েট প্লট ব্যবহার করার চেষ্টা করছি। ডেটাসেট ট্রেন দেওয়া , আমি নিম্নলিখিত ম্যাটলব কোডটি ব্যবহার করেছি

Train_data = full(Train);  
Result = [];  
for num_of_cluster = 1:20  
    centroid = kmeans(Train_data,num_of_cluster,'distance','sqeuclid');  
    s = silhouette(Train_data,centroid,'sqeuclid');  
    Result = [ Result; num_of_cluster mean(s)];  
end  
plot( Result(:,1),Result(:,2),'r*-.');`

ফলস্বরূপ প্লটটি নিচু মানের সাথে ক্লাস্টার এবং ইয়্যাক্সিসের গড় হিসাবে সংখ্যা হিসাবে এক্স্যাক্সিস সহ নীচে দেওয়া হয়েছে ।

আমি এই গ্রাফটি কীভাবে ব্যাখ্যা করব? আমি এটি থেকে ক্লাস্টারের সংখ্যা কীভাবে নির্ধারণ করব?

এখানে চিত্র বর্ণনা লিখুন


ক্লাস্টারের সংখ্যা নির্ধারণের জন্য, ভিজ্যুয়ালাইজেশন-সফটওয়্যার-ক্লাস্টারিংয়ের আওতায় ন্যূনতম স্প্যানিং ট্রি (এমএসটি) পদ্ধতিটি দেখুন ।
ডেনিস

@Learner: সিলুয়েট ফাংশন কিছু লাইব্রেরিতে অন্তর্নির্মিত? যদি তা না হয়, আপনি যদি কিছু মনে না করেন তবে আপনি কি এটি আপনার প্রশ্নে পোস্ট করতে পারেন?
কিংবদন্তি

@ লিজেন্ড: এটি মাতলাব স্ট্যাটিস্টিক্স টুলবক্সে উপলব্ধ।
শিখর

@ শিখুন: ওফস ... আমি ভেবেছিলাম আপনি পাইথন ব্যবহার করছেন :) এটি সম্পর্কে আমাকে জানানোর জন্য ধন্যবাদ
কিংবদন্তি

1
কোড দেখানোর জন্য +1! এছাড়াও, যেহেতু আপনার সিলুয়েটের সর্বাধিক গড়টি যখন কে = 2 হয় তখন আপনি আপনার ডেটা ক্লাস্টার করা হয় কিনা তা যাচাই করতে চাইতে পারেন যা ফাঁক পরিসংখ্যান (অন্য লিঙ্ক ) ব্যবহার করে করা যেতে পারে ।
ফ্রাঙ্ক ডারননকোর্ট

উত্তর:


41

সের্গির উত্তরে সমালোচনামূলক বিন্দু রয়েছে, যা হ'ল সিলুয়েট সহগতা অর্জনকৃত ক্লাস্টারিংয়ের গুণমানকে পরিমাণযুক্ত করে - তাই আপনার সিলুয়েট সহগকে সর্বাধিকীকরণকারী ক্লাস্টারের সংখ্যা নির্বাচন করা উচিত।


দীর্ঘ উত্তরটি হ'ল আপনার ক্লাস্টারিংয়ের প্রচেষ্টার ফলাফলগুলি মূল্যায়নের সর্বোত্তম উপায় হ'ল প্রকৃতপক্ষে পরীক্ষা করা - মানব পরিদর্শন - ক্লাস্টারগুলি গঠিত হয় এবং ডেটা কী উপস্থাপন করে, কোন ক্লাস্টার কী উপস্থাপন করে তার বোঝার উপর ভিত্তি করে একটি সংকল্প তৈরি করে, এবং এই ক্লাস্টারিংটি কী অর্জন করতে চায়।

ক্লাস্টারিং ফলাফলগুলি মূল্যায়নের অসংখ্য পরিমাণগত পদ্ধতি রয়েছে যা সীমাবদ্ধতার সম্পূর্ণ বোঝার সাথে সাথে সরঞ্জাম হিসাবে ব্যবহার করা উচিত। এগুলি প্রকৃতিতে মোটামুটি স্বজ্ঞাত হয়ে ওঠে এবং এর ফলে একটি প্রাকৃতিক আবেদন (সাধারণভাবে ক্লাস্টারিং সমস্যাগুলির মতো) থাকে।

উদাহরণস্বরূপ: ক্লাস্টার ভর / ব্যাসার্ধ / ঘনত্ব, সংহতি বা ক্লাস্টারগুলির মধ্যে পৃথকীকরণ ইত্যাদি These এই ধারণাগুলি প্রায়শই একত্রিত হয়, উদাহরণস্বরূপ, ক্লাস্টারিং সফল হলে সংহতিতে বিচ্ছিন্নতার অনুপাত বড় হওয়া উচিত।

ক্লাস্টারিংটি যেভাবে পরিমাপ করা হয় তা ক্লাস্টারিং অ্যালগরিদমের ধরণ দ্বারা জানানো হয়। উদাহরণস্বরূপ, একটি সম্পূর্ণ ক্লাস্টারিং অ্যালগরিদমের মান পরিমাপ করা (যাতে সমস্ত পয়েন্ট ক্লাস্টারে রাখা হয়) একটি থ্রেশোল্ড-ভিত্তিক ফাজি ক্লাস্টারিং অ্যালগরিদমের মান পরিমাপ করা থেকে খুব আলাদা হতে পারে (যাতে কোনও শব্দটি 'গোলমাল' হিসাবে অ-ক্লাস্টার হিসাবে ছেড়ে যেতে পারে) )।


সিলুয়েট সহগ এমন একটি পরিমাপ। এটি নিম্নলিখিত হিসাবে কাজ করে:

প্রতিটি পয়েন্ট প এর জন্য প্রথমে একই ক্লাস্টারে পি এবং অন্যান্য সমস্ত পয়েন্টের মধ্যকার গড় দূরত্বটি নির্ণয় করুন (এটি একাত্মতার একটি পরিমাপ, একে এ বলুন)। তারপরে নিকটস্থ ক্লাস্টারে পি এবং সমস্ত পয়েন্টের মধ্যে গড় দূরত্বটি সন্ধান করুন (এটি নিকটবর্তী অন্যান্য ক্লাস্টার থেকে বিচ্ছিন্নতার একটি পরিমাপ, এটি বি কল করুন)। পি এর সিলুয়েট সহগকে বি এবং এ এর ​​মধ্যে দুটি (সর্বাধিক (এ, বি)) দ্বারা বিভক্ত হিসাবে পার্থক্য হিসাবে সংজ্ঞায়িত করা হয়।

আমরা প্রতিটি পয়েন্টের ক্লাস্টার সহগকে মূল্যায়ন করি এবং এ থেকে আমরা 'সামগ্রিক' গড় ক্লাস্টার সহগ অর্জন করতে পারি।

স্বজ্ঞাতভাবে, আমরা ক্লাস্টারগুলির মধ্যে স্থান পরিমাপ করার চেষ্টা করছি। যদি ক্লাস্টার সংহতি ভাল হয় (এ ছোট) এবং ক্লাস্টার বিভাজন ভাল হয় (বি বড়), অঙ্কটি বড় হবে ইত্যাদি etc.

গ্রাফিকভাবে এটি প্রদর্শনের জন্য আমি এখানে একটি উদাহরণ তৈরি করেছি।

ক্লাস্টারিং সহগ Nclusters = 2: 5 এর জন্য ক্লাস্টারিংয়ের ফলাফল

এই প্লটগুলিতে একই তথ্য পাঁচবার প্লট করা হয়; রঙগুলি কে-মানে ক্লাস্টারিং দ্বারা তৈরি ক্লাস্টারগুলি কে = 1,2,3,4,5 সহ নির্দেশ করে। এটি হ'ল, আমি একটি ক্লাস্টারিং অ্যালগরিদমকে 2 ক্লাস্টারে ডেটা বিভক্ত করতে বাধ্য করেছি, তারপরে 3, এবং আরও, এবং সেই অনুযায়ী গ্রাফটি রঙিন করেছি।

সিলুয়েট প্লটটি দেখায় যে সিলুয়েট সহগ সবচেয়ে বেশি ছিল যখন কে = 3, এটি বোঝায় যে এটি ক্লাস্টারের অনুকূল সংখ্যা number এই উদাহরণে আমরা ডেটা ভিজ্যুয়ালাইজ করতে সক্ষম হওয়ার জন্য ভাগ্যবান এবং আমরা সম্মতি জানাতে পারি যে, প্রকৃতপক্ষে তিনটি ক্লাস্টার এই ডেটা সেটটির বিভাজনকে সেরাভাবে ক্যাপচার করে।

আমরা যদি উচ্চতর মাত্রিকতার কারণে ডেটাটি কল্পনা করতে অক্ষম হয়ে থাকি তবে একটি সিলুয়েট প্লটটি এখনও আমাদের একটি পরামর্শ দিত। তবে আমি আশা করি এখানে আমার কিছুটা দীর্ঘ-উত্তরযুক্ত উত্তরটিও এই বিষয়টিকে দাঁড় করিয়ে দিয়েছে যে এই "প্রস্তাবনা" নির্দিষ্ট পরিস্থিতিতে কিছুটা অপ্রতুল বা কেবল সাধারণ ভুল হতে পারে।


5
আপনার বিস্তারিত উত্তরের জন্য আপনাকে ধন্যবাদ, এবং বিশেষত প্লটগুলি খুব সহায়ক। তবে the average silhouette witdh "suggestion" could be very insufficient or just plain wrong in certain scenarios.আপনি কীভাবে দাবি করছেন তা আমি পুরোপুরি বুঝতে পারি নি ।
ঝুবার্ব

10

কটাক্ষপাত ক্লাস্টার বৈধতা বিশ্লেষণ প্ল্যাটফর্ম (CVAP) টুলবক্স এবং বস্তু CVAP থেকে (সংযোগগুলি) কিছু:

সিলুয়েট সূচক (সামগ্রিক গড় সিলুয়েট) একটি বৃহত্তর সিলুয়েট মান একটি ক্লাস্টারিং ফলাফলের আরও ভাল মানের ইঙ্গিত করে [চেন এট আল। 2002]

  • এন। বলশাকোভা, এফ। আজুয়াজে 2003. জিনোম এক্সপ্রেশন ডেটা, সিগন্যাল প্রসেসিংয়ের জন্য ক্লাস্টার বৈধতা কৌশলগুলি। V.83। এন 4, পি.825-833।
  • ই। ডিমিত্রিডো, এস। ডলনিকার, এ। ওয়েইনজেল। বাইনারি ডেটা সেটগুলিতে ক্লাস্টারের সংখ্যা নির্ধারণের জন্য সূচকগুলির একটি পরীক্ষা। সাইকোমেট্রিকা, 67 (1): 137-160, 2002।

ক্লাস্টারের সংখ্যা নির্ধারণের জন্য আপনি এই (সাধারণ) সরঞ্জামটিও পরীক্ষা করতে পারেন

উভয় টুলকিটগুলির উদাহরণগুলি একবার দেখুন (আপনি অন্যান্য ক্লাস্টারের বৈধতা প্রযুক্তিও ব্যবহার করতে পারেন)


6

আমি আজ একই জিনিস মধ্যে খুঁজছেন এবং ব্যাখ্যা পাওয়া গেছে এখানে । এটি যৌক্তিক অর্থে তৈরি করে তবে আমি নিশ্চিত না যে আমরা আমাদের ডেটাসেটগুলির জন্য অন্ধভাবে ব্যাখ্যাটি প্রয়োগ করতে পারি কিনা। সংক্ষেপে, নিবন্ধটি যা বলে তা নীচে:

0.71-1.0
A strong structure has been found

0.51-0.70
A reasonable structure has been found

0.26-0.50
The structure is weak and could be artificial. Try additional methods of data analysis.

< 0.25
No substantial structure has been found

তবে, মনে হচ্ছে আমরা বহিরাগতদের ধরতে সিলুয়েটের প্রস্থ ব্যবহার করতে পারি can বর্তমানে আমি যে ডকুমেন্ট ক্লাস্টারিংয়ের কাজটি পরিচালনা করছি তার মধ্যে নেতিবাচক সিলুয়েট প্রস্থেরগুলি অবশ্যই নির্দিষ্ট বহিরাগত (যখন ক্রসটি তাদের শব্দার্থক অর্থের সাথে পরীক্ষা করা হবে)। আমি নিশ্চিত নই যে আউটলিয়ারদের অপসারণের পরে এই প্রস্থের উন্নতি হবে কিনা (আবার, এটি যৌক্তিক বোধ করে তবে আমি নিজেই এটি করি নি)।


4
কেবল একটি ইতিহাসের মন্তব্য, টেবিলটি মূলত সেলওয়ে, গ্র্যান্ডভিল এবং পিজে রুসো থেকে আসে। "ডেটাতে গোষ্ঠী সন্ধান করা: গুচ্ছ বিশ্লেষণের একটি ভূমিকা।" (1990)। img546.imageshack.us/img546/4523/cnfg.png (আগে কোনও লেখকের নিবন্ধে এর আগে প্রকাশিত)
ফ্রাঙ্ক ডারননকোর্ট

উত্তরের লিঙ্কটি আর উপলব্ধ নেই। আপনি দয়া করে অন্য রেফারেন্স দিতে পারেন?
বাজাজজি

ওয়েব সংরক্ষণাগার থেকে নিবন্ধটির লিঙ্কটি এখানে: web.archive.org/web/20111002220803/http://www.unesco.org:80/…
জাস্টাস

1

আপনি যদি নিরীক্ষণযোগ্য শিক্ষার জন্য ক্লাস্টারের সংখ্যা বাছাই করার চেষ্টা করছেন তবে সম্ভবত আপনি কিছু করার চেষ্টা করতে পারেন-

http://scikit-learn.org/stable/auto_examples/cluster/plot_kmeans_silhouette_analysis.html

তারা কেবল সিলুয়েট স্কোরের চেয়ে বেশি ব্যবহার করে (তারা বিতরণটি ব্যবহার করে) তবে এটি অর্থবোধ করে। এটি ছোট ক্লাস্টারগুলিকে পছন্দ করে বলে মনে হচ্ছে তবে সম্ভবত আপনি কিছু উত্পন্ন ডেটা দিয়ে এটি ব্যবহার করে দেখতে পাচ্ছেন কিনা?

বিকল্পভাবে, আপনি এই কাগজটি পরীক্ষা করতে পারেন-

http://www.sciencedirect.com/science/article/pii/0377042787901257

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.