কয়েকটি বিষয় সম্পর্কে সচেতন হওয়া উচিত।
বেশিরভাগ অভ্যন্তরীণ ক্লাস্টারিং মানদণ্ডের মতো , ক্যালিনস্কি-হারাবাসস একটি হিউরিস্টিক ডিভাইস। এটি ব্যবহারের যথাযথ উপায় হ'ল একই ডেটাতে প্রাপ্ত ক্লাস্টারিং সমাধানগুলি তুলনা করা - সমাধানগুলি যা ক্লাস্টারের সংখ্যা বা ব্যবহৃত ক্লাস্টারিং পদ্ধতি দ্বারা পৃথক হয়।
কোনও "গ্রহণযোগ্য" কাট-অফ মান নেই। আপনি কেবল চোখের সাহায্যে সিএইচ মানগুলি তুলনা করুন। মানটি যত বেশি, ততই সমাধান "সমাধান"। যদি সিএইচ মানগুলির লাইন প্লটটিতে উপস্থিত হয় যে একটি সমাধান একটি শিখর দেয় বা কমপক্ষে একটি আকস্মিক কনুই দেয়, তবে এটি চয়ন করুন। যদি, বিপরীতে, লাইনটি মসৃণ হয় - অনুভূমিক বা আরোহী বা উতরাই - তবে অন্যদের কাছে একটির সমাধানকে প্রাধান্য দেওয়ার কোনও কারণ নেই।
সিএইচ মানদণ্ড আনোভা আদর্শের উপর ভিত্তি করে। সুতরাং, এটি বোঝাচ্ছে যে ক্লাস্টারযুক্ত বস্তুগুলি ইউক্লিডিয়ান স্কেলের (নিয়মিত বা বাইনারি বা নামমাত্র নয়) ভেরিয়েবলের মধ্যে থাকে lie যদি ক্লাস্টার করা ডেটাগুলি বস্তুগুলির মধ্যে এক্স ভেরিয়েবল না হত তবে বস্তুর মধ্যে অসামতার একটি ম্যাট্রিক্স ছিল তবে ভিন্নতা পরিমাপ হওয়া উচিত (স্কোয়ারড) ইউক্যালিডিয়ান দূরত্ব (বা আরও খারাপভাবে, অন্যান্য বৈশিষ্ট্য অনুসারে ইউক্লিডিয়ান দূরত্বের কাছাকাছি পৌঁছানো) met
যখন ক্লাস্টার বেশী বা কম গোলাকার এবং তাদের মাঝখানে (যেমন স্বাভাবিকভাবে বিতরণ যেমন উদাহরণস্বরূপ,) কম্প্যাক্ট হয় সিএইচ নির্ণায়ক ক্ষেত্রে সবচেয়ে উপযুক্ত । অন্যান্য শর্তগুলি সমান হচ্ছে, সিএইচ ক্লাস্টারগুলির সাথে প্রায় একই সংখ্যক অবজেক্টের সমন্বয়ে ক্লাস্টার সলিউশন পছন্দ করে।1
আসুন একটি উদাহরণ পর্যবেক্ষণ করা যাক। নীচে এমন একটি স্ক্র্যাপপ্লট ডেটা রয়েছে যা সাধারণত 5 টি বিতরণ করা ক্লাস্টার হিসাবে একে অপরের কাছাকাছি অবস্থিত।
এই ডেটাগুলি শ্রেণিবদ্ধ গড়-লিংকেজ পদ্ধতি দ্বারা ক্লাস্টার করা হয়েছিল, এবং 15-ক্লাস্টার থেকে 2-ক্লাস্টার সলিউশনের মাধ্যমে সমস্ত ক্লাস্টার সলিউশন (ক্লাস্টার সদস্যতা) সংরক্ষণ করা হয়েছিল। তারপরে সমাধানগুলির তুলনা করতে এবং যদি কিছু থাকে তবে "আরও ভাল" নির্বাচন করতে দুটি ক্লাস্টারিং মানদণ্ড প্রয়োগ করা হয়েছিল।
ক্যালিনস্কি-হারাবাসস এর প্লট বাম দিকে রয়েছে। আমরা এটি দেখতে পাই - এই উদাহরণে - সিএইচ স্পষ্টভাবে 5-ক্লাস্টার সলিউশনকে (CLU5_1 লেবেলযুক্ত) সেরা হিসাবে চিহ্নিত করে। অন্য ক্লাস্টারিং মানদণ্ডের জন্য প্লট, সি-সূচক (যা আনোভা মতাদর্শের উপর ভিত্তি করে নয় এবং সিএইচ-এর চেয়ে তার প্রয়োগে সর্বজনীন) ডানদিকে রয়েছে। সি-ইনডেক্সের জন্য, একটি কম মান একটি "আরও ভাল" সমাধান নির্দেশ করে। প্লটটি যেমন দেখায়, 15-ক্লাস্টার সমাধান আনুষ্ঠানিকভাবে সেরা। তবে মনে রাখবেন যে ক্লাস্টারিং মানদণ্ডের সাথে রাগড টোগোগ্রাফি সিদ্ধান্তের ক্ষেত্রে মাত্রার চেয়ে বেশি গুরুত্বপূর্ণ। দ্রষ্টব্য 5-ক্লাস্টার দ্রবণে কনুই আছে; 5-ক্লাস্টার সলিউশনটি এখনও তুলনামূলকভাবে ভাল তবে 4- বা 3-ক্লাস্টার দ্রবণগুলি লাফিয়ে খারাপ হয় rate যেহেতু আমরা সাধারণত "কম ক্লাস্টারগুলির সাথে একটি আরও ভাল সমাধান" পেতে চাই, তাই সি-সূচক পরীক্ষার অধীনে 5-ক্লাস্টারের সমাধানের পছন্দটিও যুক্তিসঙ্গত বলে মনে হয়।
পিএস এই পোস্টটি এই প্রশ্নটিও তুলে ধরেছে যে আমাদের ক্লাস্টারিং মানদণ্ডের প্রকৃত সর্বাধিক (বা সর্বনিম্ন) বেশি হওয়া উচিত বা এর মানগুলির প্লটটির প্রাকৃতিক দৃশ্যের উপর নির্ভর করা উচিত ।
1 Later পরে নোট । লিখিত হিসাবে যথেষ্ট না। সিমুলেটেড ডেটাসেটগুলিতে আমার প্রোবগুলি আমাকে বোঝায় যে প্ল্যাটেকারটিক একের (যেমন একটি বলের মতো) বা উপবৃত্তাকারগুলির উপরে বৃত্তাকার ক্লাস্টারগুলির তুলনায় সিএইচের কোনও অগ্রাধিকার নেই - যদি ইন্ট্রাক্লাস্টার সামগ্রিক রূপগুলি এবং ইন্টারক্লাস্টার সেন্ট্রয়েড বিচ্ছেদ একই রাখে। তবে মনে রাখতে হবে যে একটি লক্ষণটি হ'ল যদি ক্লাস্টারগুলি (যথারীতি) স্পেসে ননওভারল্যাপিংয়ের প্রয়োজন হয় তবে বৃত্তাকার ক্লাস্টারগুলির সাথে একটি ভাল ক্লাস্টার কনফিগারেশনটি বাস্তব অভ্যাসের সাথে আবদ্ধ ক্লাস্টারের সাথে একইভাবে ভাল কনফিগারেশনের মুখোমুখি হওয়া সহজ ( "একটি ক্ষেত্রে পেন্সিল" প্রভাব); ক্লাস্টারিং মানদণ্ডের বায়াসগুলির সাথে এর কোনও যোগসূত্র নেই।
অভ্যন্তরীণ ক্লাস্টারিং মানদণ্ড এবং সেগুলি কীভাবে ব্যবহার করবেন সে সম্পর্কে একটি ওভারভিউ ।