ক্যালিনস্কি এবং হারাবাসস (সিএইচ) মাপদণ্ডের একটি গ্রহণযোগ্য মান কী?


25

আমি আর কিমিএল প্যাকেজটি ব্যবহার করে অনুদায়ী তথ্য ক্লাস্টার করার চেষ্টা করে একটি ডেটা বিশ্লেষণ করেছি । আমার ডেটাতে প্রায় 400 টি পৃথক ট্র্যাজেক্টোরি রয়েছে (যেমন এটি কাগজে বলা হয়)। আপনি নিম্নলিখিত ছবিতে আমার ফলাফল দেখতে পারেন:

এখানে চিত্র বর্ণনা লিখুন

সংশ্লিষ্ট কাগজে ২.২ অধ্যায় "ক্লাস্টারগুলির একটি অনুকূল সংখ্যা নির্বাচন করা" পড়ার পরে আমি কোনও উত্তর পাইনি। আমি 3 টি ক্লাস্টার রাখা পছন্দ করব তবে ফলাফলটি এখনও 80 এর সিএইচ এর সাথে ঠিক আছে Act বাস্তবে আমি জানি না সিএইচ মানটি কী উপস্থাপন করে।

সুতরাং আমার প্রশ্ন, ক্যালিনস্কি এবং হারাবাসস (সিএইচ) মাপদণ্ডের একটি গ্রহণযোগ্য মূল্য কী?


আপনার ক্লাস্টার-সমাধানের চিত্রগুলি এসপিএসএস থেকে এসেছে? এসপিএসএসে এই সিএইচ মানদণ্ডটি গণনা করা সম্ভব? ধন্যবাদ! :) বি
বারবেলাইন

@ বারবেলিন সাইটে আপনাকে স্বাগতম এটি ওপি-র প্রশ্নের উত্তর নয়। উত্তর সরবরাহ করতে দয়া করে "আপনার উত্তর" ক্ষেত্রটি ব্যবহার করুন। আপনার যদি নিজস্ব প্রশ্ন [ASK QUESTION]থাকে তবে সেখানে জিজ্ঞাসা করুনটিতে ক্লিক করুন , তবে আমরা আপনাকে সঠিকভাবে সহায়তা করতে পারি। যেহেতু আপনি এখানে নতুন, আপনি আমাদের সফর নিতে চাইতে পারেন , যাতে নতুন ব্যবহারকারীদের জন্য তথ্য রয়েছে।
গুং - মনিকা পুনরায়

@ বারবেলিন ছবিগুলি আর।
গ্রেগ 121

উত্তর:


40

কয়েকটি বিষয় সম্পর্কে সচেতন হওয়া উচিত।

  • বেশিরভাগ অভ্যন্তরীণ ক্লাস্টারিং মানদণ্ডের মতো , ক্যালিনস্কি-হারাবাসস একটি হিউরিস্টিক ডিভাইস। এটি ব্যবহারের যথাযথ উপায় হ'ল একই ডেটাতে প্রাপ্ত ক্লাস্টারিং সমাধানগুলি তুলনা করা - সমাধানগুলি যা ক্লাস্টারের সংখ্যা বা ব্যবহৃত ক্লাস্টারিং পদ্ধতি দ্বারা পৃথক হয়।

  • কোনও "গ্রহণযোগ্য" কাট-অফ মান নেই। আপনি কেবল চোখের সাহায্যে সিএইচ মানগুলি তুলনা করুন। মানটি যত বেশি, ততই সমাধান "সমাধান"। যদি সিএইচ মানগুলির লাইন প্লটটিতে উপস্থিত হয় যে একটি সমাধান একটি শিখর দেয় বা কমপক্ষে একটি আকস্মিক কনুই দেয়, তবে এটি চয়ন করুন। যদি, বিপরীতে, লাইনটি মসৃণ হয় - অনুভূমিক বা আরোহী বা উতরাই - তবে অন্যদের কাছে একটির সমাধানকে প্রাধান্য দেওয়ার কোনও কারণ নেই।

  • সিএইচ মানদণ্ড আনোভা আদর্শের উপর ভিত্তি করে। সুতরাং, এটি বোঝাচ্ছে যে ক্লাস্টারযুক্ত বস্তুগুলি ইউক্লিডিয়ান স্কেলের (নিয়মিত বা বাইনারি বা নামমাত্র নয়) ভেরিয়েবলের মধ্যে থাকে lie যদি ক্লাস্টার করা ডেটাগুলি বস্তুগুলির মধ্যে এক্স ভেরিয়েবল না হত তবে বস্তুর মধ্যে অসামতার একটি ম্যাট্রিক্স ছিল তবে ভিন্নতা পরিমাপ হওয়া উচিত (স্কোয়ারড) ইউক্যালিডিয়ান দূরত্ব (বা আরও খারাপভাবে, অন্যান্য বৈশিষ্ট্য অনুসারে ইউক্লিডিয়ান দূরত্বের কাছাকাছি পৌঁছানো) met

  • যখন ক্লাস্টার বেশী বা কম গোলাকার এবং তাদের মাঝখানে (যেমন স্বাভাবিকভাবে বিতরণ যেমন উদাহরণস্বরূপ,) কম্প্যাক্ট হয় সিএইচ নির্ণায়ক ক্ষেত্রে সবচেয়ে উপযুক্ত । অন্যান্য শর্তগুলি সমান হচ্ছে, সিএইচ ক্লাস্টারগুলির সাথে প্রায় একই সংখ্যক অবজেক্টের সমন্বয়ে ক্লাস্টার সলিউশন পছন্দ করে।1

আসুন একটি উদাহরণ পর্যবেক্ষণ করা যাক। নীচে এমন একটি স্ক্র্যাপপ্লট ডেটা রয়েছে যা সাধারণত 5 টি বিতরণ করা ক্লাস্টার হিসাবে একে অপরের কাছাকাছি অবস্থিত।

এখানে চিত্র বর্ণনা লিখুন

এই ডেটাগুলি শ্রেণিবদ্ধ গড়-লিংকেজ পদ্ধতি দ্বারা ক্লাস্টার করা হয়েছিল, এবং 15-ক্লাস্টার থেকে 2-ক্লাস্টার সলিউশনের মাধ্যমে সমস্ত ক্লাস্টার সলিউশন (ক্লাস্টার সদস্যতা) সংরক্ষণ করা হয়েছিল। তারপরে সমাধানগুলির তুলনা করতে এবং যদি কিছু থাকে তবে "আরও ভাল" নির্বাচন করতে দুটি ক্লাস্টারিং মানদণ্ড প্রয়োগ করা হয়েছিল।

এখানে চিত্র বর্ণনা লিখুন

ক্যালিনস্কি-হারাবাসস এর প্লট বাম দিকে রয়েছে। আমরা এটি দেখতে পাই - এই উদাহরণে - সিএইচ স্পষ্টভাবে 5-ক্লাস্টার সলিউশনকে (CLU5_1 লেবেলযুক্ত) সেরা হিসাবে চিহ্নিত করে। অন্য ক্লাস্টারিং মানদণ্ডের জন্য প্লট, সি-সূচক (যা আনোভা মতাদর্শের উপর ভিত্তি করে নয় এবং সিএইচ-এর চেয়ে তার প্রয়োগে সর্বজনীন) ডানদিকে রয়েছে। সি-ইনডেক্সের জন্য, একটি কম মান একটি "আরও ভাল" সমাধান নির্দেশ করে। প্লটটি যেমন দেখায়, 15-ক্লাস্টার সমাধান আনুষ্ঠানিকভাবে সেরা। তবে মনে রাখবেন যে ক্লাস্টারিং মানদণ্ডের সাথে রাগড টোগোগ্রাফি সিদ্ধান্তের ক্ষেত্রে মাত্রার চেয়ে বেশি গুরুত্বপূর্ণ। দ্রষ্টব্য 5-ক্লাস্টার দ্রবণে কনুই আছে; 5-ক্লাস্টার সলিউশনটি এখনও তুলনামূলকভাবে ভাল তবে 4- বা 3-ক্লাস্টার দ্রবণগুলি লাফিয়ে খারাপ হয় rate যেহেতু আমরা সাধারণত "কম ক্লাস্টারগুলির সাথে একটি আরও ভাল সমাধান" পেতে চাই, তাই সি-সূচক পরীক্ষার অধীনে 5-ক্লাস্টারের সমাধানের পছন্দটিও যুক্তিসঙ্গত বলে মনে হয়।

পিএস এই পোস্টটি এই প্রশ্নটিও তুলে ধরেছে যে আমাদের ক্লাস্টারিং মানদণ্ডের প্রকৃত সর্বাধিক (বা সর্বনিম্ন) বেশি হওয়া উচিত বা এর মানগুলির প্লটটির প্রাকৃতিক দৃশ্যের উপর নির্ভর করা উচিত ।


1 Later পরে নোট । লিখিত হিসাবে যথেষ্ট না। সিমুলেটেড ডেটাসেটগুলিতে আমার প্রোবগুলি আমাকে বোঝায় যে প্ল্যাটেকারটিক একের (যেমন একটি বলের মতো) বা উপবৃত্তাকারগুলির উপরে বৃত্তাকার ক্লাস্টারগুলির তুলনায় সিএইচের কোনও অগ্রাধিকার নেই - যদি ইন্ট্রাক্লাস্টার সামগ্রিক রূপগুলি এবং ইন্টারক্লাস্টার সেন্ট্রয়েড বিচ্ছেদ একই রাখে। তবে মনে রাখতে হবে যে একটি লক্ষণটি হ'ল যদি ক্লাস্টারগুলি (যথারীতি) স্পেসে ননওভারল্যাপিংয়ের প্রয়োজন হয় তবে বৃত্তাকার ক্লাস্টারগুলির সাথে একটি ভাল ক্লাস্টার কনফিগারেশনটি বাস্তব অভ্যাসের সাথে আবদ্ধ ক্লাস্টারের সাথে একইভাবে ভাল কনফিগারেশনের মুখোমুখি হওয়া সহজ ( "একটি ক্ষেত্রে পেন্সিল" প্রভাব); ক্লাস্টারিং মানদণ্ডের বায়াসগুলির সাথে এর কোনও যোগসূত্র নেই।

অভ্যন্তরীণ ক্লাস্টারিং মানদণ্ড এবং সেগুলি কীভাবে ব্যবহার করবেন সে সম্পর্কে একটি ওভারভিউ


পাঠক প্রশ্ন stats.stackexchange.com/q/242360/3277 খুব দেখতে চাইতে পারেন ।
ttnphns

আমি এসপিএসএস-এর জন্য বেশ কয়েকটি জনপ্রিয় ক্লাস্টারিং বৈধতা মাপদণ্ড কার্যকর করেছি - দয়া করে আমার ওয়েব পৃষ্ঠাটি দেখুন, "ক্লাস্টারিং মানদণ্ড" সংগ্রহ।
ttnphns
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.