দুটি শ্রেণিবিন্যাসের (গাছের মতো) কাঠামোর মিলের তুলনা করতে, কফেনেটিক পারস্পরিক সম্পর্কের ধারণার উপর ভিত্তি করে ব্যবস্থাগুলি ব্যবহৃত হয়। কিন্তু শ্রেণিবদ্ধ ক্লাস্টারিংয়ে "ডান" পদ্ধতি বা দূরত্ব পরিমাপটি নির্বাচন করতে ডেন্ড্রোগ্রামের তুলনা সম্পাদন করা কি সঠিক?
হায়ারারিকিকাল ক্লাস্টার বিশ্লেষণ সম্পর্কিত কিছু বিষয় রয়েছে - লুকানো ছিনতাই - যা আমি বেশ গুরুত্বপূর্ণ বলে ধরব :
- কখনও কখনও তুলনা করুন ( শক্তিশালী পার্টিশন দেওয়ার পদ্ধতিটি নির্বাচন করতে ) ডেনড্রোগ্রামগুলি পৃথকভাবে সংগ্রহের পদ্ধতি দ্বারা দৃশ্যতভাবে প্রাপ্ত। এটি কোন পদ্ধতিটি "আরও ভাল" তা বলবে না। প্রতিটি পদ্ধতি রয়েছে ডেটা কোন ক্লাস্টার গঠন বা র্যান্ডম ক্লাস্টার গঠন আছে গাছ ধারাবাহিকভাবে এমনকি ভিন্ন হবে: তার নিজস্ব "prototypical এর" গাছ চেহারা। (এবং আমি মনে করি না যে এমন কোনও মানক বা ব্যবস্থা রয়েছে যা এই অন্তর্নিহিত পার্থক্যগুলি সরিয়ে ফেলবে)) আপনি তবে ডেনড্রগ্রাম একই পদ্ধতি কিন্তু বিভিন্ন ডেটা দ্বারা উত্পাদিত ফলাফলগুলির তুলনা করতে পারেন। ম্যাক্সিম: প্রত্যক্ষ, বিভিন্ন পদ্ধতির পরে ডেনড্রোগ্রামের সাথে তুলনা করা অগ্রহণযোগ্য ।
- 1 ম্যাক্সিম: একটি ডেনড্রোগ্রাম উপস্থিতি বিবেচনা করে একটি কাটা স্তর নির্বাচন করা, সম্ভাব্য হলেও, পার্টিশনটি নির্বাচন করার পক্ষে সেরা পদ্ধতি নয় এবং কিছু পদ্ধতির জন্য বিভ্রান্তিকর হতে পারে । পরিবর্তে কিছু আনুষ্ঠানিক অভ্যন্তরীণ ক্লাস্টারিং মানদণ্ডের উপর নির্ভর করার পরামর্শ দেওয়া হয় ।
- তবুও কেউ আপনাকে দূরত্ব ব্যবস্থা বা অগ্রগতির পদ্ধতিতে "পরীক্ষা" করতে নিষেধ করতে পারে না, দূরত্ব এবং পদ্ধতিটি সচেতনভাবে নির্বাচন করা ভাল , অন্ধ চেষ্টা না করে। দূরত্বটি আপনার আগ্রহী পার্থক্যের দিকগুলি প্রতিবিম্বিত করে এবং পদ্ধতিটি - অবশ্যই একটি সচেতন হওয়া আবশ্যক - এটি একটি ক্লাস্টারের একটি নির্দিষ্ট প্রত্নতত্ত্বকে বোঝায় (উদাহরণস্বরূপ, ওয়ার্ড ক্লাস্টারের রূপকটি হ'ল, টাইপ ; সম্পূর্ণ লিঙ্কেজ পরে ক্লাস্টার হবে) হতে বৃত্ত [শখ বা চক্রান্ত দ্বারা]; একক দুটো ঘটনার পর ক্লাস্টার হবে বর্ণালী [শৃঙ্খল]; centroid পদ্ধতি পরে ক্লাস্টারের হবে এর প্ল্যাটফর্মের নৈকট্য [রাজনীতি]; গড় দুটো ঘটনার ক্লাস্টার ধারণার দিক থেকে সবচেয়ে নির্বিকার এবং হবে সাধারণত ঐক্যবদ্ধ শ্রেণী )।
- কিছু পদ্ধতি জন্য কল অধিকার দূরত্ব পরিমাপ করে এবং / অথবা তথ্য অধিকার প্রকার। ওয়ার্ড এবং সেন্ট্রয়েড উদাহরণস্বরূপ, যৌক্তিকভাবে ইউক্লিডিয়ান দূরত্বের প্রয়োজন (স্কোয়ারড) - কারণ এই পদ্ধতিগুলি ইউক্লিডিয়ান স্পেসে সেন্ট্রয়েডের গণনায় জড়িত। এবং জ্যামিতিক সেন্ট্রয়েডের গণনা অসঙ্গত, উদাহরণস্বরূপ, বাইনারি ডেটা; ডেটা স্কেল / অবিচ্ছিন্ন হওয়া উচিত। ম্যাক্সিম: ডেটা / দূরত্ব / পদ্ধতি অনুমান এবং চিঠিপত্র খুব গুরুত্বপূর্ণ এবং এত সহজ প্রশ্ন নয়।
- প্রিপ্রসেসিং (যেমন কেন্দ্রকরণ, স্কেলিং এবং পরিবর্তনশীল / বৈশিষ্ট্যগুলির রূপান্তরকরণের অন্যান্য রূপ) দূরত্বের ম্যাট্রিক্সের পূর্বে গণনা করা এবং ক্লাস্টারিং করাও অত্যন্ত গুরুত্বপূর্ণ প্রশ্ন। এটি নাটকীয়ভাবে ফলাফলগুলিকে প্রভাবিত করতে পারে। কী প্রিপ্রোসেসিং আপনাকে সহায়তা করতে পারে এবং তা ব্যাখ্যা করার দিক থেকে বিবেচনা করবে sense এছাড়াও, ক্লাস্টার বিশ্লেষণ করার চেষ্টা করার আগে গ্রাফিকভাবে আপনাকে ডেটা সাবধানে পরিদর্শন করতে লজ্জা পাবেন না।
- দার্শনিক ভিত্তিতে ... শ্রেণিবদ্ধ ক্লাস্টারিংয়ের সমস্ত পদ্ধতি সমানভাবে আপনাকে শ্রেণিবদ্ধ শ্রেণিবদ্ধকরণ হিসাবে দেখা যায় না । উদাহরণস্বরূপ, সেন্ট্রয়েড পদ্ধতি একটি অর্থে স্তরক্রম দেয়, কারণ ক্লাস্টার সেন্টার সামগ্রিকভাবে একটি ক্লাস্টারের উদীয়মান এবং সংজ্ঞাযুক্ত বৈশিষ্ট্য , এবং মার্জিং ক্লাস্টারগুলি সেই বৈশিষ্ট্য দ্বারা চালিত হয়। সম্পূর্ণ লিঙ্কেজ, অন্যদিকে, দু'জনের পৃথক বস্তুর মধ্যে দূরত্বের গুণে - উভয় সাবক্লাস্টারগুলি যখন তাদের একীভূত করে তখন "বরখাস্ত" করে । সুতরাং, সম্পূর্ণ লিঙ্কেজ ডেনড্রোগ্রামটি কেবল সংগ্রহের ইতিহাস এবং কোনও পিতামাতার বাচ্চার বাছাইকরূপে নয় ।ম্যাক্সিম: হায়ারারিকিকাল অগ্রোমারেটিভ ক্লাস্টার বিশ্লেষণ, সাধারণত, প্রত্যাশা করে যে আপনি ফলাফলকে হায়ারারিকিক্যাল ট্যাক্সোনমি হিসাবে দেখানোর পরিবর্তে তার ফলাফলের ভিত্তিতে একটি বিভাজন তৈরি করেছেন।
- হায়ারারিকিকাল ক্লাস্টারিং হল সাধারণ লোভী অ্যালগরিদম যা শেষ পর্যন্ত অনুকূল সমাধানের কাছাকাছি আসার প্রত্যাশায় প্রতিটি পদক্ষেপে উপস্থিত বিকল্পগুলির মধ্যে সেরা পছন্দ করে তোলে। তবে, একটি উচ্চ স্তরের পদক্ষেপে প্রদর্শিত "সেরা" পছন্দটি এই পদক্ষেপে তাত্ত্বিকভাবে তাত্ত্বিকভাবে সম্ভব বিশ্বব্যাপী সর্বোত্তম হতে পারে বলে মনে হয়। একটি নিয়ম হিসাবে বৃহত্তর পদক্ষেপ, বৃহত্তর suboptimality হয়। আমরা সাধারণত কয়েকটি ক্লাস্টার চাই শেষ পদক্ষেপ গুরুত্বপূর্ণ; এবং যেমনটি বলা হয়েছে, পদক্ষেপের সংখ্যা বেশি হলে (তারা হাজার পদক্ষেপ) তুলনামূলকভাবে দরিদ্র হওয়ার প্রত্যাশা রয়েছে। এই কারণেই প্রোগ্রামটি এত বড় দূরত্বের ম্যাট্রিক্স পরিচালনা করতে পারে এমন কি হায়ারার্কিকাল ক্লাস্টারিং সাধারণত বস্তুর বৃহত নমুনার (হাজার হাজার বস্তুর সংখ্যার) জন্য সুপারিশ করা হয় না ।
XijYij
1 "ওয়ার্ড -২"বাস্তবায়ন) এবং জমে না। আবারও পুনরাবৃত্তি করার জন্য, এই ধরনের পার্থক্যগুলি ডেনড্রোগ্রামের সাধারণ আকার / চেহারাগুলিকে প্রভাবিত করে, ক্লাস্টারিং ফলাফলগুলি নয়। তবে ডেনড্রগ্রামের চেহারাগুলি ক্লাস্টারের সংখ্যা সম্পর্কে আপনার সিদ্ধান্তকে প্রভাবিত করতে পারে। নৈতিকতাটি হ'ল ওয়ার্ডের পদ্ধতিতে ডেনড্রোগ্রামের উপর নির্ভর করা মোটেও নিরাপদ হবে যদি না আপনি নিজের প্রোগ্রামের এই সহগগুলি কী এবং কীভাবে সঠিকভাবে ব্যাখ্যা করতে হয় তা সঠিকভাবে জানেন না।