শ্রেণিবদ্ধ ক্লাস্টারিংয়ের জন্য সঠিক লিঙ্কেজ পদ্ধতি নির্বাচন করা


33

আমি গুগল বিগকুয়েরিতে রেডডিট ডেটা ডাম্প থেকে সংগ্রহ করেছি এবং প্রক্রিয়া করেছি এমন ডেটাগুলিতে শ্রেণিবদ্ধ ক্লাস্টারিং করছি ।

আমার প্রক্রিয়াটি নিম্নলিখিত:

  • / আর / রাজনীতিতে সর্বশেষ 1000 পদ পান
  • সমস্ত মন্তব্য সংগ্রহ করুন
  • ডেটা প্রক্রিয়া করুন এবং একটি n x mডেটা ম্যাট্রিক্স গণনা করুন (এন: ব্যবহারকারী / নমুনা, এম: পোস্ট / বৈশিষ্ট্য)
  • শ্রেণিবদ্ধ ক্লাস্টারিংয়ের জন্য দূরত্বের ম্যাট্রিক্স গণনা করুন
  • একটি লিঙ্কেজ পদ্ধতি চয়ন করুন এবং শ্রেণিবদ্ধ ক্লাস্টারিং সম্পাদন করুন
  • ডেড্রোগ্রাম হিসাবে ডেটা প্লট করুন

আমার প্রশ্ন হল, আমি কীভাবে নির্ধারণ করব যে সর্বোত্তম লিঙ্কেজ পদ্ধতিটি কী? আমি বর্তমানে ব্যবহার করছি Wardকিন্তু আমি যদি ব্যবহার করা উচিত আমি জানি না single, complete, average, ইত্যাদি?

আমি এই স্টাফটিতে খুব নতুন কিন্তু আমি অনলাইনে একটি পরিষ্কার উত্তর খুঁজে পাচ্ছি না কারণ আমি নিশ্চিত না যে এর একটি আছে। তাহলে আমার অ্যাপ্লিকেশনটির জন্য কী ভাল ধারণা হতে পারে? নোট করুন যে অপেক্ষাকৃত তুলনামূলকভাবে অপেক্ষাকৃত তুলনায় n x mম্যাট্রিক্সে প্রচুর শূন্য রয়েছে (বেশিরভাগ লোক কয়েকটি পোস্টের বেশি মন্তব্য করে না)।


নির্দিষ্ট লিঙ্কেজ ইস্যুটি আলাদা করে রাখা, আপনার প্রসঙ্গে "সেরা" অর্থ কী?
গুং - মনিকা পুনরায়

আমার জন্য সেরা আমার ধরণের ডেটা লিঙ্ক করার জন্য সবচেয়ে যুক্তিসঙ্গত উপায় সন্ধান করছে। উদাহরণস্বরূপ: কোন বৈশিষ্ট্যটি আমার বৈশিষ্ট্যগুলির মধ্যে "দূরত্ব" বলতে যা বোঝায় তা নির্ভুলভাবে সংজ্ঞা দেয়।
কেভিন এগার

2
কেভিন, দয়া করে এই উত্তরটি এবং এটি খুব সাম্প্রতিক প্রশ্নটি দেখুন । আপনি শিখবেন যে আপনি যে প্রশ্নটি উত্থাপন করছেন ("কোন পদ্ধতিটি ব্যবহার করবেন") তা সহজ নয়। পদ্ধতির মধ্যে পার্থক্য দেখতে এবং চয়ন করতে সক্ষম হওয়ার আগে আপনার অবশ্যই ক্লাস্টারিং (কমপক্ষে শ্রেণিবদ্ধ) সম্পর্কে সাহিত্য পড়া উচিত । ডেটা বিশ্লেষণকে হাতছাড়া আচরণ করা উচিত নয়।
ttnphns

1
লিঙ্কটির জন্য ধন্যবাদ @ এনটিএনএফএনএস - একটি ভাল পড়া ছিল এবং আমি এই বিষয়গুলি বিবেচনায় নেব।
কেভিন এগার

উত্তর:


58

পদ্ধতির ওভারভিউ

হায়ারারিকিকাল অ্যাগ্রোমারেটিভ ক্লাস্টার অ্যানালাইসিসের (এইচএসি) কয়েকটি সংযোগ পদ্ধতি সম্পর্কে সংক্ষিপ্ত রেফারেন্স ।

এইচএসি অ্যালগরিদমের মূল সংস্করণ একটি জেনেরিক; এটি প্রতিটি পদক্ষেপে ল্যান্স-উইলিয়ামস সূত্র হিসাবে পরিচিত সূত্র অনুসারে আপডেট হওয়া সমান, এখন অবধি বিদ্যমান উত্থানকারী (দুটিতে একত্রীকরণ) গুচ্ছ এবং অন্যান্য সমস্ত ক্লাস্টারের (সিংগন বস্তু সহ) মধ্যে নৈকট্য রয়েছে। ল্যান্স-উইলিয়ামস সূত্র ব্যবহার না করে বাস্তবায়ন রয়েছে। তবে এটি ব্যবহার করা সুবিধাজনক: এটি একই কোডটিকে একই টেমপ্লেট দ্বারা বিভিন্ন লিঙ্কেজ পদ্ধতিতে কোড দেয় ।

পুনরাবৃত্তির সূত্রে বেশ কয়েকটি পরামিতি (আলফা, বিটা, গামা) অন্তর্ভুক্ত রয়েছে। লিঙ্কেজ পদ্ধতির উপর নির্ভর করে প্যারামিটারগুলি আলাদাভাবে সেট করা হয় এবং তাই মোড়কানো সূত্রটি একটি নির্দিষ্ট ভিউ অর্জন করে। এইচএসি-র অনেকগুলি পাঠ্য সূত্রটি, এর পদ্ধতি-নির্দিষ্ট দৃষ্টিভঙ্গি এবং পদ্ধতিগুলি ব্যাখ্যা করে। আমি খুব পুঙ্খানুপুঙ্খ হিসাবে জ্যানোস পোদানির নিবন্ধগুলি সুপারিশ করব।

বিভিন্ন পদ্ধতির ঘর এবং প্রয়োজনীয়তা এই সত্য থেকে উত্থাপিত হয় যে দুটি ক্লাস্টারের মধ্যে বা একটি ক্লাস্টার এবং একটি সিঙ্গলটন অবজেক্টের মধ্যে একটি নৈকট্য (দূরত্ব বা মিল) অনেকগুলি উপায়ে তৈরি করা যেতে পারে। এইচএসি প্রতিটি ধাপে দুটি খুব কাছের ক্লাস্টার বা পয়েন্টগুলিতে একীভূত হয়, তবে কীভাবে মুখে উল্লিখিত সান্নিধ্যটি গণনা করতে হবে যে ইনপুট প্রক্সিমিটি ম্যাট্রিক্সটি কেবল সিঙ্গলটন অবজেক্টের মধ্যে সংজ্ঞায়িত করা হয়েছিল, তা গঠনের সমস্যা।

সুতরাং, পদ্ধতিগুলি প্রতি পদক্ষেপে যে কোনও দুটি ক্লাস্টারের মধ্যে নৈকট্যকে কীভাবে সংজ্ঞায়িত করে সে সম্পর্কে আলাদা। "কলিগেশন সহগ" (সংকলনের সময়সূচী / ইতিহাসে আউটপুট এবং একটি ডেনড্রোগ্রামে "ওয়াই" অক্ষ তৈরি করা) একটি নির্দিষ্ট পদক্ষেপে দুটি ক্লাস্টারের একত্রিত হওয়া কেবলমাত্র নৈকট্য।

  • একক লিঙ্কেজ বা নিকটতম প্রতিবেশী পদ্ধতি । দুটি ক্লাস্টারের মধ্যে নৈকট্য হ'ল তাদের দুটি নিকটতম বস্তুর মধ্যে সান্নিধ্য। এই মানটি ইনপুট ম্যাট্রিক্সের মানগুলির মধ্যে একটি। ধারণাগত রূপক এই ক্লাস্টার, তার আদিরূপ, এর নির্মিত হয় বর্ণালী বা শৃঙ্খল । চেইনগুলি সোজা বা বক্ররেখার হতে পারে, বা "স্নোফ্লেক" বা "অ্যামিবা" দেখার মত হতে পারে। দু'জন অতি ভিন্ন ভিন্ন ক্লাস্টারের সদস্য খুব দু'টি একইরকমের তুলনায় খুব বেশি ভিন্ন ভিন্ন হতে পারে। একক লিঙ্কেজ পদ্ধতিটি কেবল নিকটবর্তী প্রতিবেশীদের মিলকে নিয়ন্ত্রণ করে।

  • সম্পূর্ণ লিঙ্কেজ বা সবচেয়ে দূরের প্রতিবেশী পদ্ধতি । দুটি ক্লাস্টারের মধ্যে সান্নিধ্য হ'ল তাদের দুটি অতি দূরবর্তী বস্তুর মধ্যে সান্নিধ্য। এই মানটি ইনপুট ম্যাট্রিক্সের মানগুলির মধ্যে একটি। গুচ্ছ নির্মিত এই রূপকটির রূপকটি বৃত্ত (অর্থে শখ বা চক্রান্ত অনুসারে) যেখানে একে অপরের সদস্যদের থেকে দু'দূর দূরে থাকা অন্য বেশ ভিন্ন ভিন্ন জোড়া (বৃত্ত হিসাবে) এর চেয়ে অনেক বেশি পৃথক হতে পারে না। এই ধরনের ক্লাস্টারগুলি তাদের সীমানা দ্বারা "কমপ্যাক্ট" রূপরেখা হয় তবে এগুলি ভিতরে কমপ্যাক্ট হয় না।

  • গ্রুপ-গড় লিঙ্কেজের পদ্ধতি (ইউপিজিএমএ)। দুটি গুচ্ছের মধ্যে নৈকট্য হ'ল একদিকে, অন্যদিকে এবং অন্যের অবজেক্টগুলির মধ্যে থাকা সমস্ত নৈকট্যগুলির গাণিতিক গড়। গুচ্ছ নির্মিত এই রূপকটির রূপকটি বেশ সাধারণ, কেবল সংযুক্ত শ্রেণি বা নিকট-নিট সমষ্টিগত; এবং পদ্ধতিটি প্রায়শই হায়ারারিকাল ক্লাস্টারিং প্যাকেজগুলিতে ডিফল্টটিকে সেট করে। বিবিধ আকার এবং রূপরেখার গোষ্ঠী তৈরি করা যেতে পারে।

  • সাধারণ গড় বা গ্রুপ-গড় লিঙ্কেজ (ডাব্লুপিজিএমএ) মধ্যে সামঞ্জস্যের পদ্ধতি হ'ল পূর্ববর্তী। দুটি গুচ্ছের মধ্যে সান্নিধ্য হ'ল একদিকে, অন্যদিকে এবং অন্যের অবজেক্টগুলির মধ্যে থাকা সমস্ত নৈকট্যগুলির গাণিতিক গড়; যদিও এই দুটি ক্লাস্টারের প্রত্যেকে সম্প্রতি একত্রিত করা হয়েছে এমন সাবক্লাস্টারগুলিতে সেই সান্নিধ্যের উপর সমান প্রভাব রয়েছে - এমনকি উপ-ক্লাস্টারগুলি বস্তুর সংখ্যায় পৃথক হলেও।

  • গ্রুপের মধ্যে গড় লিঙ্কেজের পদ্ধতি (এমএনডিআইএস)। দুটি ক্লাস্টারের মধ্যে সান্নিধ্য হ'ল তাদের যৌথ ক্লাস্টারের সমস্ত নৈকট্যগুলির গাণিতিক গড়। এই পদ্ধতিটি ইউপিজিএমএর বিকল্প। এটি ক্লাস্টারের ঘনত্বের ক্ষেত্রে এটি হারাতে পারে তবে কখনও কখনও ক্লাস্টারের আকারগুলি উন্মোচিত করে দেয় যা ইউপিজিএমএ করবে না।

  • Centroid পদ্ধতি (UPGMC)। দুটি গুচ্ছের মধ্যে নৈকট্য হ'ল তাদের জ্যামিতিক সেন্ট্রয়েডগুলির মধ্যে নৈকট্য: [বর্গাকার] এদের মধ্যে ইউক্লিডিয়ান দূরত্ব। এই নির্মিত ক্লাস্টারের রূপক হ'ল প্ল্যাটফর্মগুলির (রাজনীতি) সান্নিধ্য । রাজনৈতিক দলগুলির মতো, এই ধরনের গুচ্ছগুলিতে ভগ্নাংশ বা "উপদ্বীপ" থাকতে পারে, তবে তাদের কেন্দ্রীয় পরিসংখ্যান একে অপরের সাথে পৃথক না হলে ইউনিয়ন ধারাবাহিক থাকবে। ক্লাস্টারগুলি রূপরেখার মাধ্যমে বিভিন্ন হতে পারে।

  • মিডিয়ান , বা ভারসাম্যযুক্ত সেন্ট্রয়েড পদ্ধতি (ডাব্লুপিজিএমসি) হ'ল পূর্ববর্তী। দুটি গুচ্ছের মধ্যে নৈকট্য হ'ল তাদের জ্যামিতিক সেন্ট্রয়েডগুলির মধ্যে [[স্কোয়ার্ড] ইউক্লিডিয়ান দূরত্ব যার মধ্যে); যদিও সেন্ট্রয়েডগুলি সংজ্ঞায়িত করা হয়েছে যাতে এই দুটি ক্লাস্টারের প্রতিটি সম্প্রতি সংযুক্ত করা হয়েছিল এমন সাবক্লাস্টারগুলি এর সেন্ট্রয়েডের উপর সমান প্রভাব ফেলতে পারে - এমনকি সাবক্লাস্টারগুলি বস্তুর সংখ্যায় পৃথক হলেও।

  • এসএস12-(এসএস1+ +এসএস2)2। স্বজ্ঞাতভাবে, একটি প্রকার মেঘ আরও ঘন এবং এর মাঝের দিকে আরও ঘন ঘন, যেখানে প্রান্তিক পয়েন্টগুলি খুব কম এবং তুলনামূলকভাবে অবাধে ছড়িয়ে যেতে পারে।

কিছু স্বল্পপরিচিত পদ্ধতির মধ্যে রয়েছে (পডানি জে। নিউ কম্বিনেটরিয়াল ক্লাস্টারিং পদ্ধতিগুলি দেখুন // ভেজিটেইও, 1989, 81: 61-77।) [এছাড়াও আমার ওয়েব পৃষ্ঠায় পাওয়া এসপিএসএস ম্যাক্রো হিসাবে আমার দ্বারা প্রয়োগ করা হয়েছে]:

  • এসএস122

  • এমএস12-(এন1এমএস1+ +এন2এমএস2)/(এন1+ +এন2)=[এসএস12-(এসএস1+ +এসএস2)]/(এন1+ +এন2)4

  • এমএস12=এসএস12/(এন1+ +এন2)4

প্রথম 5 টি পদ্ধতি কোনও নৈকট্য ব্যবস্থা গ্রহণের অনুমতি দেয় (কোনও মিল বা দূরত্ব) এবং ফলাফলগুলি প্রাকৃতিকভাবে নির্বাচিত পরিমাপের উপর নির্ভর করবে।

শেষ 6 টি পদ্ধতির জন্য দূরত্ব প্রয়োজন; এবং সম্পূর্ণরূপে সঠিক হবে তাদের সাথে কেবল স্কোয়ারড ইউক্লিডিয়ান দূরত্ব ব্যবহার করা , কারণ এই পদ্ধতিগুলি ইউক্লিডিয়ান স্পেসে সেন্ট্রয়েডগুলি গণনা করে। সুতরাং জ্যামিতিক নির্ভুলতার জন্য দূরত্বগুলি ইউক্লিডিয়ান হওয়া উচিত (এই 6 টি পদ্ধতিকে জ্যামিতিক সংযোগ পদ্ধতিগুলি একত্রে বলা হয় )। সবচেয়ে খারাপ ক্ষেত্রে, আপনি অন্য মেট্রিক ইনপুট করতে পারেনআরও উত্তরাধিকারী, কম কঠোর বিশ্লেষণ স্বীকার করতে দূরত্ব। এখন সেই "স্কোয়ার" সম্পর্কে। স্কোয়ারড দূরত্বগুলি সম্পাদন করার জন্য গাণিতিকভাবে / প্রোগ্রামগতভাবে সেন্ট্রয়েড এবং তাদের থেকে বিচ্যুতিগুলির গণনা সবচেয়ে সুবিধাজনক, এজন্যই এইচএসি প্যাকেজগুলি সাধারণত ইনপুট করতে হয় এবং স্কোয়ারগুলি প্রক্রিয়া করার জন্য সুর করা হয়। যাইহোক, বাস্তবায়ন রয়েছে - সম্পূর্ণ দূরত্বে সামান্য ধীরে - অনূদিত দূরত্বগুলির ইনপুট এবং সেইগুলি প্রয়োজনীয়গুলির উপর ভিত্তি করে; উদাহরণস্বরূপ ওয়ার্ডের পদ্ধতির জন্য "ওয়ার্ড -২" বাস্তবায়ন দেখুন। আপনার ক্লাস্টারিং প্রোগ্রামের ডকুমেন্টেশনের সাথে পরামর্শ করা উচিত যা সঠিক - যা স্কোয়ারড বা না - এটি সঠিকভাবে করার জন্য কোনও "জ্যামিতিক পদ্ধতিতে" ইনপুট এ প্রত্যাশা করে।

এমএনডিআইএস, এমএনএসএসকিউ এবং এমএনভিএআর-র একটি ক্লাস্টারের পরিসংখ্যান (যা পদ্ধতির উপর নির্ভর করে) সংরক্ষণ করার জন্য ল্যান্স-উইলিয়ামস সূত্রটি কেবল আপডেট করার পাশাপাশি পদক্ষেপের প্রয়োজন।

যে পদ্ধতিগুলি অধ্যয়নগুলিতে সর্বাধিক ঘন ঘন ব্যবহৃত হয় যেখানে ক্লাস্টারগুলি আরও বেশি বা কম গোলাকার মেঘ হতে পারে বলে আশা করা হয় - সেগুলি হল গড় লিঙ্কেজের পদ্ধতি, সম্পূর্ণ লিঙ্কেজ পদ্ধতি এবং ওয়ার্ডের পদ্ধতি।

ওয়ার্ডের পদ্ধতিটি কে-মানে ক্লাস্টারিংয়ের দ্বারা বৈশিষ্ট্য এবং দক্ষতার নিকটতম; তারা একই উদ্দেশ্য ফাংশন ভাগ করে - ক্লাস্টার এসএসের মধ্যে "শেষের দিকে" পোল্ডকে ছোট করা min অবশ্যই, কে-মানেগুলি (পুনরাবৃত্ত হওয়া এবং যদি শালীন প্রাথমিক সেন্ট্রয়েড সরবরাহ করা হয়) তবে এটি ওয়ার্ডের চেয়ে একটি ভাল মিনিমাইজার। তবে অসম্পূর্ণ শারীরিক আকার (রূপগুলি) বা স্থান সম্পর্কে খুব অনিয়মিতভাবে ছড়িয়ে দেওয়া ক্লাস্টারগুলি উন্মোচন করার ক্ষেত্রে ওয়ার্ড আমার কাছে কে-মানেগুলির থেকে কিছুটা সঠিক বলে মনে হচ্ছে। MIVAR পদ্ধতিটি আমার কাছে অদ্ভুত, কখনই এটির প্রস্তাব দেওয়া যেতে পারে তা আমি ভাবতে পারি না, এটি যথেষ্ট ঘন ক্লাস্টার তৈরি করে না।

পদ্ধতিগুলি সেন্ট্রয়েড, মিডিয়ান, ন্যূনতম পরিমাণে বৈকল্পিকতা - কখনও কখনও তথাকথিত বিপরীতগুলি দিতে পারে : এমন ঘটনা যখন দুটি ক্লাস্টার কিছু ধাপে একত্রে মিশে যাওয়ার আগে জোড়া গুচ্ছ জোড়া মিশ্রিত হওয়ার চেয়ে একে অপরের নিকটে উপস্থিত হয়। কারণ এই পদ্ধতিগুলি তথাকথিত আলট্রামেট্রিকের অন্তর্ভুক্ত নয়। এই পরিস্থিতিটি অসুবিধাজনক হলেও তাত্ত্বিকভাবে ঠিক আছে।

একক লিঙ্কেজ এবং সেন্ট্রয়েডের পদ্ধতিগুলি তথাকথিত স্থান চুক্তি বা "চেইনিং" এর অন্তর্ভুক্ত। এর অর্থ - মোটামুটিভাবে বলা - যে তারা একের পর এক বস্তুগুলিকে ক্লাস্টারে সংযুক্ত করে, এবং তাই তারা বক্ররেখার তুলনামূলকভাবে মসৃণ বৃদ্ধি "ক্লাস্টার্ড অবজেক্টের%" প্রদর্শন করে। বিপরীতে, সম্পূর্ণ সংযোগের পদ্ধতিগুলি, ওয়ার্ডস, স্কোয়ার অফ স্কোয়ারস, প্রকরণের বৃদ্ধি এবং বৈকল্পিক সাধারণত প্রাথমিক পদক্ষেপগুলিতে এমনকি ক্লাস্টারযুক্ত অবজেক্টগুলির যথেষ্ট পরিমাণ ভাগ পায় এবং তারপরে এখনও সেগুলিকে মার্জ করে এগিয়ে যায় - সুতরাং তাদের বক্ররেখা "ক্লাস্টার্ড অবজেক্টগুলির%" ”প্রথম পদক্ষেপ থেকে খাড়া। এই পদ্ধতিগুলিকে স্পেস ডিলটিং বলা হয় । অন্যান্য পদ্ধতি মধ্যে পড়ে।

নমনীয় সংস্করণ । ল্যান্স-উইলিয়ান্স সূত্রে অতিরিক্ত প্যারামিটার যুক্ত করে কোনও পদ্ধতিকে তার পদক্ষেপগুলিতে বিশেষভাবে স্ব-টিউনিং করে তোলা সম্ভব। প্যারামিটারটি ক্লাস্টারের নৈকট্যের মধ্যে গণনা করার জন্য সংশোধন করে নিয়ে আসে, যা গুচ্ছগুলির আকার (ডি-কমপ্যাক্টনেসের পরিমাণ) উপর নির্ভর করে। প্যারামিটারটির অর্থ হ'ল এটি একত্রিতকরণের পদ্ধতিটিকে স্ট্যান্ডার্ড পদ্ধতির চেয়ে বেশি স্পেস ডিলটিং বা স্পেস কন্ট্রাকটিংয়ের ব্যবস্থা করে দেয় ing এখন পর্যন্ত নমনীয়তার সর্বাধিক সুপরিচিত বাস্তবায়ন হ'ল গড় লিঙ্কেজ পদ্ধতিগুলি ইউপিজিএমএ এবং ডাব্লুপিজিএমএ (বেলবিন, এল। এট। বিটা-ফ্লেক্সিবল ক্লাস্টারিং // মাল্টিভায়েট বিহেভিওরাল রিসার্চ, 1992, 27, 417–433 এর দুটি পদ্ধতির একটি তুলনা)। )।

Dendrogram। উপরের পদ্ধতি দ্বারা সংজ্ঞায়িত - একটি ডেনড্রোগ্রাম "ওয়াই" অক্ষের উপর সাধারণত মার্জ করা ক্লাস্টারগুলির মধ্যে নৈকট্য প্রদর্শিত হয়। অতএব, উদাহরণস্বরূপ, সেন্ট্রয়েড পদ্ধতিতে স্কোয়ার দূরত্বটি সাধারণত ধরা হয় (শেষ পর্যন্ত, এটি প্যাকেজের উপর নির্ভর করে এবং এটি বিকল্পগুলি) - কিছু গবেষণা সে সম্পর্কে অবগত নয়। এছাড়াও, ঐতিহ্য দ্বারা উপর ভিত্তি করে পদ্ধতি বৃদ্ধি যেমন ওয়ার্ড এর মত nondensity, সাধারণত dendrogram দেখানো হয় ক্রমযোজিত মান - এটি তাত্ত্বিক বেশী সুবিধার কারণে শুভস্য হয়। সুতরাং, (অনেক প্যাকেজগুলিতে) ওয়ার্ডের পদ্ধতিতে প্লটযুক্ত গুণাগুণ একটি নির্দিষ্ট পদক্ষেপের মুহুর্তে পর্যবেক্ষণকৃত ক্লাস্টারের সমষ্টিগুলির-ক্লাসারের মধ্যে, সমস্ত ক্লাস্টার জুড়ে সামগ্রিকভাবে উপস্থাপন করে।

এক বিচার যা দুটো ঘটনার পদ্ধতি তার ডেটার জন্য "better" বা dendrograms এর সৌন্দর্য তুলনা হয় করা থেকে বিরত থাকুন: না শুধুমাত্র কারণ সৌন্দর্য পরিবর্তন যখন আপনি সহগ কি পরিবর্তন আপনি সেখানে প্লটে বিভক্ত পরিবর্তন - যেমন শুধু বর্ণনা করা হয়েছিল, - কিন্তু কারণ কোনও ক্লাস্টার না থাকলেও ডেটাতে চেহারা আলাদা হবে

"ডান" পদ্ধতিটি বেছে নিতে

কোনও একক মানদণ্ড নেই। গুচ্ছ বিশ্লেষণের একটি পদ্ধতি নির্বাচন করার বিষয়ে কিছু গাইডলাইন (এইচএসি-তে একটি লিংকেজ পদ্ধতি একটি বিশেষ ক্ষেত্রে হিসাবে অন্তর্ভুক্ত) এই উত্তরটিতে এবং এর মধ্যে পুরো থ্রেডে বর্ণিত হয়েছে ।


1

কোন ক্লাস্টারিং লিঙ্কেজটি নির্বাচন করতে হবে তা নির্ধারণ করতে সহায়তা করার জন্য দূরত্বের ম্যাট্রিক্স এবং কোফেনেটিক দূরত্বের মধ্যে পারস্পরিক সম্পর্ক one থেকে ?cophenetic:

এটি যুক্তিযুক্ত হতে পারে যে কোনও ডেনড্রোগ্রাম হ'ল মূল দূরত্ব এবং কোফেনেটিক দূরত্বগুলির মধ্যে পারস্পরিক সম্পর্ক বেশি হলে কিছু ডেটার উপযুক্ত সংক্ষিপ্তসার।

cor(dist,cophenetic(hclust(dist)))লিঙ্কেজ সিলেকশন মেট্রিক হিসাবে এই ব্যবহারটি এই vegan চিত্রটির 38 পৃষ্ঠায় উল্লেখ করা হয়েছে ।

নীচের উদাহরণ কোড দেখুন:

# Data
d0=dist(USArrests)

# Hierarchical Agglomerative Clustering
h1=hclust(d0,method='average')
h2=hclust(d0,method='complete')
h3=hclust(d0,method='ward.D')
h4=hclust(d0,method='single')

# Cophenetic Distances, for each linkage
c1=cophenetic(h1)
c2=cophenetic(h2)
c3=cophenetic(h3)
c4=cophenetic(h4)

# Correlations
cor(d0,c1) # 0.7658983
cor(d0,c2) # 0.7636926
cor(d0,c3) # 0.7553367
cor(d0,c4) # 0.5702505

# Dendograms
par(mfrow=c(2,2))
plot(h1,main='Average Linkage')
plot(h2,main='Complete Linkage')
plot(h3,main='Ward Linkage')
plot(h4,main='Single Linkage')
par(mfrow=c(1,1))

আমরা দেখি যে জন্য সম্পর্কযুক্তরূপে averageএবং completeঅত্যন্ত অনুরূপ, এবং তাদের dendograms অনুরূপ প্রদর্শিত হবে। এর সাথে পারস্পরিক সম্পর্ক wardএকইরকম averageএবং completeডেন্ডোগ্রামটি দেখতে একেবারেই আলাদা। singleলিঙ্কেজ নিজস্ব জিনিস করছে। কোনও বিষয় বিশেষজ্ঞের কাছ থেকে সেরা পেশাদার রায়, বা আগ্রহের ক্ষেত্রে কোনও নির্দিষ্ট লিঙ্কের দিকে অগ্রাধিকার সম্ভবত এখান থেকে সংখ্যার আউটপুটকে ওভাররাইড করে cor()

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.