বিভিন্ন দূরত্ব এবং পদ্ধতি দ্বারা প্রাপ্ত হায়ারারিকিকাল ক্লাস্টারিং ডেন্ড্রগ্রামগুলির সাথে তুলনা করা


28

[প্রাথমিক শিরোনাম "শ্রেণিবিন্যাসের ক্লাস্টারিং গাছগুলির জন্য মিলের পরিমাপ" পরবর্তীকালে @ttnphns দ্বারা বিষয়টিকে আরও ভালভাবে প্রতিফলিত করার জন্য পরিবর্তন করা হয়েছে]

আমি রোগীর রেকর্ডগুলির একটি ডেটাফ্রেমের উপর অনেকগুলি শ্রেণিবিন্যাসিক ক্লাস্টার বিশ্লেষণ করছি (উদাহরণস্বরূপ http://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y এর মতো )

আমি গাছের চূড়ান্ত ক্লাস্টার / কাঠামো / দৃশ্যে (ডেনড্রোগ্রাম) এর প্রভাবগুলি বোঝার জন্য বিভিন্ন দূরত্বের ব্যবস্থা, বিভিন্ন প্যারামিটার ওজন এবং বিভিন্ন শ্রেণিবিন্যাসিক পদ্ধতি নিয়ে পরীক্ষা-নিরীক্ষা করছি । আমার প্রশ্ন বিভিন্ন শ্রেণিবদ্ধ গাছের মধ্যে পার্থক্য গণনা করার জন্য কোনও মানক গণনা / পরিমাপ রয়েছে কিনা এবং কীভাবে এটি আর-তে প্রয়োগ করা যায় (উদাহরণস্বরূপ যে কিছু গাছ প্রায় একরকম এবং কিছু কিছু একেবারে আলাদা) তা নির্ধারণ করতে পারে কিনা তা আমার প্রশ্ন।

উত্তর:


44

দুটি শ্রেণিবিন্যাসের (গাছের মতো) কাঠামোর মিলের তুলনা করতে, কফেনেটিক পারস্পরিক সম্পর্কের ধারণার উপর ভিত্তি করে ব্যবস্থাগুলি ব্যবহৃত হয়। কিন্তু শ্রেণিবদ্ধ ক্লাস্টারিংয়ে "ডান" পদ্ধতি বা দূরত্ব পরিমাপটি নির্বাচন করতে ডেন্ড্রোগ্রামের তুলনা সম্পাদন করা কি সঠিক?

হায়ারারিকিকাল ক্লাস্টার বিশ্লেষণ সম্পর্কিত কিছু বিষয় রয়েছে - লুকানো ছিনতাই - যা আমি বেশ গুরুত্বপূর্ণ বলে ধরব :

  • কখনও কখনও তুলনা করুন ( শক্তিশালী পার্টিশন দেওয়ার পদ্ধতিটি নির্বাচন করতে ) ডেনড্রোগ্রামগুলি পৃথকভাবে সংগ্রহের পদ্ধতি দ্বারা দৃশ্যতভাবে প্রাপ্ত। এটি কোন পদ্ধতিটি "আরও ভাল" তা বলবে না। প্রতিটি পদ্ধতি রয়েছে ডেটা কোন ক্লাস্টার গঠন বা র্যান্ডম ক্লাস্টার গঠন আছে গাছ ধারাবাহিকভাবে এমনকি ভিন্ন হবে: তার নিজস্ব "prototypical এর" গাছ চেহারা। (এবং আমি মনে করি না যে এমন কোনও মানক বা ব্যবস্থা রয়েছে যা এই অন্তর্নিহিত পার্থক্যগুলি সরিয়ে ফেলবে)) আপনি তবে ডেনড্রগ্রাম একই পদ্ধতি কিন্তু বিভিন্ন ডেটা দ্বারা উত্পাদিত ফলাফলগুলির তুলনা করতে পারেন। ম্যাক্সিম: প্রত্যক্ষ, বিভিন্ন পদ্ধতির পরে ডেনড্রোগ্রামের সাথে তুলনা করা অগ্রহণযোগ্য
  • 1 ম্যাক্সিম: একটি ডেনড্রোগ্রাম উপস্থিতি বিবেচনা করে একটি কাটা স্তর নির্বাচন করা, সম্ভাব্য হলেও, পার্টিশনটি নির্বাচন করার পক্ষে সেরা পদ্ধতি নয় এবং কিছু পদ্ধতির জন্য বিভ্রান্তিকর হতে পারে । পরিবর্তে কিছু আনুষ্ঠানিক অভ্যন্তরীণ ক্লাস্টারিং মানদণ্ডের উপর নির্ভর করার পরামর্শ দেওয়া হয় ।
  • তবুও কেউ আপনাকে দূরত্ব ব্যবস্থা বা অগ্রগতির পদ্ধতিতে "পরীক্ষা" করতে নিষেধ করতে পারে না, দূরত্ব এবং পদ্ধতিটি সচেতনভাবে নির্বাচন করা ভাল , অন্ধ চেষ্টা না করে। দূরত্বটি আপনার আগ্রহী পার্থক্যের দিকগুলি প্রতিবিম্বিত করে এবং পদ্ধতিটি - অবশ্যই একটি সচেতন হওয়া আবশ্যক - এটি একটি ক্লাস্টারের একটি নির্দিষ্ট প্রত্নতত্ত্বকে বোঝায় (উদাহরণস্বরূপ, ওয়ার্ড ক্লাস্টারের রূপকটি হ'ল, টাইপ ; সম্পূর্ণ লিঙ্কেজ পরে ক্লাস্টার হবে) হতে বৃত্ত [শখ বা চক্রান্ত দ্বারা]; একক দুটো ঘটনার পর ক্লাস্টার হবে বর্ণালী [শৃঙ্খল]; centroid পদ্ধতি পরে ক্লাস্টারের হবে এর প্ল্যাটফর্মের নৈকট্য [রাজনীতি]; গড় দুটো ঘটনার ক্লাস্টার ধারণার দিক থেকে সবচেয়ে নির্বিকার এবং হবে সাধারণত ঐক্যবদ্ধ শ্রেণী )।
  • কিছু পদ্ধতি জন্য কল অধিকার দূরত্ব পরিমাপ করে এবং / অথবা তথ্য অধিকার প্রকার। ওয়ার্ড এবং সেন্ট্রয়েড উদাহরণস্বরূপ, যৌক্তিকভাবে ইউক্লিডিয়ান দূরত্বের প্রয়োজন (স্কোয়ারড) - কারণ এই পদ্ধতিগুলি ইউক্লিডিয়ান স্পেসে সেন্ট্রয়েডের গণনায় জড়িত। এবং জ্যামিতিক সেন্ট্রয়েডের গণনা অসঙ্গত, উদাহরণস্বরূপ, বাইনারি ডেটা; ডেটা স্কেল / অবিচ্ছিন্ন হওয়া উচিত। ম্যাক্সিম: ডেটা / দূরত্ব / পদ্ধতি অনুমান এবং চিঠিপত্র খুব গুরুত্বপূর্ণ এবং এত সহজ প্রশ্ন নয়।
  • প্রিপ্রসেসিং (যেমন কেন্দ্রকরণ, স্কেলিং এবং পরিবর্তনশীল / বৈশিষ্ট্যগুলির রূপান্তরকরণের অন্যান্য রূপ) দূরত্বের ম্যাট্রিক্সের পূর্বে গণনা করা এবং ক্লাস্টারিং করাও অত্যন্ত গুরুত্বপূর্ণ প্রশ্ন। এটি নাটকীয়ভাবে ফলাফলগুলিকে প্রভাবিত করতে পারে। কী প্রিপ্রোসেসিং আপনাকে সহায়তা করতে পারে এবং তা ব্যাখ্যা করার দিক থেকে বিবেচনা করবে sense এছাড়াও, ক্লাস্টার বিশ্লেষণ করার চেষ্টা করার আগে গ্রাফিকভাবে আপনাকে ডেটা সাবধানে পরিদর্শন করতে লজ্জা পাবেন না।
  • দার্শনিক ভিত্তিতে ... শ্রেণিবদ্ধ ক্লাস্টারিংয়ের সমস্ত পদ্ধতি সমানভাবে আপনাকে শ্রেণিবদ্ধ শ্রেণিবদ্ধকরণ হিসাবে দেখা যায় না । উদাহরণস্বরূপ, সেন্ট্রয়েড পদ্ধতি একটি অর্থে স্তরক্রম দেয়, কারণ ক্লাস্টার সেন্টার সামগ্রিকভাবে একটি ক্লাস্টারের উদীয়মান এবং সংজ্ঞাযুক্ত বৈশিষ্ট্য , এবং মার্জিং ক্লাস্টারগুলি সেই বৈশিষ্ট্য দ্বারা চালিত হয়। সম্পূর্ণ লিঙ্কেজ, অন্যদিকে, দু'জনের পৃথক বস্তুর মধ্যে দূরত্বের গুণে - উভয় সাবক্লাস্টারগুলি যখন তাদের একীভূত করে তখন "বরখাস্ত" করে । সুতরাং, সম্পূর্ণ লিঙ্কেজ ডেনড্রোগ্রামটি কেবল সংগ্রহের ইতিহাস এবং কোনও পিতামাতার বাচ্চার বাছাইকরূপে নয়ম্যাক্সিম: হায়ারারিকিকাল অগ্রোমারেটিভ ক্লাস্টার বিশ্লেষণ, সাধারণত, প্রত্যাশা করে যে আপনি ফলাফলকে হায়ারারিকিক্যাল ট্যাক্সোনমি হিসাবে দেখানোর পরিবর্তে তার ফলাফলের ভিত্তিতে একটি বিভাজন তৈরি করেছেন।
  • হায়ারারিকিকাল ক্লাস্টারিং হল সাধারণ লোভী অ্যালগরিদম যা শেষ পর্যন্ত অনুকূল সমাধানের কাছাকাছি আসার প্রত্যাশায় প্রতিটি পদক্ষেপে উপস্থিত বিকল্পগুলির মধ্যে সেরা পছন্দ করে তোলে। তবে, একটি উচ্চ স্তরের পদক্ষেপে প্রদর্শিত "সেরা" পছন্দটি এই পদক্ষেপে তাত্ত্বিকভাবে তাত্ত্বিকভাবে সম্ভব বিশ্বব্যাপী সর্বোত্তম হতে পারে বলে মনে হয়। একটি নিয়ম হিসাবে বৃহত্তর পদক্ষেপ, বৃহত্তর suboptimality হয়। আমরা সাধারণত কয়েকটি ক্লাস্টার চাই শেষ পদক্ষেপ গুরুত্বপূর্ণ; এবং যেমনটি বলা হয়েছে, পদক্ষেপের সংখ্যা বেশি হলে (তারা হাজার পদক্ষেপ) তুলনামূলকভাবে দরিদ্র হওয়ার প্রত্যাশা রয়েছে। এই কারণেই প্রোগ্রামটি এত বড় দূরত্বের ম্যাট্রিক্স পরিচালনা করতে পারে এমন কি হায়ারার্কিকাল ক্লাস্টারিং সাধারণত বস্তুর বৃহত নমুনার (হাজার হাজার বস্তুর সংখ্যার) জন্য সুপারিশ করা হয় না

XijYij


1 "ওয়ার্ড -২"বাস্তবায়ন) এবং জমে না। আবারও পুনরাবৃত্তি করার জন্য, এই ধরনের পার্থক্যগুলি ডেনড্রোগ্রামের সাধারণ আকার / চেহারাগুলিকে প্রভাবিত করে, ক্লাস্টারিং ফলাফলগুলি নয়। তবে ডেনড্রগ্রামের চেহারাগুলি ক্লাস্টারের সংখ্যা সম্পর্কে আপনার সিদ্ধান্তকে প্রভাবিত করতে পারে। নৈতিকতাটি হ'ল ওয়ার্ডের পদ্ধতিতে ডেনড্রোগ্রামের উপর নির্ভর করা মোটেও নিরাপদ হবে যদি না আপনি নিজের প্রোগ্রামের এই সহগগুলি কী এবং কীভাবে সঠিকভাবে ব্যাখ্যা করতে হয় তা সঠিকভাবে জানেন না।


5
আমি এই অনেক কিছুই দ্বিতীয় করতে পারেন। আমি দুটি পয়েন্ট যোগ করতে চাই: ক) আপনি যা করছেন বলে মনে হচ্ছে তা হ'ল একরকম ওভারফিট । ব্যবস্থা, ওজন এবং পদ্ধতিগুলি পদ্ধতিগতভাবে মূল্যায়নের মাধ্যমে, উচ্চমাত্রায় ঝুঁকি রয়েছে যে আপনি যে প্যারামিটারগুলি দিয়ে শেষ করেছেন তা আপনার বর্তমান ডেটার জন্য অত্যন্ত নির্দিষ্ট এবং এটি অন্য ডেটা বা এমনকি পরবর্তী ডেটাতে অকেজো হতে পারে। খ) ডেনড্রোগ্রামগুলির সাদৃশ্যটি জেনে রাখা ভাল। পরে তাদের সাথে আপনি কী করতে চান তা বিবেচনা করুন এবং তারপরে শেষের ফলাফলটিতে মূল্যায়ন করার চেষ্টা করুন। অন্তর্বর্তীকালীন ফলাফলগুলি মূল্যায়ন বিভ্রান্তিকর হতে পারে।
অ্যানি-মৌসে

1
আপনি যদি এখনও এই বিষয়ে আগ্রহী হন, আমি ভেবেছিলাম যে আপনি ডিএস এসিতে আমার সাম্প্রতিক উত্তরটি সহায়ক হিসাবে খুঁজে পেতে পারেন, বিশেষত এটি যেমন একটি বারবার সরবরাহকারী এবং বায়েশিয়ান উভয় পদ্ধতির সীমিত হলেও একটি কভারেজ দেয় as সামঞ্জস্যপূর্ণ সাম্প্রতিক মডেলগুলির (যেমন এম্বেডেড শ্রেণীর তথ্যের সাথে) এবং সাদৃশ্য ব্যবস্থা নির্বাচন করা ।
আলেকসান্ডার ব্লেক

@ এনটিএনএফএনএস, আপনি কীভাবে আরও দুটি বিভাগের শ্রেণিবিন্যাসের তুলনা করতে "সংঘর্ষের সহগ" ব্যবহার করবেন তা আরও বিশদে ব্যাখ্যা করতে পারেন?
বাসির
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.