একটি ক্লাস্টারিং পদ্ধতি নির্বাচন করা


73

অনুরূপ কেসগুলি গোষ্ঠীভুক্ত করতে ডেটাতে ক্লাস্টার বিশ্লেষণ ব্যবহার করার সময়, একটি বৃহত সংখ্যক ক্লাস্টারিং পদ্ধতি এবং দূরত্বের ব্যবস্থার মধ্যে একটি নির্বাচন করা প্রয়োজন। কখনও কখনও, একটি পছন্দ অন্যটিকে প্রভাবিত করতে পারে তবে পদ্ধতিগুলির অনেকগুলি সংমিশ্রণ রয়েছে।

বিভিন্ন ক্লাস্টারিং অ্যালগরিদম / পদ্ধতি এবং দূরত্বের ব্যবস্থার মধ্যে কীভাবে চয়ন করতে হবে তার সম্পর্কে কারও কি সুপারিশ রয়েছে ? এটি কীভাবে ভেরিয়েবলের প্রকৃতির (যেমন, শ্রেণিবদ্ধ বা সংখ্যাসূচক) এবং গুচ্ছ সমস্যার সাথে সম্পর্কিত? একটি অনুকূল কৌশল আছে?


1
আপনি কি ক্লাস্টার করতে চান তার আরও নির্দিষ্ট বিবরণ দেওয়ার চেষ্টা করতে পারেন? বা এটি আপনার প্রয়োজন ক্লাস্টারিংয়ে কেবল শিল্পের একটি অবস্থা?
রবিন গিরার্ড

2
আমার মনে কোন তাত্ক্ষণিক অ্যাপ্লিকেশন নেই। আমি কেবল একটি ক্লাস্টারিং পদ্ধতি এবং মিলের পরিমাপ চয়ন করার জন্য একটি সাধারণ পদ্ধতির প্রতি আগ্রহী।
ব্রেট 15

এই একই প্রশ্ন পরীক্ষা করুন ।
ttnphns

এবং কিছু সতর্কতামূলকভাবে বিশেষত শ্রেণিবদ্ধ ক্লাস্টারিংয়ের পদ্ধতিগুলি তৈরি করে।
ttnphns

উত্তর:


43

আপনার প্রশ্নের কোনও যথাযথ উত্তর নেই, এমনকি একই পদ্ধতির মধ্যেও ব্যক্তিদের (ডিস) সমতা উপস্থাপনের জন্য দূরত্বের পছন্দটি বিভিন্ন ফল পেতে পারে, যেমন: ইউক্রিডিয়ান বনাম। শ্রেণিবদ্ধ ক্লাস্টারিংয়ে স্কোয়ার্ড ইউক্যালিডিয়ান ব্যবহার করার সময়। অন্য উদাহরণ হিসাবে, বাইনারি ডেটার জন্য, আপনি জ্যাকার্ড সূচকটি মিলের পরিমাপ হিসাবে চয়ন করতে পারেন এবং শাস্ত্রীয় শ্রেণিবিন্যাসের সাথে এগিয়ে যেতে পারেন; তবে মোনা ( একঘেয়েমি বিশ্লেষণ) এর মতো বিকল্প পদ্ধতি রয়েছে) অ্যালগরিদম যা কেবলমাত্র একবারে একটি পরিবর্তনশীল হিসাবে বিবেচিত হয়, যখন অন্যান্য শ্রেণিবদ্ধ পদ্ধতি (যেমন শাস্ত্রীয় এইচসি, অ্যাগনেস, ডায়ানা) প্রতিটি পদক্ষেপে সমস্ত ভেরিয়েবল ব্যবহার করে। কে-মেন্যু পদ্ধতিটি বিভিন্নভাবে প্রসারিত করা হয়েছে, যার মধ্যে সেন্টোড্রয়েস (কাউফম্যান এবং রুসিউ, 1990) বা ফাজি ক্লাস্টারিং (চুং অ্যান্ড লি, 1992) এর চেয়ে মিডোয়েডগুলি (পিএএম) বা প্রতিনিধিত্বমূলক বস্তুর চারপাশে বিভাজন সহ। উদাহরণস্বরূপ, কে-ইনস এবং পিএএম এর মধ্যে প্রধান পার্থক্য হ'ল পিএএম স্কোয়ার্ড ইউক্যালিডিয়ান দূরত্বের যোগফলের চেয়ে অসমতার যোগফলকে হ্রাস করে; অস্পষ্ট ক্লাস্টারিং "আংশিক সদস্যতা" বিবেচনা করতে দেয় (আমরা প্রতিটি পর্যবেক্ষণের সাথে ওজনকে শ্রেণীর সদস্যতার প্রতিফলিত করে)) এবং সম্ভাব্য কাঠামোর উপর নির্ভরশীল পদ্ধতির জন্য, বা তথাকথিত মডেল-ভিত্তিক ক্লাস্টারিং (বা সুপ্ত প্রোফাইল বিশ্লেষণ)মনস্তত্ত্ববিদদের জন্য), একটি দুর্দান্ত প্যাকেজ রয়েছে: এমক্লাস্ট । সুতরাং স্পষ্টতই, আপনাকে কীভাবে ব্যক্তিদের সাদৃশ্যকে সংজ্ঞায়িত করতে হবে সেইসাথে ব্যক্তিদের সংযুক্ত করার পদ্ধতি (পুনরাবৃত্ত বা পুনরুক্তিপূর্ণ ক্লাস্টারিং, কঠোর বা अस्पष्ट শ্রেণির সদস্যপদ, নিরীক্ষণযোগ্য বা আধা তত্ত্বাবধানের পদ্ধতি) ইত্যাদি বিবেচনা করতে হবে।

সাধারণত, ক্লাস্টারের স্থিতিশীলতা নির্ধারণের জন্য, বেশ কয়েকটি অ্যালগরিদমের সাথে তুলনা করা আকর্ষণীয় যা মূলত কিছু অংশকে "ভাগ" করে (যেমন কে-মানে এবং স্তরক্রমিক ক্লাস্টারিং, কারণ উভয়ের জন্য ইউক্যালিডিয়ান দূরত্ব কাজ করে)। দুটি গুচ্ছ সমাধানের মধ্যে একত্রীকরণের মূল্যায়ন করার জন্য, এই প্রশ্নের জবাবে কিছু পয়েন্টারকে পরামর্শ দেওয়া হয়েছিল, ডেনড্রোগ্রামটি কোথায় কাটাবেন? (এই ওয়েবসাইটে অন্যান্য লিঙ্কের জন্য ক্রস-রেফারেন্সগুলিও দেখুন)। আপনি যদি আর ব্যবহার করে থাকেন তবে দেখতে পাবেন ক্লাস্টার এনালাইসিসের টাস্ক ভিউতে ইতিমধ্যে বেশ কয়েকটি প্যাকেজ উপলব্ধ রয়েছে এবং বেশ কয়েকটি প্যাকেজের মধ্যে উইগনেট রয়েছে যা নির্দিষ্ট পদ্ধতিগুলি ব্যাখ্যা করে বা কেস স্টাডি সরবরাহ করে।

ক্লাস্টার বিশ্লেষণ: প্রাথমিক ধারণা এবং অ্যালগরিদমগুলি ক্লাস্টার বিশ্লেষণে ব্যবহৃত বেশ কয়েকটি কৌশলগুলির একটি ভাল ওভারভিউ সরবরাহ করে। আর ইলাস্ট্রেশন সহ সাম্প্রতিক একটি ভাল বইয়ের জন্য আমি ইজেনম্যানের আধুনিক অধ্যায় 12, আধুনিক মাল্টিভারিয়েট স্ট্যাটিস্টিকাল টেকনিকস ( স্প্রঞ্জার , ২০০৮) এর পরামর্শ দেব । অন্যান্য কয়েকটি মানক রেফারেন্স নীচে দেওয়া হল:

  • করম্যাক, আর।, 1971. শ্রেণিবিন্যাসের একটি পর্যালোচনা। রয়্যাল স্ট্যাটিস্টিকাল সোসাইটির জার্নাল, এ 134, 321–367।
  • এভারিট, বি।, 1974. ক্লাস্টার বিশ্লেষণ । লন্ডন: হাইনম্যান এডুকেশন। বুকস।
  • গর্ডন, এ।, 1987. শ্রেণিবদ্ধ শ্রেণিবিন্যাসের পর্যালোচনা। রয়্যাল স্ট্যাটিস্টিকাল সোসাইটির জার্নাল, এ 150, 119–137।
  • গর্ডন, এ।, 1999. শ্রেণিবিন্যাস , ২ য় সংস্করণ। চ্যাপম্যান এবং হল।
  • KAUFMAN,, এল, Rousseuw পি, 1990 ডেটা মধ্যে ফাইন্ডিং গোষ্ঠীসমূহ: ভূমিকা বিশ্লেষণ CLUSTER এ । নিউ ইয়র্ক, উইলি

30

হাসেটি, তিবশিরানী এবং ফ্রেডম্যানের একটি উক্তি , পরিসংখ্যান শিক্ষার উপাদানসমূহ , পি। 506:

"ক্লাস্টারিং অ্যালগরিদম নির্বাচনের চেয়ে ক্লাস্টারিংয়ের সাথে সাফল্য অর্জনে একটি উপযুক্ত ভিন্নতা মাপকাঠামো অনেক বেশি গুরুত্বপূর্ণ the সমস্যার এই দিকটি ... ডোমেন নির্দিষ্ট জ্ঞানের উপর নির্ভর করে এবং সাধারণ গবেষণার পক্ষে কম সাধ্যযোগ্য।"

(এটি বলেছিল, (উইবনি) এমন কোনও সাইট থাকত যেখানে শিক্ষার্থীরা কয়েকটি ছোট স্ট্যান্ডার্ড ডেটাসেটগুলিতে কয়েকটি অ্যালগরিদম এবং মেট্রিক চেষ্টা করতে পারে, তাহলে কি ভাল লাগবে না?)


ধন্যবাদ চি; "ওয়েবে উদাহরণস্বরূপ চালানো যেতে পারে" এর জন্য আপনি কি কোনও ট্যাগ প্রস্তাব করতে পারেন?
ডেনিস

আপনি প্রশ্নটি পুনরায় ফিরিয়ে আনার জন্য বলতে চাইছেন (আমি মনে করি এটি একটি ভাল ধারণা নয় কারণ ওপি অনলাইন বেঞ্চমার্কিং সরঞ্জাম, আইএমওর পরে নয়) বা আপনি যে নতুন প্রশ্ন জিজ্ঞাসা করতে চান? যাইহোক, এই মুহূর্তে আমার ভাল ট্যাগ সম্পর্কে কোনও ধারণা নেই। মেটা জিজ্ঞাসা?
chl

1
এই উদ্ধৃতিটি বিভ্রান্তিকর হতে পারে - এটি উইকিপিডিয়ায় (স্বীকৃত স্বীকৃত) উদাহরণগুলিতে স্পষ্টভাবে প্রযোজ্য না । দ্বিতীয় ডেটা সেটে শক্তিশালী অ-লিনিয়ার ক্লাস্টারের কারণে লিঙ্কেজ এবং ঘনত্ব ক্লাস্টারিং অ্যালগোরিদমগুলি কোনও সেন্ট্রয়েড-ভিত্তিক পদ্ধতির চেয়ে অনেক বেশি ভাল কাজ করে। কোনও মিলের কোনও পরিমাপ নেই যা সেন্ট্রয়েড ক্লাস্টারিং স্কিমকে আরও ভাল করে তুলবে। আপনি যদি ক্লাস্টারগুলি মোটামুটি লিনিয়ার (কখনও কখনও একটি নিরাপদ অনুমান) অনুমান করেন তবে এই উদ্ধৃতিটি কেবলমাত্র প্রযোজ্য। আমি সম্ভব হলে প্রথমে আপনার ডেটাটি দর্শনীয়ভাবে পরিদর্শন করার পরামর্শ দেব।
nnot101

@ ননট ১০১১, নিশ্চিত - সাদৃশ্য / বৈসাদৃশ্য দেখার জন্য দর্শনীয়ভাবে উপাত্ত পরীক্ষা করা সবচেয়ে গুরুত্বপূর্ণ, তবে সম্পন্ন করার চেয়ে সহজ বলা হয়েছে
ড্যানিস

এই উক্তিটি কোন সংস্করণ থেকে এসেছে? আপনি কি এর
প্রশংসাপত্রটি

12

কোন ক্লাস্টারিং অ্যালগরিদম আরও ভাল হবে তা আপনি আগেই জানতে পারবেন না, তবে কিছু সংকেত রয়েছে, উদাহরণস্বরূপ, যদি আপনি চিত্রগুলি ক্লাস্টার করতে চান তবে কিছু নির্দিষ্ট অ্যালগরিদম রয়েছে আপনার প্রথমে ফাজি আর্টের মতো চেষ্টা করা উচিত, বা যদি আপনি মুখের গোষ্ঠীগুলি দেখতে চান তবে আপনাকে শুরু করতে হবে (জিজিসিআই) ইমেজটির জন্য গ্লোবাল জ্যামিতিক ক্লাস্টারিং সহ

যাইহোক এটি সর্বোত্তম ফলাফলের গ্যারান্টি দেয় না, তাই আমি যা করব তা হল এমন একটি প্রোগ্রাম ব্যবহার করা যা আপনাকে পদ্ধতিগতভাবে বিভিন্ন ক্লাস্টার অ্যালগোরিদমগুলি চালনার অনুমতি দেয়, যেমন ওয়েকা, র্যাপিডমিনার বা এমনকি আর (যা দৃশ্য নয়), সেখানে আমি প্রোগ্রামটি সেট করব সমস্ত সম্ভাব্য বিভিন্ন দূরত্বের সাথে আমি পৃথক পৃথক ক্লাস্টারিং অ্যালগরিদম চালু করতে পারি এবং যদি তাদের পরামিতিগুলির প্রয়োজন হয় তবে প্রত্যেকটি বিভিন্ন প্যারামিটার মানগুলির সাথে পরীক্ষা করান (এছাড়াও যদি আমি ক্লাস্টারের পরিমাণ জানি না, তবে প্রতিটি এক সাথে বিভিন্ন দিয়ে চালান এটির সংখ্যা)। একবার আপনি পরীক্ষা নিরূপণ করার পরে, এটি চলমান ছেড়ে দিন, তবে প্রতিটি ক্লাস্টারিং রানের ফলাফল কোথাও সঞ্চয় করতে ভুলবেন না।

তারপরে সর্বোত্তম ফলাফলের ক্লাস্টারিংয়ের জন্য ফলাফলগুলি তুলনা করুন। এটি জটিল কারণ আপনি তুলনা করতে পারেন এমন অনেকগুলি মেট্রিক রয়েছে এবং সমস্ত অ্যালগরিদম দ্বারা সরবরাহ করা হয় না। উদাহরণস্বরূপ অস্পষ্ট ক্লাস্টারিং অ্যালগরিদমের অ-ফাজির চেয়ে আলাদা মেট্রিক রয়েছে তবে এগুলি এখনও অস্পষ্ট ফলাফল হিসাবে চিহ্নিত গ্রুপগুলিকে অ-ফাজি হিসাবে বিবেচনা করে তুলনা করা যেতে পারে, আমি ক্লাসিক মেট্রিকগুলির সাথে তুলনা করতে থাকব যেমন:

। এসএসই: প্রতিটি ক্লাস্টারের আইটেমগুলি থেকে বর্গ ত্রুটির যোগফল।

• আন্ত ক্লাস্টারের দূরত্ব: প্রতিটি ক্লাস্টার সেন্ট্রয়েডের মধ্যে বর্গক্ষেত্রের যোগফল।

Cl প্রতিটি ক্লাস্টারের জন্য ইন্ট্রা ক্লাস্টারের দূরত্ব: প্রতিটি ক্লাস্টারের আইটেম থেকে এর সেন্ট্রয়েড পর্যন্ত বর্গক্ষেত্রের যোগফল।

Imum সর্বাধিক ব্যাসার্ধ: উদাহরণ থেকে তার ক্লাস্টার সেন্ট্রয়েডের বৃহত্তম দূরত্ব।

R গড় ব্যাসার্ধ: ক্লাস্টারের সংখ্যা দ্বারা বিভক্ত উদাহরণ থেকে তার ক্লাস্টার সেন্ট্রয়েড পর্যন্ত বৃহত্তম দূরত্বের যোগফল।


4

সঠিক দূরত্ব নির্বাচন করা প্রাথমিক কাজ নয়। আমরা যখন কোনও ডেটা সেটে একটি ক্লাস্টার বিশ্লেষণ করতে চাই, তখন বিভিন্ন দূরত্ব ব্যবহার করে বিভিন্ন ফলাফল উপস্থিত হতে পারে, তাই কোন দূরত্বে নির্বাচন করা উচিত সে সম্পর্কে সতর্কতা অবলম্বন করা খুব গুরুত্বপূর্ণ কারণ আমরা একটি ভুয়া ভাল আর্টফ্যাক্ট তৈরি করতে পারি যা তাত্পর্যকে ভালভাবে ক্যাপচার করতে পারে তবে আসলে ছাড়া আমাদের সমস্যা বোধ।

ইউক্লিডিয় দূরত্ব যখন আমি ক্রমাগত সংখ্যাসূচক ভেরিয়েবল আছে এবং আমি পরম দূরত্বের প্রতিফলিত করতে চান উপযুক্ত। এই দূরত্বটি প্রতিটি ভেরিয়েবলকে বিবেচনা করে এবং অতিরিক্ত কাজগুলি অপসারণ করে না, সুতরাং আমার যদি তিনটি ভেরিয়েবল থাকে যা একই ব্যাখ্যা দেয় (পারস্পরিক সম্পর্কযুক্ত), তবে আমি এই প্রভাবটি তিনটি দিয়ে ওজন করব। তদুপরি, এই দূরত্বটি স্কেল অদলীয় নয়, তাই সাধারণত দূরত্বটি ব্যবহার করার জন্য আমাকে আগে স্কেল করতে হবে।
উদাহরণ বাস্তুশাস্ত্র: আমাদের অনেক অঞ্চল থেকে বিভিন্ন পর্যবেক্ষণ রয়েছে, যার মধ্যে বিশেষজ্ঞরা কিছু মাইক্রোবায়োলজিকাল, শারীরিক এবং রাসায়নিক উপাদানগুলির নমুনা নিয়েছেন। আমরা বাস্তুতন্ত্রের নিদর্শনগুলি খুঁজতে চাই। এই কারণগুলির একটি উচ্চতর সম্পর্ক রয়েছে তবে আমরা জানি যে প্রত্যেকে প্রাসঙ্গিক, তাই আমরা এই অপ্রয়োজনীয়তাগুলি সরাতে চাই না। আমরা ইউনিটগুলির প্রভাব এড়াতে স্কেলড ডেটা সহ ইউক্লিডিয়ান দূরত্ব ব্যবহার করি।

আমার যখন অবিচ্ছিন্ন সংখ্যাগত পরিবর্তনশীল থাকে এবং আমি পরম দূরত্বকে প্রতিবিম্বিত করতে চাই তবে মহালানোবিসের দূরত্ব যথাযথ but তবে আমরা অপ্রয়োজনীয়তা দূর করতে চাই। আমাদের যদি বারবার পরিবর্তনশীল হয় তবে তাদের পুনরাবৃত্তি প্রভাব অদৃশ্য হয়ে যাবে।

পরিবার Hellinger , প্রজাতি প্রোফাইল এবং জ্যা দূরত্ব উপযুক্ত যখন আমরা ভেরিয়েবল মধ্যে পার্থক্য ওপর গুরুত্ব করার বিষয়ে নিশ্চিত, যখন আমরা প্রোফাইলের পার্থক্য করতে চাই। প্রতিটি পর্যবেক্ষণের মোট পরিমাণ অনুসারে এই দূরত্বগুলির ওজন এইভাবে হয় যে ভেরিয়েবলের পরিবর্তে ব্যক্তিগুলি আরও বেশি মিলিত হয় যখন দূরত্বগুলি ছোট হয় তবে যদিও পরম পরিমাপের দিকটি খুব আলাদা ছিল। সতর্ক থেকো! এই দূরত্বগুলি প্রোফাইলগুলির মধ্যে পার্থক্যটি খুব ভালভাবে প্রতিফলিত করে, তবে মাত্রার প্রভাবটি হারিয়েছে। যখন আমাদের বিভিন্ন নমুনা আকার থাকে তারা এগুলি খুব কার্যকর হতে পারে। উদাহরণ বাস্তুশাস্ত্র: আমরা অনেক জমির প্রাণিকুলের অধ্যয়ন করতে চাই এবং আমাদের গ্যাস্ট্রোপডের একটি জায়ের একটি ডাটা ম্যাট্রিক্স রয়েছে (কলামগুলিতে সারি ও প্রজাতির নামের নমুনা তৈরি করে)। ম্যাট্রিক্সটি অনেকগুলি শূন্য এবং বিভিন্ন আকারের দ্বারা চিহ্নিত করা হয় কারণ কিছু অঞ্চলে কিছু প্রজাতি থাকে এবং অন্যদের মধ্যে অন্যান্য প্রজাতি থাকে। আমরা হ্যালিঞ্জার দূরত্ব ব্যবহার করতে পারি।

ব্রা-কার্টিস একেবারে অনুরূপ, তবে আমরা যখন প্রোফাইলগুলি আলাদা করতে চাই এবং তুলনামূলক আকার বাড়িয়ে তুলি তখন এটি আরও উপযুক্ত more


1
দয়া করে নিবন্ধিত করুন এবং / অথবা আপনার অ্যাকাউন্টগুলি 1 2 মার্জ করুন (আপনি কীভাবে আমাদের সহায়তা কেন্দ্রের আমার অ্যাকাউন্ট বিভাগে এটি করবেন সে সম্পর্কে তথ্য পেতে পারেন )। তারপরে আপনি নিজের উত্তরগুলি, সেগুলির প্রতিক্রিয়া ইত্যাদি etc. এবং অন্যান্য সুবিধাগুলিও নজর রাখতে সক্ষম হবেন। যেহেতু আপনি এখানে নতুন, আপনি আমাদের সফর নিতে চাইতে পারেন , যাতে নতুন ব্যবহারকারীদের জন্য তথ্য রয়েছে।
গাং

আপনি ইতিমধ্যে একটি অনুরূপ থ্রেডে অভিন্ন উত্তর stats.stackexchange.com/a/253268/3277 ইতিমধ্যে প্রকাশ করেছেন । সদৃশ উত্তরগুলি ন্যায্য বলে বিবেচিত হয় না। আমি আপনাকে বর্তমানটি মুছতে পরামর্শ দিচ্ছি। তবে আপনি ও আপনার অন্যান্য উত্তরের (লিখিত ভাষায়) কোনও লিখিত পোস্ট করতে স্বাগত জানাতে পারেন - কোনও ওপি-র প্রশ্নের নীচে মন্তব্য হিসাবে বা বর্তমান থ্রেডে কিছু উত্তর।
ttnphns

2

আমি যতটা উদ্বিগ্ন, যদি আপনি একটি নিরাপদ পছন্দ চান, বর্ণালি ক্লাস্টারিং পদ্ধতিগুলি সাম্প্রতিক বছরগুলিতে সর্বাধিক নির্ভুলতার হার অর্জন করছে - কমপক্ষে চিত্রের ক্লাস্টারিংয়ে।

দূরত্বের মেট্রিকের ক্ষেত্রে এটি আপনার ডেটা কীভাবে সংগঠিত হয় তার উপর অনেক কিছু নির্ভর করে। নিরাপদ পছন্দটি সরল ইউক্যালিডিয়ান দূরত্ব তবে আপনি যদি জানেন যে আপনার ডেটাতে বহুগুণ রয়েছে, আপনার কার্নেল পদ্ধতির মাধ্যমে পয়েন্টগুলি মানচিত্র করা উচিত।

PS: এগুলি সমস্ত সংখ্যার মানগুলির সাথে সম্পর্কিত, শ্রেণিবদ্ধ নয়। আমি নিশ্চিত না যে কেউ কীভাবে শ্রেণিবদ্ধ ডেটা গুছিয়ে নেবে।


2

এখানে বেশ কয়েকটি ক্লাস্টারিং অ্যালগরিদমের সংক্ষিপ্তসার যা প্রশ্নের উত্তর দিতে সহায়তা করতে পারে

"আমার কোন ক্লাস্টারিং কৌশলটি ব্যবহার করা উচিত?"

বস্তুনিষ্ঠভাবে "সঠিক" ক্লাস্টারিং অ্যালগরিদম রেফ নেই

ক্লাস্টারিং অ্যালগরিদমগুলি তাদের "ক্লাস্টার মডেল" এর উপর ভিত্তি করে শ্রেণিবদ্ধ করা যেতে পারে। একটি বিশেষ ধরণের মডেলের জন্য ডিজাইন করা একটি অ্যালগরিদম সাধারণত ভিন্ন ধরণের মডেলটিতে ব্যর্থ হয়। উদাহরণস্বরূপ, কে-মানেগুলি নন-উত্তল ক্লাস্টারগুলি খুঁজে পাবে না, এটি কেবলমাত্র বিজ্ঞপ্তি আকারের ক্লাস্টারগুলি খুঁজে পেতে পারে।

অতএব, এই ক্লাস্টার মডেলগুলি বোঝা কীভাবে বিভিন্ন ক্লাস্টারিং অ্যালগরিদম / পদ্ধতিগুলির মধ্যে চয়ন করতে হয় তা বোঝার মূল হয়ে ওঠে। সাধারণ ক্লাস্টার মডেলগুলির মধ্যে রয়েছে:

[1] সংযোগ মডেল: দূরত্ব সংযোগের উপর ভিত্তি করে মডেল তৈরি করে। যেমন হায়ারারিকিকাল ক্লাস্টারিং। গাছ কাটা উচ্চতার ভিত্তিতে যখন আমাদের আলাদা বিভাজন প্রয়োজন তখন ব্যবহৃত হয়। আর ফাংশন: পরিসংখ্যান প্যাকেজ মধ্যে hclust।

[2] সেন্ট্রয়েড মডেল: একক গড় ভেক্টর দ্বারা প্রতিটি ক্লাস্টারের প্রতিনিধিত্ব করে মডেলগুলি তৈরি করে। যখন আমাদের খাস্তা বিভাজন প্রয়োজন (পরে বর্ণিত ফাজি ক্লাস্টারিংয়ের বিপরীতে) প্রয়োজন হয় তখন ব্যবহৃত হয়। আর ফাংশন: পরিসংখ্যান প্যাকেজ মধ্যে kmeans।

[3] বিতরণ মডেল: প্রত্যাশা-সর্বাধিককরণ অ্যালগরিদম দ্বারা ব্যবহৃত মাল্টিভিয়ারেট সাধারণ বিতরণগুলির মতো পরিসংখ্যান বিতরণের উপর ভিত্তি করে মডেল তৈরি করে। যখন ক্লাস্টার আকারগুলি কে-মানেগুলির থেকে পৃথক হতে পারে যা বৃত্তাকার ক্লাস্টারগুলি ধরে নেয়। আর ফাংশন: এমক্লাস্টার প্যাকেজে এমক্লাস্টার।

[4] ঘনত্ব মডেল: ডেটা স্পেসে সংযুক্ত ঘন অঞ্চল হিসাবে ক্লাস্টারগুলির ভিত্তিতে মডেল তৈরি করে models যেমন ডিবিএসসিএন এবং অপটিক্স। যখন ক্লাস্টার শেপগুলি কে-মানেগুলির বিপরীতে নির্বিচারে হতে পারে যা বৃত্তাকার ক্লাস্টারগুলি ধরে নেয় .. প্যাকেজ dbscan এ r ফাংশন dbscan।

[5] সাবস্পেস মডেল: উভয় ক্লাস্টার সদস্য এবং প্রাসঙ্গিক গুণাবলী উপর ভিত্তি করে মডেল তৈরি করে। উদাহরণস্বরূপ বাইক্লাস্টারিং (কো-ক্লাস্টারিং বা টু-মোড-ক্লাস্টারিং নামেও পরিচিত)। একসাথে সারি এবং কলাম ক্লাস্টারিংয়ের প্রয়োজন হলে ব্যবহৃত হয়। বিকলাস্ট প্যাকেজে আর ফাংশন বিকলাস্ট ust

[]] গোষ্ঠী মডেল: দলবদ্ধকরণ তথ্যের ভিত্তিতে মডেল তৈরি করে। যেমন সহযোগী ফিল্টারিং (সুপারিশকারী অ্যালগরিদম)। সুপারিশক প্যাকেজে ফাংশন সুপারিশকারী।

[]] গ্রাফ ভিত্তিক মডেল: চক্রের ভিত্তিতে মডেল তৈরি করে। সম্প্রদায় কাঠামো সনাক্তকরণ অ্যালগরিদমগুলি নির্দেশিত বা অপরিবর্তিত গ্রাফগুলিতে ঘন সাবগ্রাফগুলি সন্ধান করার চেষ্টা করে। যেমন ইগ্রাফ প্যাকেজে ক্লাস্টার_ওয়াকট্র্যাপ ফাংশন।

[8] কোহোনেন স্ব-সংগঠিত বৈশিষ্ট্য মানচিত্র: নিউরাল নেটওয়ার্কের ভিত্তিতে মডেল তৈরি করে। কোহোনেন প্যাকেজে আর ফাংশন সোম।

[9] স্পেকট্রাল ক্লাস্টারিং: নন-উত্তল ক্লাস্টার কাঠামোর উপর ভিত্তি করে মডেল তৈরি করে বা যখন কেন্দ্রের কোনও পরিমাপ সম্পূর্ণ ক্লাস্টারের উপযুক্ত বিবরণ না হয়। কার্নলব প্যাকেজে আর ফাংশন স্পেক।

[10] সাবস্পেস ক্লাস্টারিং: উচ্চ-মাত্রিক ডেটার জন্য, দূরত্বের কার্যগুলি সমস্যাযুক্ত হতে পারে। ক্লাস্টার মডেলগুলি ক্লাস্টারের জন্য সম্পর্কিত বৈশিষ্ট্যগুলি অন্তর্ভুক্ত করে। উদাহরণস্বরূপ, এইচডিডিসি ফাংশন আর প্যাকেজ এইচডি ক্লাসিফ।

[১১] সিকোয়েন্স ক্লাস্টারিং: গ্রুপ সিকোয়েন্সগুলি যা সম্পর্কিত। rBlast প্যাকেজ।

[12] আত্মীয়তার প্রচার: ডেটা পয়েন্টগুলির মধ্যে পাসওয়ার্ডের ভিত্তিতে মডেলগুলি তৈরি করে। এটি অ্যালগোরিদম চালানোর আগে নির্ধারিত ক্লাস্টারের সংখ্যা প্রয়োজন হয় না। নির্দিষ্ট কম্পিউটার ভিশন এবং গণনামূলক জীববিজ্ঞানের কাজের জন্য, যেমন- কে-মানে, রেফ রেপ্যাকেজ এপি ক্লাসটারের চেয়ে মানুষের মুখের ছবিগুলি ক্লাস্টারিং এবং নিয়ন্ত্রিত প্রতিলিপি সনাক্তকরণের পক্ষে এটি আরও ভাল।

[13] স্ট্রিম ক্লাস্টারিং: ডেটার উপর ভিত্তি করে মডেল যে এই ধরনের টেলিফোন রেকর্ড, আর্থিক লেনদেন ইত্যাদি একটানা পৌঁছা গুরুত্বপূর্ণ জৈব ফাংশন যেমন আর প্যাকেজ বার্চ [ https://cran.r-project.org/src/contrib/Archive/birch/]

[১৪] ডকুমেন্ট ক্লাস্টারিং (বা পাঠ্য ক্লাস্টারিং): এসভিডি ভিত্তিক মডেল তৈরি করে। এটি বিষয় নিষ্কাশন ব্যবহার করেছে। উদাহরণস্বরূপ গাজর [ http://search.carrot2.org] একটি ওপেন সোর্স অনুসন্ধান ফলাফল ক্লাস্টারিং ইঞ্জিন যা নথিগুলি থিম্যাটিক বিভাগে গুচ্ছ করতে পারে।

[15] প্রচ্ছন্ন শ্রেণীর মডেল: এটি পর্যবেক্ষিত মাল্টিভারিয়েট ভেরিয়েবলগুলির একটি সেটকে সুপ্ত ভেরিয়েবলগুলির একটি সেটের সাথে সম্পর্কিত করে। সহযোগী ফিল্টারিংয়ে এলসিএ ব্যবহার করা যেতে পারে। সুপারিশকারী প্যাকেজে আর ফাংশন সুপারিশকারীর সহযোগী ফিল্টারিং কার্যকারিতা রয়েছে।

[১]] বাইক্লাস্টারিং: একযোগে ক্লাস্টার সারি এবং দ্বি-মোড ডেটার কলামগুলিতে ব্যবহৃত হয়। উদাহরণস্বরূপ প্যাকেজ বিকলাস্টে আর ফাংশন বিক্লাস্ট।

[১]] সফট ক্লাস্টারিং (ফাজি ক্লাস্টারিং): প্রতিটি বস্তু প্রতিটি ক্লাস্টারের একটি নির্দিষ্ট ডিগ্রির অন্তর্গত। উদাহরণস্বরূপ, fclust প্যাকেজের মধ্যে Fclust ফাংশন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.