এখানে কি কোনও অ-দূরত্ব ভিত্তিক ক্লাস্টারিং অ্যালগরিদম রয়েছে?


14

দেখে মনে হচ্ছে যে কে-মানে এবং অন্যান্য সম্পর্কিত অ্যালগরিদমগুলির জন্য, ক্লাস্টারিং পয়েন্টগুলির মধ্যে দূরত্ব গণনা করে based এমন কি আছে যে এটি ছাড়া কাজ করে?


2
সামঞ্জস্যতা বা পয়েন্টের "ঘনিষ্ঠতা" মাপার কোনও উপায় ছাড়াই আপনি "ক্লাস্টারিং" বলতে কী বুঝবেন?
শুক্র

2
নীচে @ টিমের উত্তরটি খুব ভাল। আপনি আপোটিং / এবং / বা এটি গ্রহণে বিবেচনা করতে চাইতে পারেন , যদি এটি আপনাকে সহায়তা করে; 'থ্যাঙ্কস' বলার জন্য এটি দুর্দান্ত উপায়। তার ধারণা প্রসারিত করার সাথে সাথে সুপ্ত শ্রেণীর বিশ্লেষণ রয়েছে যা শ্রেণিবদ্ধ তথ্যের সাথে একই ধরণের পদ্ধতির প্রয়োগ করে। এফএমএমগুলিতে একটি প্যারামিমেট্রিক পদ্ধতির ব্যবহার মাল্টিভারিয়েট কার্নেল ঘনত্বের প্রাক্কলনের উচ্চতার মাধ্যমে ব্যবহার করা যেতে পারে। ননপ্যারমেট্রিক ঘনত্ব অনুমানের মাধ্যমে ক্লাস্টারিং দেখুন : আরও তথ্যের জন্য আর প্যাকেজ পিডিএফক্লাস্টার ( পিডিএফ )।
গুং - মনিকা পুনরায়

উত্তর:


25

এই জাতীয় পদ্ধতির একটি উদাহরণ হ'ল ক্লাস্টারিংয়ের জন্য ব্যবহৃত ফাইনাইট মিক্সচার মডেলগুলি (যেমন এখানে বা এখানে )। এফএমএম-তে আপনি আপনার পরিবর্তনশীল এর বিতরণ ( ) ডিস্ট্রিবিউশনগুলির মিশ্রণ হিসাবে বিবেচনা করেন ( ):এক্স কে 1 , , কেfXKf1,...,fk

f(x,ϑ)=k=1Kπkfk(x,ϑk)

যেখানে প্যারামিটার একটি ভেক্টর হয় এবং অনুপাতে হয় 'মিশ্রণ ম বিতরণ এবং একটি প্যারামিটার আছে ( বা পরামিতি) এর বিতরণ।θ = ( π ' , θ ' 1 , , θ ' ) ' π θ ϑϑ=(π,ϑ1,...,ϑk)πkkϑkfk

বিযুক্ত ডেটা সম্পর্কিত একটি নির্দিষ্ট কেস হ'ল লেটেন্ট ক্লাস অ্যানালাইসিস (যেমন এখানে ) হিসাবে সংজ্ঞায়িত:

P(x,k)=P(k)P(x|k)

যেখানে প্রচ্ছন্ন বর্গ দেখে সম্ভাব্যতা (অর্থাত ), একটি দেখে সম্ভাব্যতা মান এবং সম্ভাব্যতা ক্লাসে না গিয়ে ।π পি ( এক্স ) এক্স পি ( এক্স |) এক্স P(k)kπkP(x)xP(x|k)xk

সাধারণত এফএমএম এবং এলসিএ উভয়ের ক্ষেত্রে ইএম অ্যালগরিদম অনুমানের জন্য ব্যবহৃত হয়, তবে বয়েসিয়ান পদ্ধতিটিও সম্ভব, তবে মডেল সনাক্তকরণ এবং লেবেল স্যুইচিং (যেমন শিয়ানের ব্লগ ) এর মতো সমস্যার কারণে আরও কিছুটা দাবি করা ।

সুতরাং কোনও দূরত্ব পরিমাপ নয় বরং একটি ডেটাস্টিকাল মডেল যা আপনার উপাত্তের কাঠামো (বিতরণ) সংজ্ঞায়িত করে। কারণ এই পদ্ধতির অন্য নামটি হ'ল "মডেল-ভিত্তিক ক্লাস্টারিং"।

এফএমএম-তে দুটি বই পরীক্ষা করুন:

সবচেয়ে জনপ্রিয় ক্লাস্টারিং প্যাকেজ যা এফএমএম ব্যবহার করে তা হ'ল mclust( এখানে বা এখানে দেখুন ) যা আর এ প্রয়োগ করা হয় । তবে আরও জটিল এফএমএমও সম্ভব, উদাহরণস্বরূপ flexmixপ্যাকেজটি পরীক্ষা করুন এবং এটি ডকুমেন্টেশনএলসিএর জন্য একটি আর পোলসিএ প্যাকেজ রয়েছে


বিভিন্ন ব্যবহারের ক্ষেত্রে কী হতে পারে সে সম্পর্কে কি আপনার ভাল ধারণা আছে?
শ্যাডট্যালকার

যেমনটি রয়েছে, "মেডোয়েডগুলির চারপাশে বিভাজন বলার পরিবর্তে আমি কখন এটি ব্যবহার করব?" যাইহোক খুব সুন্দর উত্তর
ছায়াছবির

1
@ কেভম্যান এটাকে নোটেশনাল কনভেনশন বলেছে। এটি ভেক্টরগুলির একটি ভেক্টর, এগুলি সবই।
টিম

1
@ কেভম্যানের বিভিন্ন ডিস্ট্রিবিউশন রয়েছে যা মিশ্রণে রয়েছে, তাদের প্রত্যেকের নিজস্ব প্যারামিটার রয়েছে (এজন্য আমাদের প্যারামিটারগুলির ভেক্টর রয়েছে)। 1 , , কেk f1,...,fk
টিম

1
@caveman অধিকাংশ সাধারণত ক্ষেত্রে আপনি যে যেমন স্বাভাবিক ডিস্ট্রিবিউশন, বিভিন্ন উপায়ে এবং SD এর সঙ্গে। তবে তারা পৃথক হতে পারে, cran.r-project.org/web/packages/flexmix/vignettes/… এ ৩.১ উদাহরণ দেখুন যা মিশ্রণের দুটি পৃথক রিগ্রেশন মডেল দেখায়। k
টিম

7

কে-মানে "সত্যই" দূরত্ব ভিত্তিক নয়। এটি বৈকল্পিকতা হ্রাস করে । (কিন্তু ভ্যারিয়েন্স স্কোয়ারড ইউক্লিডিয় দুরুত্ব; তাই বিন্দু হয় , খুব ইউক্লিডিয় দুরত্ব নিকটতম centroid নির্ধারিত)।

গ্রিড-ভিত্তিক ক্লাস্টারিং প্রচুর পদ্ধতি রয়েছে । তারা দূরত্বগুলি গণনা করে না কারণ এটি প্রায়শই চতুর্ভুজ রানটাইম উত্পন্ন করে। পরিবর্তে, তারা ডেটা বিভাজন করে গ্রিড কোষগুলিতে এটি একত্রিত করে। তবে এই ধরণের পদ্ধতির পিছনে অন্তর্দৃষ্টি সাধারণত খুব দূরত্বের সাথে সম্পর্কিত।

COOLCAT এবং STUCCO এর মতো শ্রেণিবদ্ধ ডেটার জন্য বেশ কয়েকটি ক্লাস্টারিং অ্যালগরিদম রয়েছে। এই জাতীয় ডেটা দিয়ে দূরত্বগুলি ব্যবহার করা সহজ নয় (ওয়ান-হট এনকোডিং হ্যাক এবং বিশেষত অর্থপূর্ণ দূরত্ব দেয় না)। তবে আমি কেউ এই অ্যালগোরিদমগুলি ব্যবহার করার কথা শুনিনি ...

গ্রাফগুলির জন্য ক্লাস্টারিং অ্যাপ্রোচ রয়েছে। তবে হয় তারা ক্লাসিক বা নিকট-চক্রের সন্ধান এবং গ্রাফের বর্ণের মতো ক্লাসিক গ্রাফ সমস্যাগুলিকে হ্রাস করে অথবা তারা দূরত্ব ভিত্তিক ক্লাস্টারিংয়ের সাথে ঘনিষ্ঠভাবে সংযুক্ত থাকে (যদি আপনার একটি ভার্টেড গ্রাফ থাকে)।

ডিবিএসসিএএন-এর মতো ঘনত্ব-ভিত্তিক ক্লাস্টারিংয়ের আলাদা নাম রয়েছে, এবং দূরত্ব হ্রাস করার দিকে মনোনিবেশ করেন না; তবে "ঘনত্ব" সাধারণত একটি দূরত্বের সাথে সুনির্দিষ্টভাবে নির্দিষ্ট করা হয়, তাই প্রযুক্তিগতভাবে এই অ্যালগরিদম হয় দূরত্ব ভিত্তিক বা গ্রিড ভিত্তিক।

আপনার প্রশ্নের যে অপরিহার্য অংশটি আপনি রেখে গেছেন তা হ'ল আপনার ডেটা কী?


1
+1: আমি প্রশংসা করি যে আপনি কোনও ক্লাস্টারিং অ্যালগরিদম কীভাবে "দূরত্ব" বা "মিল" এর কিছু অন্তর্নিহিত (সম্ভবত) সাধারণীকৃত বোধ ব্যবহার করেন এবং এই জাতীয় অনেক অ্যালগরিদমের জরিপ দেওয়ার সময় আপনি তা করেন তা আপনি দেখান।
হোবার

আমি মনে করি "দূরত্ব-ভিত্তিক" দ্বারা তিনি বোঝাচ্ছেন মিলটি মেট্রিক্স, যার মধ্যে বৈকল্পিকতা অন্তর্ভুক্ত হবে।
en1

1
কেন বৈকল্পিকতা একটি মিল মেট্রিক হবে? এটি বর্গাকার ইউক্লিডিয়ান দূরত্বের সাথে সম্পর্কিত; কিন্তু নির্বিচারে দূরত্ব সমতুল্য গুলি
কিট আছে - অ্যানি-মৌসে

2

পূর্ববর্তী সুন্দর উত্তরের পাশাপাশি, আমি ডিরিচলেট মিশ্রণ মডেলগুলি এবং বায়সিয়ান ভিত্তিক হাইয়ারারিকিকাল ডিরিচলেট প্রক্রিয়া মডেলগুলি বিবেচনা করার পরামর্শ দেব । সর্বোত্তম সংখ্যক ক্লাস্টার নির্ধারণের জন্য পদ্ধতির এবং পদ্ধতির পরিবর্তে বিস্তৃত ও সাধারণ পর্যালোচনার জন্য , দয়া করে স্ট্যাক ওভারফ্লোতে এই দুর্দান্ত উত্তরটি দেখুন : /programming//a/15376462/2872891


2

নিখুঁতভাবে বৈষম্যমূলক দৃষ্টিভঙ্গি হ'ল গোমেস এট আল দ্বারা "নিয়মিত তথ্য সর্বাধিককরণ" । এর সাথে যা কিছু আছে তার সাথে মিল বা দূরত্বের ধারণা নেই।

ধারণাটি হল মডেলের মতো লজিস্টিক রিগ্রেশন থাকা যা পয়েন্টগুলিকে বিভক্ত করে। ক্লাস লেবেলগুলির কিছু প্রকারের লগ-সম্ভাবনা সর্বাধিক করে তোলার জন্য প্রশিক্ষণের পরিবর্তে, উদ্দেশ্যগত কাজটি এমন একটি যা বিভিন্ন ক্লাস্টারে পয়েন্ট রাখে।

মডেল দ্বারা ব্যবহৃত ক্লাস্টারের পরিমাণ নিয়ন্ত্রণ করতে হাইপার প্যারামিটার দ্বারা ওজনিত একটি অতিরিক্ত নিয়মিত শব্দ ব্যবহৃত হয়। এটি ওজনের আগে কোনও গাউসির বিপরীত বিপরীতে উত্থিত হয়।λ

লিনিয়ার ক্লাস্টারিংয়ের জন্য কার্নেল পদ্ধতি বা নিউরাল নেটওয়ার্কগুলিতে প্রসারিত হওয়া সহজ straight

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.