অ-মাত্রিক ডেটার জন্য ক্লাস্টারিং অ্যালগরিদম


12

আমার কাছে কয়েক হাজার পয়েন্টের ডেটাসেট এবং যেকোন দুটি পয়েন্টের মধ্যে দূরত্ব পরিমাপ করার একটি মাধ্যম রয়েছে তবে ডেটা পয়েন্টগুলির কোনও মাত্রিক মাত্রা নেই। আমি এই ডেটাসেটে গুচ্ছ কেন্দ্রগুলি খুঁজতে একটি অ্যালগরিদম চাই। আমি ধারণা করি যেহেতু ডেটাটির কোনও মাত্রা নেই, একটি ক্লাস্টার সেন্টারে বেশ কয়েকটি ডেটা পয়েন্ট এবং একটি সহনশীলতা থাকতে পারে, এবং ক্লাস্টারের মধ্যে সদস্যতা ক্লাস্টার সেন্টারের প্রতিটি ডেটা পয়েন্টের ডেটার পয়েন্টের গড় দ্বারা নির্ধারিত হতে পারে।

যদি এই প্রশ্নের একটি সুপরিচিত সমাধান থাকে তবে আমাকে ক্ষমা করুন, আমি এই ধরণের সমস্যা সম্পর্কে খুব কম জানি! আমার (খুব সীমাবদ্ধ) গবেষণা কেবল মাত্রিক তথ্যের জন্য ক্লাস্টারিং অ্যালগরিদমগুলিকেই পরিণত করেছে, তবে আমি যদি কিছু স্পষ্টভাবে মিস করি তবে আমি আগাম ক্ষমা চাই।

ধন্যবাদ!


অ-মাত্রিকতা কেন এই সমস্যাটিকে বিশেষ করে তোলে?
রাফেল

1
ক্লাস্টারিংয়ের জন্য আমি দেখেছি এমন কয়েকটি অ্যালগরিদম (সত্যিকার অর্থেই কে-মানে) বীজ হিসাবে এলোমেলো ডেটা পয়েন্ট তৈরি করা দরকার, যা মাত্রাবিহীন ডেটা দিয়ে সম্ভব নয়। সুতরাং, বিশেষ প্রয়োজন হ'ল ক্লাস্টার কেন্দ্রগুলি অবশ্যই বিদ্যমান ডেটা পয়েন্টগুলির একটি সেট (সম্ভবত ওয়েটড) দ্বারা প্রতিনিধিত্ব করা উচিত।
পেইন্টক্যান

উত্তর:


15

যদি দূরত্বের কার্যটি একটি মেট্রিক হয়, তবে আপনি সেন্টার ক্লাস্টারিং (যেখানে একটি বলের সর্বাধিক ব্যাসার্ধকে ন্যূনতম করা হয়) বা মিডিয়ান ক্লাস্টারিং (যা ক্লাস্টার সেন্টারে দূরত্বের যোগফলকে কমিয়ে দেয়) নিয়োগ করতে পারেন। সেন্টার ক্লাস্টারিং সহজ: কেবলমাত্র প্রথমতম পয়েন্টগুলি বেছে নিন এবং আপনাকে ত্রিভুজ অসমতার মাধ্যমে 2-আনুমানিক প্রাপ্তির নিশ্চয়তা দেওয়া হয়েছে গনজালেজের কারণে একটি পুরানো ফলাফল)।kkkk

জন্য -median ক্লাস্টারিং, সেখানে কাজ একটি টন, অত্যধিক এখানে পর্যালোচনা করতে হয়েছে। ইউসিএলএর মাইকেল শিন্ডলার মূল ধারণাগুলির একটি দুর্দান্ত সমীক্ষা করেছেনk

এই দুটি সমস্যাই সাধারণভাবে এনপি-হার্ড এবং একটি স্বেচ্ছাচারী কারণের মধ্যে অনুমান করা শক্ত। মনে রাখবেন যে আপনি যদি মেট্রিক হওয়ার শর্তটি বাদ দেন তবে আনুমানিকতার ক্ষেত্রে জিনিসগুলি আরও খারাপ হয়ে যায়।

আর একটি, আরও আধ্যাত্মিক পদ্ধতির যা আপনার অ্যাপ্লিকেশনটির জন্য ঠিক হতে পারে তা হল ইউক্লিডিয়ান স্পেসে আপনার দূরত্বের ম্যাট্রিক্স এম্বেড করার জন্য এমডিএস (বহু মাত্রিক স্কেলিং) এর মতো কৌশল ব্যবহার করা, এবং তারপরে অনেকগুলি ইউক্যালিডিয়ান ক্লাস্টারিং পদ্ধতিগুলির (বা এমনকি মাইন ক্লাস্টারিং) ব্যবহার করুন to )। আপনি যদি নিশ্চিত হন যে আপনার দূরত্ব ফাংশনটি একটি মেট্রিক, তবে আপনি ইউক্লিডিয়ান স্পেসে এম্বেড করার জন্য আরও কিছুটা বুদ্ধিমান করতে পারেন এবং আপনার উত্তরের গুণমান সম্পর্কে একটি প্রাবন্ধিক (দুর্বল হলেও) গ্যারান্টি পেতে পারেন।k

শেষ পর্যন্ত, বেশিরভাগ ক্লাস্টারিংয়ের সমস্যাগুলির মতো আপনার চূড়ান্ত পছন্দটি অ্যাপ্লিকেশন, আপনার ডেটার আকার এবং আরও অনেক কিছুতে নির্ভর করে।


3
দ্রুত এবং স্পষ্ট ওভারভিউর জন্য আপনাকে ধন্যবাদ। আপনি আমার প্রশ্নের উত্তর দিয়েছেন কিনা তা নির্ধারণ করতে আমার কমপক্ষে কয়েক দিন সময় নেবে। মনে হচ্ছে আমি অনেক আগে আমি আমার সমস্যার জ্ঞানহীন শিখতে :) আছে
paintcan

5

এর রয়েছে পারস্পরিক সম্পর্ক ক্লাস্টারিং , যা কিনা তা নির্দেশ তারা হয় একই ক্লাস্টারের বা বিভিন্ন ক্লাস্টার মধ্যে অন্তর্গত আইটেম প্রতিটি জোড়া জন্য ইনপুট তথ্য রয়েছে।


হ্যাঁ, এটি আরেকটি ভাল উদাহরণ। এবং অবশ্যই ওয়ারেন এই বিষয়ে বিশেষজ্ঞ! আমি জানি না যে ওপির ইনপুটটি +/- ছিল কিনা, বা থ্রেশোল্ডিংয়ের মাধ্যমে রূপান্তরিত হতে পারে। যদি তা হয় তবে এটি অবশ্যই কার্যকর একটি বিকল্প।
সুরেশ ভেঙ্কট

5

আপনি যদি কেবল ভাল অভিজ্ঞতামূলক পারফরম্যান্সের সন্ধান করেন তবে স্নেহ প্রচারের অ্যালগরিদম সাধারণত কে-মিডিয়ানদের চেয়ে ভাল কাজ করে। সেখানে বিভিন্ন ভাষা এবং আরো বিস্তারিত অ্যালগরিদম বর্ণনা প্রকাশনা এখানে আছেন কোড পাওয়া যায়: http://www.psi.toronto.edu/index.php?q=affinity%20propagation

এটি যে উদ্দেশ্যটি সর্বাধিক করে তোলার চেষ্টা করে তা হ'ল:

is(i,ci)

যেখানে হ'ল (যেমন, নেতিবাচক দূরত্ব), এবং । যে ক্লাস্টারটি তার অন্তর্গত। দেওয়া একটি অতিরিক্ত প্যারামিটার রয়েছে যা আপনি বড় বা ছোট ক্লাস্টার পছন্দ করেন কিনা তা নিয়ন্ত্রণ করে।সি আইসি আই এস ( আই , আই )scicis(i,i)


5

আপনার প্রশ্নের ইঙ্গিতটি মনে হচ্ছে আপনি শালীন গণনার সময় সহ একটি অ্যালগরিদম খুঁজছেন। আপনার উল্লম্বের আকার (বা পয়েন্ট) দেওয়া হ'ল আপনার ডেটার একটি ওয়েট গ্রাফ উপস্থাপনা তৈরি করা এবং গ্রাফ ক্লাস্টার করার জন্য মার্কভ ক্লাস্টার অ্যালগরিদম (এমসিএল) ব্যবহার করা হবে।

http://www.micans.org/mcl/

এমসিএল ঘন সাবগ্রাফগুলি সন্ধান করার জন্য ওয়েট এবং অবিবাহিত গ্রাফগুলির মাধ্যমে এলোমেলো হাঁটার উপর ভিত্তি করে। এটি বড় গ্রাফগুলি পরিচালনা করতে সক্ষম এবং এটি অনেকগুলি সুপরিচিত, সুপরিচিত বায়োইনফরম্যাটিক প্রোগ্রামগুলিতে ব্যবহৃত হয়েছে (যেমন BLAST)। -Boucher


1

রাফেল, কে-এনএন অ্যালগরিদম আসলেই একটি ক্লাস্টারিং অ্যালগরিদম নয়, তাই না? যদি আপনি বারবার কোনও নোডের কে প্রতিবেশীদের টেনে না নেন?
সুরেশ ভেঙ্কট

আমরা নোড যে একে অপরের সেটে হয় মধ্যে একটি প্রান্ত আঁকা নোড নিকটতম। ফলস্বরূপ গ্রাফে, ক্লাখগুলি (প্রায়-চক্রগুলি) এক ধরণের ক্লাস্টার হওয়া উচিত। আমি অনুভব করেছি যেহেতু আমরা গ্রাফটি তৈরি করছি, তাই এই চক্রগুলি চিহ্নিত করা খুব বেশি শক্ত হওয়া উচিত নয়, তবে আমি এটি পুরোপুরিভাবে ভাবিনি। k
রাফেল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.