স্থান-দক্ষ ক্লাস্টারিং


9

বেশিরভাগ ক্লাস্টারিং অ্যালগরিদমগুলি আমি সমস্ত পয়েন্টের মধ্যে প্রতিটি থেকে প্রতিটি দূরত্ব তৈরি শুরু করে দেখেছি যা বড় ডেটাসেটগুলিতে সমস্যাযুক্ত হয়ে ওঠে। এমন কি আছে যে এটি করে না? বা এটি কোনও ধরণের আংশিক / আনুমানিক / স্তিমিত পদ্ধতির মধ্যে রয়েছে?

কোন ক্লাস্টারিং অ্যালগরিদম / প্রয়োগটি O (n ^ 2) স্পেসের চেয়ে কম নেয়?

অ্যালগরিদমগুলির তালিকা এবং তাদের সময় এবং স্থানের প্রয়োজনীয়তা কোথাও রয়েছে?


2
সম্ভবত চলমান উইন্ডো টাইপ ক্লাস্টারিং (উদাহরণস্বরূপ Satscan, satscan.org ) আপনার প্রয়োজনীয়তা মেটাবে meet সেই নির্দিষ্ট প্রোগ্রামটি স্থানিক / অস্থায়ী তথ্যের জন্য, তাই উচ্চতর মাত্রার জন্য সত্যই বোঝানো হয় না, তবে সম্ভবত আপনাকে কিছু ধারণা বা শুরু করার জায়গা দেয়।
অ্যান্ডি ডব্লিউ

উত্তর:


5

কে-মিনস এবং মেন-শিফটে কাঁচা নমুনা বর্ণনাকারী ব্যবহার করুন (কোনও অ্যাফিনিটি ম্যাট্রিক্সের প্রাক-গণনা করার প্রয়োজন নেই)।

অন্যথায় বর্ণালী ক্লাস্টারিং বা পাওয়ার পুনরাবৃত্তি ক্লাস্টারিংয়ের জন্য, আপনি কে-নিকটতম-প্রতিবেশী অ্যাফিনিটি ম্যাট্রিক্সের (কিছু দূরত্ব বা অ্যাফিনিটি মেট্রিকের) জন্য একটি বিচ্ছিন্ন ম্যাট্রিক্স উপস্থাপনা (যেমন সংক্ষেপিত স্পার্স সারি) ব্যবহার করতে পারেন। যদি কে ছোট হয় (5 বা 10 বলুন)। আপনি একটি খুব স্পেস দক্ষ প্রতিনিধিত্ব পাবেন (2 * n_sample * k * 8 বাইট ডাবল স্পষ্টতা ভাসমান পয়েন্ট মানের জন্য)।


2

কিছু ক্লাস্টারিং অ্যালগরিদম স্থানিক সূচক কাঠামো ব্যবহার করতে পারে। এটি উদাহরণস্বরূপ ডিবিএসসিএন এবং অপটিক্সকে চালিত করার অনুমতি দেয়হে(এনলগএন) সময় (যতক্ষণ সূচক অনুমতি দেয়) হে(লগএন) প্রশ্নের)।

স্পষ্টতই, এই জটিলতায় চলে এমন একটি অ্যালগরিদম একটি তৈরি করে না হে(এন2) দূরত্বের ম্যাট্রিক্স।

কিছু অ্যালগরিদমের জন্য যেমন সিঙ্গল-লিঙ্কেজ এবং সম্পূর্ণ-লিংকেজ সহ শ্রেণিবিন্যাসের ক্লাস্টারিংয়ের জন্য অপ্টিমাইজড অ্যালগরিদম উপলব্ধ রয়েছে (এসইসি, সিসিপি)। এটি ঠিক যে বেশিরভাগ লোকেরা যা কিছু পেতে পারে এবং যা প্রয়োগ করা সহজ easy এবং শ্রেণিবদ্ধ ক্লাস্টারিং ব্যবহার করে নির্বাকভাবে কার্যকর করা সহজএন পুনরাবৃত্তি a এন2 দূরত্ব ম্যাট্রিক্স (ফলে একটি হে(এন3) অ্যালগরিদম ...)।

ক্লাস্টারিং অ্যালগরিদমের সাথে তুলনা করার একটি সম্পূর্ণ তালিকা সম্পর্কে আমি অবগত নই। সব মিলিয়ে সম্ভবত 100+ ক্লাস্টারিং অ্যালগরিদম রয়েছে। কমপক্ষে এক ডজন কে-মানে বৈকল্পিক রয়েছে, উদাহরণস্বরূপ। এছাড়াও, রান-টাইম জটিলতার পাশাপাশি মেমরির জটিলতাও রয়েছে; গড়-কেস এবং সবচেয়ে খারাপ ক্ষেত্রে রয়েছে। বিশাল প্রয়োগের পার্থক্য রয়েছে (উদাহরণস্বরূপ উপরে উল্লিখিত একক লিঙ্ক; এবং ডিবিএসসিএন বাস্তবায়ন যা কোনও সূচক ব্যবহার করে না এবং এইভাবে রয়েছেহে(এন2), এবং তাদের পুরো স্টোর করার দরকার নেই এন×এনদূরত্বের ম্যাট্রিক্স, তাদের তখনও সমস্ত জোড়াযুক্ত দূরত্ব গণনা করা দরকার)। এছাড়াও এখানে অনেকগুলি পরামিতি রয়েছে। কে-মানে জন্য,গুরুতর. বেশিরভাগ ক্ষেত্রেই কোনও অ্যালগরিদমের জন্য, দূরত্বের ফাংশনটি বিশাল পার্থক্য করে (কোনও কোনও বাস্তবায়ন কেবল ইউক্লিডিয়ান দূরত্বের অনুমতি দেয় ...)। এবং একবার আপনি ব্যয়বহুল দূরত্ব ফাংশনগুলি (ইউক্যালিডনের মতো তুচ্ছ জিনিসগুলি ছাড়িয়ে) এ পৌঁছানোর পরে, দূরত্বের গণনার সংখ্যা দ্রুতই প্রধান অংশ হতে পারে। সুতরাং আপনার তখন মোট ক্রিয়াকলাপের সংখ্যা এবং দূরত্বের গণনার প্রয়োজনের মধ্যে পার্থক্য করতে হবে। সুতরাং একটি অ্যালগরিদম যাহে(এন2) অপারেশন কিন্তু শুধুমাত্র হে(এন) দূরত্বের গণনাগুলি সহজেই কোনও অ্যালগোরিদমকে ছাড়িয়ে যায় হে(এনলগএন) উভয় ক্ষেত্রেই যখন দূরত্বের কার্যগুলি সত্যিই ব্যয়বহুল হয় (বলুন, দূরত্বের ক্রিয়াটি নিজেই হয় হে(এন))।


খুব ভাল উত্তর।
মনস্টার এমএমআরপিজি

1

ভাল প্রশ্ন. 3 নিকটতম প্রতিবেশী বলার জন্য একটি স্ট্র ম্যান পদ্ধতি হ'ল প্রতিটি ডাটা পয়েন্টের নমুনা প্রতিবেশীদের নিকটবর্তী রাখুন 3. ক্ষুদ্রতর হলেও, এনএসপেলের কয়েকটি মানের জন্য এটি চালানো আপনাকে সংকেত / শব্দ শৈলীর কাছাকাছি / পটভূমির শব্দ সম্পর্কে কিছু ধারণা দেবে , সহজেই আপনার ডেটা জন্য চক্রান্ত । অতিরিক্ত কৌশলটি হ'ল প্রতিবেশীদের প্রতিবেশীদের চেক করা, এটি দেখতে যে প্রত্যক্ষ প্রতিবেশীদের চেয়ে আরও নিকটবর্তী আর কেউ আছে কি না। এছাড়াও, যদি ইনপুট ডেটা ইতিমধ্যে ভালভাবে বদলানো হয় তবে ব্লকগুলিতে নমুনা, অন্যথায় ক্যাশে ছিটকে যাবে।

(যুক্ত): আর তে ফাস্টক্লাস্টার দেখুন এবং আমি সায়্পাই ভি0.11 তে বিশ্বাস করি।
পাঠ্যের জন্য, গুগল-সমস্ত-জুটি-মিল-অনুসন্ধান দেখুন

পুনরাবৃত্তি করুন, "ক্লাস্টারিং অ্যালগরিদম নির্বাচনের চেয়ে ক্লাস্টারিংয়ের সাথে সাফল্য অর্জনে একটি উপযুক্ত ভিন্নতা পরিমাপ অনেক বেশি গুরুত্বপূর্ণ" - নির্বাচন-ক্লাস্টারিং-পদ্ধতি

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.