অবিচ্ছিন্ন ক্লাস্টারিং


9

তাই লাইভ, ক্রমাগত স্ট্রিমিং ডেটার সাথে ক্লাস্টারিংয়ের ক্ষেত্রে আমার একটি সমস্যা রয়েছে। যেহেতু আমার একটি ক্রমবর্ধমান ডেটা সেট রয়েছে আমি দক্ষ এবং কার্যকর ক্লাস্টারিং চালানোর সর্বোত্তম উপায় কোনটি তা নিশ্চিত নই। আমি সহ কয়েকটি সম্ভাব্য সমাধান নিয়ে এসেছি:

  1. কতটা ডেটা পয়েন্টকে মঞ্জুরি দিতে হবে তার সীমা নির্ধারণ করা, সুতরাং যখনই সীমাটি পৌঁছে যায় তখন অন্য পয়েন্টটিতে প্রাচীনতম পয়েন্টটি আসে। মূলত, এটি পরামর্শ দেবে যে পুরানো ডেটা আমাদের ফেলে দেওয়ার মাধ্যমে আমাদের কী হারাচ্ছে সে যত্ন নেওয়ার পক্ষে আমাদের আর যথেষ্ট প্রাসঙ্গিক নয়।

  2. ভাল ক্লাস্টারিং করার জন্য পর্যাপ্ত ডেটা উপস্থিত হয়ে গেলে, এই "সেটআপ "টিকে বিবেচনা করুন এবং নতুন পয়েন্টগুলি আসার পরিবর্তে সমস্ত ডেটা পুনরায় ক্লাস্টারিংয়ের পরিবর্তে কোন ক্লাস্টারের কেন্দ্রটি নতুন পয়েন্টটি সবচেয়ে নিকটবর্তী এবং এটিতে যুক্ত করে তা নির্ধারণ করুন। এখানে সুবিধা হ'ল আপনি প্রতিটি নতুন পয়েন্টে পুনরায় ক্লাস্টার না এড়াতে পারবেন এবং এই ক্লাস্টারটিকে "যথেষ্ট যথেষ্ট" বিবেচনা করে আপনাকে অন্য সমস্ত পয়েন্টগুলি কেবল ক্লাস্টার সেন্টারগুলি সংরক্ষণ করতে হবে না। ক্ষতিটি হ'ল প্রথম থেকে সমস্ত ডেটা পয়েন্ট সহ অ্যালগরিদম পুনরায় চালানো আরও সঠিক হতে পারে।

যদিও সেগুলি আমি মস্তিস্ক-ঝড়ো কিছু সম্ভাব্য সমাধান, তবে আমি জানতে চাই যে এই সমস্যার মুখোমুখি হওয়ার জন্য আরও ভাল কোনও পরিচিত কৌশল রয়েছে কিনা। আমি গুগলের মতো সাইটগুলিকে কোনওভাবে এটি মোকাবেলা করতে হবে (এবং আমি আশা করছি যে "আরও বেশি র‌্যাম, সার্ভার এবং প্রসেসর যুক্ত করুন" বা "আপনার ডেটা কেন্দ্রগুলি ক্রমাগত প্রসারিত করুন" কেবল উত্তরগুলি উপলভ্য নয়)।

উত্তর:


6

মনে হচ্ছে আপনি ক্লাস্টারিংয়ের জন্য অনলাইন অ্যালগরিদম সন্ধান করছেন।

আমি গুগল স্কলারে "অনলাইন ক্লাস্টারিং" অনুসন্ধান করার পরামর্শ দিই। সম্ভবত নিম্নলিখিত লিঙ্কগুলি কার্যকর প্রমাণিত হবে (কমপক্ষে একটি প্রাথমিক পয়েন্ট হিসাবে)।


9

স্ট্রিম ক্লাস্টারিংয়ের জন্য পর্যাপ্ত পরিমাণে কাজ রয়েছে (যা অনলাইন পদ্ধতির চেয়ে কিছুটা আলাদা তবে তবে আপনি যা চান তা মূলত)। গুহ এট আল এর উপরোক্ত রেফারেন্সটি খুব ভাল, এবং কী ধরণের কৌশল কাজ করে এবং অতীতে কোন পদ্ধতি ব্যবহার করা হয়েছে (উভয় তাত্ত্বিক এবং যথাযথ) এ সম্পর্কে আরও সাধারণ দৃষ্টিকোণের জন্য, আপনি আমার জরিপের দিকে নজর দিতে চাইতে পারেন স্রোতে ক্লাস্টারিংয়ের উপর



4

আমি উপরে সুরেশের জরিপটি পছন্দ করি এবং স্ট্রিম ক্লাস্টারিংয়ের বিভিন্ন পদ্ধতির সংক্ষিপ্তসার জানাই। আপনি এর জন্য জিজ্ঞাসা করেননি, তবে এটি কিছু ক্ষেত্রে সম্ভব, সমস্যাটি হ'ল বিতরণ করা সার্ভারগুলি দ্বারা অবিচ্ছিন্ন ডেটা দেখা যায়, একজনকে কেন্দ্রে একটি ক্লাস্টারিং বজায় রাখতে হয়, এবং প্রচুর পরিমাণে ডেটা স্থানান্তর করতে হয় না। এখানে দেখুন ।


স্বাগতম, মুঠু!
সুরেশ ভেঙ্কট
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.