তাই লাইভ, ক্রমাগত স্ট্রিমিং ডেটার সাথে ক্লাস্টারিংয়ের ক্ষেত্রে আমার একটি সমস্যা রয়েছে। যেহেতু আমার একটি ক্রমবর্ধমান ডেটা সেট রয়েছে আমি দক্ষ এবং কার্যকর ক্লাস্টারিং চালানোর সর্বোত্তম উপায় কোনটি তা নিশ্চিত নই। আমি সহ কয়েকটি সম্ভাব্য সমাধান নিয়ে এসেছি:
কতটা ডেটা পয়েন্টকে মঞ্জুরি দিতে হবে তার সীমা নির্ধারণ করা, সুতরাং যখনই সীমাটি পৌঁছে যায় তখন অন্য পয়েন্টটিতে প্রাচীনতম পয়েন্টটি আসে। মূলত, এটি পরামর্শ দেবে যে পুরানো ডেটা আমাদের ফেলে দেওয়ার মাধ্যমে আমাদের কী হারাচ্ছে সে যত্ন নেওয়ার পক্ষে আমাদের আর যথেষ্ট প্রাসঙ্গিক নয়।
ভাল ক্লাস্টারিং করার জন্য পর্যাপ্ত ডেটা উপস্থিত হয়ে গেলে, এই "সেটআপ "টিকে বিবেচনা করুন এবং নতুন পয়েন্টগুলি আসার পরিবর্তে সমস্ত ডেটা পুনরায় ক্লাস্টারিংয়ের পরিবর্তে কোন ক্লাস্টারের কেন্দ্রটি নতুন পয়েন্টটি সবচেয়ে নিকটবর্তী এবং এটিতে যুক্ত করে তা নির্ধারণ করুন। এখানে সুবিধা হ'ল আপনি প্রতিটি নতুন পয়েন্টে পুনরায় ক্লাস্টার না এড়াতে পারবেন এবং এই ক্লাস্টারটিকে "যথেষ্ট যথেষ্ট" বিবেচনা করে আপনাকে অন্য সমস্ত পয়েন্টগুলি কেবল ক্লাস্টার সেন্টারগুলি সংরক্ষণ করতে হবে না। ক্ষতিটি হ'ল প্রথম থেকে সমস্ত ডেটা পয়েন্ট সহ অ্যালগরিদম পুনরায় চালানো আরও সঠিক হতে পারে।
যদিও সেগুলি আমি মস্তিস্ক-ঝড়ো কিছু সম্ভাব্য সমাধান, তবে আমি জানতে চাই যে এই সমস্যার মুখোমুখি হওয়ার জন্য আরও ভাল কোনও পরিচিত কৌশল রয়েছে কিনা। আমি গুগলের মতো সাইটগুলিকে কোনওভাবে এটি মোকাবেলা করতে হবে (এবং আমি আশা করছি যে "আরও বেশি র্যাম, সার্ভার এবং প্রসেসর যুক্ত করুন" বা "আপনার ডেটা কেন্দ্রগুলি ক্রমাগত প্রসারিত করুন" কেবল উত্তরগুলি উপলভ্য নয়)।