আমি 10-মাত্রিক পয়েন্টের সেটটিতে কে-মানে ক্লাস্টারিং করতে চাইছি। ধরা: 10 ^ 10 পয়েন্ট আছে ।
আমি বৃহত্তম ক্লাস্টারগুলির কেন্দ্র এবং আকারের সন্ধান করছি (আসুন 10 থেকে 100 টি ক্লাস্টার বলি); প্রতিটি পয়েন্টটি কী ক্লাস্টারে শেষ হবে তা নিয়ে আমি মাথা ঘামাই না k আমি কেবল একটি অনুরূপ প্রভাব অনুসন্ধান করছি, যে কোনও আনুমানিক কে-মানে বা সম্পর্কিত অ্যালগরিদম দুর্দান্ত হবে (মিনিবিচ-এসজিডি মানে, ...)। জিএমএম যেহেতু এক অর্থে কে-মানে হিসাবে একই সমস্যা তাই একই আকারের ডেটাতে জিএমএম করাও আকর্ষণীয়।
এই স্কেলে, ডেটা সাবমলিং করার ফলে ফলাফলটি সম্ভবত উল্লেখযোগ্যভাবে পরিবর্তন হয় না: তথ্যের 1/10000 তম নমুনা ব্যবহার করে একই শীর্ষ 10 টি ক্লাস্টার সন্ধানের প্রতিক্রিয়াগুলি খুব ভাল। তবে তারপরেও, এটি একটি 10 ^ 6 পয়েন্ট সমস্যা যা ট্র্যাকটেবলের প্রান্তে / বাইরে।