ধরুন আমার কাছে পাঁচটি সেট রয়েছে আমি ক্লাস্টার করতে চাই। আমি বুঝতে পারি যে এখানে বর্ণিত সিমহ্যাশিং কৌশল:
https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/
তিন ক্লাস্টার উত্পাদ পারেনি ( {A}
, {B,C,D}
এবং {E}
), উদাহরণস্বরূপ, যদি তার ফলাফল ছিল:
A -> h01
B -> h02
C -> h02
D -> h02
E -> h03
একইভাবে, এমএমডিএস বইয়ের ৩ য় অধ্যায়ে বর্ণিত মিনহ্যাশিং কৌশল:
http://infolab.stanford.edu/~ullman/mmds/ch3.pdf
ফলাফলগুলি যদি একই হয় তবে একই তিনটি গুচ্ছও উত্পাদন করতে পারে:
A -> h01 - h02 - h03
B -> h04 - h05 - h06
|
C -> h04 - h07 - h08
|
D -> h09 - h10 - h08
E -> h11 - h12 - h13
(প্রতিটি সেট তিনটি "ব্যান্ড" সমন্বিত একটি এমএইচ স্বাক্ষরের সাথে মিলে যায়, এবং যদি কমপক্ষে তাদের স্বাক্ষর ব্যান্ডগুলির কোনও একটি মিলে যায় তবে দুটি সেটকে গ্রুপ করা হয় More আরও বেশি ব্যান্ডের অর্থ আরও মিলের সম্ভাবনা।
তবে এগুলির সাথে আমার বেশ কয়েকটি প্রশ্ন রয়েছে:
(1) এসএইচকে এমএইচ এর একক ব্যান্ড সংস্করণ হিসাবে বোঝা যায় ?
(২) এমএসএইচটি কি ক্লাস্টারগুলি তৈরির জন্য ইউনিয়ন-ফাইন্ডের মতো কোনও ডেটা স্ট্রাকচার ব্যবহারের কথা বোঝায়?
(৩) আমি কি এই ভেবে সঠিকভাবে বলছি যে উভয় কৌশলতেই গুচ্ছগুলি আসলে "প্রাক-ক্লাস্টার", এই অর্থে যে তারা কেবল "প্রার্থী জুটির" সেট?
()) যদি (true) সত্য হয় তবে এর দ্বারা কি বোঝা যায় যে আমি এখনও প্রতিটি "প্রাক-ক্লাস্টারের" ভিতরে একটি অনুসন্ধান করতে হবে, তাদের আরও "প্রকৃত" গুচ্ছগুলিতে ভাগ করতে? (যদি আমার অনেক ছোট এবং মোটামুটি সুষম প্রাক-ক্লাস্টার থাকে তবে তা যুক্তিসঙ্গত হতে পারে)