মিমহ্যাশিং বনাম সিমহ্যাশিং

ধরুন আমার কাছে পাঁচটি সেট রয়েছে আমি ক্লাস্টার করতে চাই। আমি বুঝতে পারি যে এখানে বর্ণিত সিমহ্যাশিং কৌশল:

https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/

তিন ক্লাস্টার উত্পাদ পারেনি ( {A}, {B,C,D}এবং {E}), উদাহরণস্বরূপ, যদি তার ফলাফল ছিল:

A -> h01
B -> h02
C -> h02
D -> h02
E -> h03

একইভাবে, এমএমডিএস বইয়ের ৩ য় অধ্যায়ে বর্ণিত মিনহ্যাশিং কৌশল:

http://infolab.stanford.edu/~ullman/mmds/ch3.pdf

ফলাফলগুলি যদি একই হয় তবে একই তিনটি গুচ্ছও উত্পাদন করতে পারে:

A -> h01 - h02 - h03

B -> h04 - h05 - h06
      |
C -> h04 - h07 - h08
                  |
D -> h09 - h10 - h08

E -> h11 - h12 - h13

(প্রতিটি সেট তিনটি "ব্যান্ড" সমন্বিত একটি এমএইচ স্বাক্ষরের সাথে মিলে যায়, এবং যদি কমপক্ষে তাদের স্বাক্ষর ব্যান্ডগুলির কোনও একটি মিলে যায় তবে দুটি সেটকে গ্রুপ করা হয় More আরও বেশি ব্যান্ডের অর্থ আরও মিলের সম্ভাবনা।

তবে এগুলির সাথে আমার বেশ কয়েকটি প্রশ্ন রয়েছে:

(1) এসএইচকে এমএইচ এর একক ব্যান্ড সংস্করণ হিসাবে বোঝা যায় ?

(২) এমএসএইচটি কি ক্লাস্টারগুলি তৈরির জন্য ইউনিয়ন-ফাইন্ডের মতো কোনও ডেটা স্ট্রাকচার ব্যবহারের কথা বোঝায়?

(৩) আমি কি এই ভেবে সঠিকভাবে বলছি যে উভয় কৌশলতেই গুচ্ছগুলি আসলে "প্রাক-ক্লাস্টার", এই অর্থে যে তারা কেবল "প্রার্থী জুটির" সেট?

()) যদি (true) সত্য হয় তবে এর দ্বারা কি বোঝা যায় যে আমি এখনও প্রতিটি "প্রাক-ক্লাস্টারের" ভিতরে একটি অনুসন্ধান করতে হবে, তাদের আরও "প্রকৃত" গুচ্ছগুলিতে ভাগ করতে? (যদি আমার অনেক ছোট এবং মোটামুটি সুষম প্রাক-ক্লাস্টার থাকে তবে তা যুক্তিসঙ্গত হতে পারে) $O(n^2)$

clustering similarity

— cjauvin
সূত্র

মিনহ্যাশ এবং সিমহ্যাশ উভয়েরই উপরে স্থানীয়ভাবে সংবেদনশীল হ্যাশিংয়ের অন্তর্ভুক্ত। তথ্যসূত্র: https://en.wikedia.org/wiki/Locality-sensitive_hashing

উভয়ের মধ্যে প্রধান পার্থক্যটি যেভাবে সংঘর্ষটি পরিচালনা করা হয়,

সিমহ্যাশ, কোসাইন সাদৃশ্য ব্যবহার করে
মিনহ্যাশ, জ্যাকার্ড সূচক ব্যবহার করে।

আপনার প্রশ্নের উত্তর:

না। তারা মিলকে বৈধ করার জন্য বিভিন্ন সংঘর্ষের হ্যান্ডলিং কৌশল ব্যবহার করে। এছাড়াও মিন হ্যাশের জন্য একক হ্যাশ ফাংশনে একটি বৈকল্পিক রয়েছে তবে এটি ভিন্নভাবে কাজ করে। আরও তথ্যের জন্য, নিম্নলিখিত রেফারেন্সটি দেখুন, https://en.wikedia.org/wiki/MinHash (একটি একক হ্যাশ ফাংশন সহ ভেরিয়েন্ট)
হ্যাঁ, https://github.com/chrisjmccormick/MinHash/blob/master/runMinHashExample.py
আমি মনে করি ক্লাস্টারিংয়ের সময় বাইনারি অনুসন্ধানের পরিবর্তিত ফর্মের সাথে জটিলতা হ্রাস করা যেতে পারে । $O(n \log n)$

— Pramit
সূত্র

সিমহ্যাশ এবং মিনহ্যাশ এই মিলগুলির কার্যকারিতা ব্যবহার করে না। আমি মনে করি এটি বলার আরও ভাল উপায় এটি হ'ল তারা হজম তৈরি করে যা এই কার্যগুলি প্রায় অনুমান করে।

— আলেক্সি গ্রিগোরভ

পছন্দ করুন আমি minHash 'computeSistanceityFromSignatures' @ লিঙ্কের জন্য নিম্নলিখিত প্রয়োগের দিকে নজর রেখেছি । এটি একটি | হাশেডআরে (এ) এবং হাশেদআরারি (বি) | / (মোট প্রবেশের সংখ্যা) ব্যবহার করে

— প্রমিত