মিমহ্যাশিং বনাম সিমহ্যাশিং


12

ধরুন আমার কাছে পাঁচটি সেট রয়েছে আমি ক্লাস্টার করতে চাই। আমি বুঝতে পারি যে এখানে বর্ণিত সিমহ্যাশিং কৌশল:

https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/

তিন ক্লাস্টার উত্পাদ পারেনি ( {A}, {B,C,D}এবং {E}), উদাহরণস্বরূপ, যদি তার ফলাফল ছিল:

A -> h01
B -> h02
C -> h02
D -> h02
E -> h03

একইভাবে, এমএমডিএস বইয়ের ৩ য় অধ্যায়ে বর্ণিত মিনহ্যাশিং কৌশল:

http://infolab.stanford.edu/~ullman/mmds/ch3.pdf

ফলাফলগুলি যদি একই হয় তবে একই তিনটি গুচ্ছও উত্পাদন করতে পারে:

A -> h01 - h02 - h03

B -> h04 - h05 - h06
      |
C -> h04 - h07 - h08
                  |
D -> h09 - h10 - h08

E -> h11 - h12 - h13

(প্রতিটি সেট তিনটি "ব্যান্ড" সমন্বিত একটি এমএইচ স্বাক্ষরের সাথে মিলে যায়, এবং যদি কমপক্ষে তাদের স্বাক্ষর ব্যান্ডগুলির কোনও একটি মিলে যায় তবে দুটি সেটকে গ্রুপ করা হয় More আরও বেশি ব্যান্ডের অর্থ আরও মিলের সম্ভাবনা।

তবে এগুলির সাথে আমার বেশ কয়েকটি প্রশ্ন রয়েছে:

(1) এসএইচকে এমএইচ এর একক ব্যান্ড সংস্করণ হিসাবে বোঝা যায় ?

(২) এমএসএইচটি কি ক্লাস্টারগুলি তৈরির জন্য ইউনিয়ন-ফাইন্ডের মতো কোনও ডেটা স্ট্রাকচার ব্যবহারের কথা বোঝায়?

(৩) আমি কি এই ভেবে সঠিকভাবে বলছি যে উভয় কৌশলতেই গুচ্ছগুলি আসলে "প্রাক-ক্লাস্টার", এই অর্থে যে তারা কেবল "প্রার্থী জুটির" সেট?

()) যদি (true) সত্য হয় তবে এর দ্বারা কি বোঝা যায় যে আমি এখনও প্রতিটি "প্রাক-ক্লাস্টারের" ভিতরে একটি অনুসন্ধান করতে হবে, তাদের আরও "প্রকৃত" গুচ্ছগুলিতে ভাগ করতে? (যদি আমার অনেক ছোট এবং মোটামুটি সুষম প্রাক-ক্লাস্টার থাকে তবে তা যুক্তিসঙ্গত হতে পারে)O(n2)

উত্তর:


3

মিনহ্যাশ এবং সিমহ্যাশ উভয়েরই উপরে স্থানীয়ভাবে সংবেদনশীল হ্যাশিংয়ের অন্তর্ভুক্ত। তথ্যসূত্র: https://en.wikedia.org/wiki/Locality-sensitive_hashing

উভয়ের মধ্যে প্রধান পার্থক্যটি যেভাবে সংঘর্ষটি পরিচালনা করা হয়,

  1. সিমহ্যাশ, কোসাইন সাদৃশ্য ব্যবহার করে
  2. মিনহ্যাশ, জ্যাকার্ড সূচক ব্যবহার করে।

আপনার প্রশ্নের উত্তর:

  1. না। তারা মিলকে বৈধ করার জন্য বিভিন্ন সংঘর্ষের হ্যান্ডলিং কৌশল ব্যবহার করে। এছাড়াও মিন হ্যাশের জন্য একক হ্যাশ ফাংশনে একটি বৈকল্পিক রয়েছে তবে এটি ভিন্নভাবে কাজ করে। আরও তথ্যের জন্য, নিম্নলিখিত রেফারেন্সটি দেখুন, https://en.wikedia.org/wiki/MinHash (একটি একক হ্যাশ ফাংশন সহ ভেরিয়েন্ট)
  2. হ্যাঁ, https://github.com/chrisjmccormick/MinHash/blob/master/runMinHashExample.py
  3. আমি মনে করি ক্লাস্টারিংয়ের সময় বাইনারি অনুসন্ধানের পরিবর্তিত ফর্মের সাথে জটিলতা হ্রাস করা যেতে পারে ।O(nlogn)

সিমহ্যাশ এবং মিনহ্যাশ এই মিলগুলির কার্যকারিতা ব্যবহার করে না। আমি মনে করি এটি বলার আরও ভাল উপায় এটি হ'ল তারা হজম তৈরি করে যা এই কার্যগুলি প্রায় অনুমান করে।
আলেক্সি গ্রিগোরভ

পছন্দ করুন আমি minHash 'computeSistanceityFromSignatures' @ লিঙ্কের জন্য নিম্নলিখিত প্রয়োগের দিকে নজর রেখেছি । এটি একটি | হাশেডআরে (এ) এবং হাশেদআরারি (বি) | / (মোট প্রবেশের সংখ্যা) ব্যবহার করে
প্রমিত
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.