সাদৃশ্য সেট করুন - চতুর্ভুজ জটিলতা ছাড়াই জ্যাকার্ড সূচক গণনা করুন


14

আমার কাছে এন সেটগুলির একটি গ্রুপ রয়েছে যার জন্য আমার এক ধরণের "স্বতন্ত্রতা" বা "মিল" মান গণনা করতে হবে। আমি জ্যাকার্ড সূচকে একটি উপযুক্ত মেট্রিক হিসাবে স্থির হয়েছি । দুর্ভাগ্যক্রমে, জ্যাকার্ড সূচকটি একবারে কেবল দুটি সেটে পরিচালিত হয়। সমস্ত সেটগুলির মধ্যে সাদৃশ্য গণনা করতে , এটি এন 2 জ্যাকার্ড গণনার ক্রমের প্রয়োজন হবে ।nn2

n

দুটি প্রশ্ন:

  1. n2
  2. উপরের পরামর্শের চেয়ে সেটগুলির একটি গ্রুপ জুড়ে সেট সাদৃশ্য / স্বতন্ত্রতা গণনার আরও ভাল উপায় কি?

"অভ্যন্তরীণ মিল" বলতে আপনার অর্থ কী আপনি প্রথমে পরিষ্কার করতে পারেন?
সুরেশ

অন্য কথায়, গ্রুপের সমস্ত জ্যাকার্ড সূচকের গড় (বা কমপক্ষে গড়ের যথেষ্ট পরিমাণের সঠিক পরিমাণ)

5
যদি আপনি উত্তরটি আনুমানিক করতে ইচ্ছুক হন, তবে আপনি জ্যাকার্ডের দূরত্ব আনুমানিক হিসাব করতে ন্যূনতম-বুদ্ধিমান হ্যাশিং ব্যবহার করতে পারেন এবং তারপরে পছন্দসই গড় গণনা করতে ফলাফলের উপস্থাপনাটি ব্যবহার করতে পারেন।
সুরেশ

6
আপনি "যথেষ্ট পরিমাণে সঠিক" বলতে কী বোঝেন তা আমি জানি না, তবে অনেক কিছুর গড় অনুমান করার এক উপায় হ'ল এলোমেলোভাবে এগুলির কয়েকটি (এই ক্ষেত্রে কয়েকটি জোড়া সেটগুলির জ্যাকার্ড সূচকগুলি) গণনা করা এবং তাদের গড় গণনা করা। তারপরে আপনি চেরনোফ বাউন্ড ব্যবহার করতে পারেন সম্ভাবনাটির উপরের বাউন্ডটি পেতে যে এই অনুমানটি সত্যিকারের গড় থেকে দূরে।
Tsuyoshi Ito

উত্তর:


4

একটি বিকল্প হ'ল [1] এর স্বাক্ষর পরিকল্পনা, আকার-ভিত্তিক ফিল্টারিং : একটি স্কিম যা আকারের তথ্য ব্যবহার করে সেট জোড়গুলির সংখ্যা হ্রাস করার জন্য যা বিবেচনা করা দরকার use

তারা একটি ওজনযুক্ত ফর্ম পরীক্ষাও; যেখানে ওজনগুলি আইডিএফ-ভিত্তিক।

[1] আরসু, অরবিন্দ, ভেঙ্কটেশ গন্তী, এবং রাঘব কৌশিক। "দক্ষ নির্ভুল সেট-মিলের সাথে যোগ দেয়।" খুব বড় ডেটা বেসগুলিতে 32 তম আন্তর্জাতিক সম্মেলনের কার্যক্রম, 918-929। ভিএলডিবি '06। ভিএলডিবি এন্ডোমেন্ট, 2006


সেই লিঙ্কটি মারা গেছে বলে মনে হচ্ছে। এটি vldb.org/conf/2006/p918-arasu.pdf এ আপডেট করার বিষয়ে বিবেচনা করুন ।
j_random_hacker

0

আরেকটি বিকল্প হ'ল স্থানীয় সংবেদনশীলতা হ্যাশ উইকি লিঙ্কটি নিয়োগ করা । আমি দেখেছি এটি উ ও জৌ সম্প্রদায়ের সাথে মিল খুঁজে পেয়েছে ( স্থানীয় সংবেদনশীল হ্যাশিং ব্যবহার করে সামাজিক ট্যাগিং সিস্টেমগুলির জন্য একটি বর্ধিত সম্প্রদায় সনাক্তকরণ পদ্ধতি , নিউরাল নেটওয়ার্ক 58: 14-28; এসিএম ডিএল ) যা মূলত পূর্ণসংখ্যা বা এর মধ্যে মিল খুঁজে বের করে স্ট্রিং সেট।


1
লিঙ্কগুলির বিষয়বস্তু সংক্ষিপ্ত বিবরণ করুন, এবং কাগজ উদ্ধৃত করুন। লিঙ্কগুলি বাসি হয়ে গেলে, বর্তমান উত্তরটি অকেজো হয়ে যায়।
ভনব্র্যান্ড
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.