আমার কাছে ব্যবহারকারীরা এবং তাদের পছন্দ মতো আইটেমগুলির একটি বিশাল স্পার্স ম্যাট্রিক্স রয়েছে (খুব কম মাত্রার স্পারসিটি সহ 1M ব্যবহারকারী এবং 100K আইটেমের ক্রমে)। আমি যে পদ্ধতিতে আমি এতে কেএনএন অনুসন্ধান করতে পারি তা অন্বেষণ করছি। আমার ডেটাসেটের আকার এবং আমি সম্পাদিত কিছু প্রাথমিক পরীক্ষাগুলি দেওয়া, আমার ধারনা হ'ল যে পদ্ধতিটি আমি ব্যবহার করব তা হয় সমান্তরাল বা বিতরণ করা দরকার। সুতরাং আমি সম্ভাব্য সমাধানের দুটি শ্রেণি বিবেচনা করছি: একটি যা একটি একক মাল্টিকোর মেশিনে (বা যুক্তিসঙ্গত সহজ উপায়ে কার্যকরযোগ্য), অন্যটি স্পার্ক ক্লাস্টারে, অর্থাৎ ম্যাপ্রেডস প্রোগ্রাম হিসাবে। এখানে আমি তিনটি বিস্তৃত ধারণা বিবেচনা করেছি:
- কোজিনের অনুরূপ মেট্রিক ধরে, তার ট্রান্সপোজ দ্বারা সাধারণ ম্যাট্রিক্সের পূর্ণ গুণটি সম্পাদন করুন (বাহ্যিক পণ্যের যোগফল হিসাবে প্রয়োগ করা হয়)
- লোকালটি-সংবেদনশীল হ্যাশিং (এলএসএইচ) ব্যবহার করে
- প্রথমে একটি পিসিএ দিয়ে সমস্যার মাত্রিকতা হ্রাস করা
আমি এই সমস্যাটি মোকাবিলা করার সম্ভাব্য অন্যান্য উপায় সম্পর্কে কোনও চিন্তাভাবনা বা পরামর্শকে প্রশংসা করব।