আসল অর্থ, এটি কোনও ভেক্টর ইউ এবং ভেক্টর ভি এর সেট এর মধ্যে সাদৃশ্য র্যাঙ্কিংয়ের জন্য অভিন্ন ফলাফল আনবে ।
আমার কাছে একটি ভেক্টর স্পেস মডেল রয়েছে যার পরামিতি হিসাবে দূরত্ব পরিমাপ (ইউক্লিডিয়ান দূরত্ব, কোসাইন অনুরূপতা) এবং নরমালাইজেশন কৌশল (কোনওটি নয়, এল 1, এল 2) রয়েছে। আমার বোধগম্যতা থেকে, সেটিংসের ফলাফলগুলি [কোসাইন, কোনওটিই] একরকম বা কমপক্ষে সত্যই সত্যই [ইউক্যালিডিয়ান, এল 2] এর মতো হওয়া উচিত, তবে সেগুলি হয় না।
সিস্টেমটি এখনও বগি হওয়ার আসলে একটি খুব ভাল সম্ভাবনা রয়েছে - বা ভেক্টর সম্পর্কে আমার কি কিছু জটিল সমস্যা আছে?
সম্পাদনা: আমি উল্লেখ করতে ভুলে গেছি যে ভেক্টরগুলি কোনও কর্পাসের নথি থেকে শব্দ গণনার উপর ভিত্তি করে। একটি ক্যোয়ারী নথি দেওয়া (যা আমি একটি শব্দ গণনা ভেক্টরেও রূপান্তর করি), আমি আমার কর্পাস থেকে দস্তাবেজটি সন্ধান করতে চাই যা এর সাথে সাদৃশ্যপূর্ণ।
কেবল তাদের ইউক্যালিডিয়ান দূরত্ব গণনা করা একটি সোজা ফরোয়ার্ড পরিমাপ, তবে আমি যে ধরণের টাস্কে কাজ করি তাতে কোসাইন মিলকে প্রায়শই সাদৃশ্য সূচক হিসাবে অগ্রাধিকার দেওয়া হয়, কারণ কেবল দৈর্ঘ্যে পৃথক পৃথক ভেক্টরগুলি এখনও সমান হিসাবে বিবেচিত হয়। সবচেয়ে ছোট দূরত্ব / কোসাইন মিলের সাথে দস্তাবেজটি সর্বাধিক সাদৃশ্য হিসাবে বিবেচিত হয়।