L2- নরমালাইজড ইউক্লিডিয়ান দূরত্বের সাথে কোসাইন মিল কি মিল?


27

আসল অর্থ, এটি কোনও ভেক্টর ইউ এবং ভেক্টর ভি এর সেট এর মধ্যে সাদৃশ্য র‌্যাঙ্কিংয়ের জন্য অভিন্ন ফলাফল আনবে ।

আমার কাছে একটি ভেক্টর স্পেস মডেল রয়েছে যার পরামিতি হিসাবে দূরত্ব পরিমাপ (ইউক্লিডিয়ান দূরত্ব, কোসাইন অনুরূপতা) এবং নরমালাইজেশন কৌশল (কোনওটি নয়, এল 1, এল 2) রয়েছে। আমার বোধগম্যতা থেকে, সেটিংসের ফলাফলগুলি [কোসাইন, কোনওটিই] একরকম বা কমপক্ষে সত্যই সত্যই [ইউক্যালিডিয়ান, এল 2] এর মতো হওয়া উচিত, তবে সেগুলি হয় না।

সিস্টেমটি এখনও বগি হওয়ার আসলে একটি খুব ভাল সম্ভাবনা রয়েছে - বা ভেক্টর সম্পর্কে আমার কি কিছু জটিল সমস্যা আছে?

সম্পাদনা: আমি উল্লেখ করতে ভুলে গেছি যে ভেক্টরগুলি কোনও কর্পাসের নথি থেকে শব্দ গণনার উপর ভিত্তি করে। একটি ক্যোয়ারী নথি দেওয়া (যা আমি একটি শব্দ গণনা ভেক্টরেও রূপান্তর করি), আমি আমার কর্পাস থেকে দস্তাবেজটি সন্ধান করতে চাই যা এর সাথে সাদৃশ্যপূর্ণ।

কেবল তাদের ইউক্যালিডিয়ান দূরত্ব গণনা করা একটি সোজা ফরোয়ার্ড পরিমাপ, তবে আমি যে ধরণের টাস্কে কাজ করি তাতে কোসাইন মিলকে প্রায়শই সাদৃশ্য সূচক হিসাবে অগ্রাধিকার দেওয়া হয়, কারণ কেবল দৈর্ঘ্যে পৃথক পৃথক ভেক্টরগুলি এখনও সমান হিসাবে বিবেচিত হয়। সবচেয়ে ছোট দূরত্ব / কোসাইন মিলের সাথে দস্তাবেজটি সর্বাধিক সাদৃশ্য হিসাবে বিবেচিত হয়।


আপনার "ভেক্টর স্পেস মডেল" এই দূরত্বগুলির সাথে কী করে তা নির্ভর করে all আপনি কি মডেলটি সম্পর্কে আরও সুনির্দিষ্ট হতে পারেন?
whuber

দুঃখিত, কখনও কখনও আমার নিজের মাথা থেকে বেরিয়ে আসা শক্ত। আমি একটি স্পেসিফিকেশন যুক্ত করেছি।
আর্ন

আপনি এখনও কোনও মডেল বর্ণনা করেন না। প্রকৃতপক্ষে, "ধরণের কাজ (আপনি) যে ধরণের কাজ করতে চান" সম্পর্কে আপনি যে একমাত্র ক্লু রেখে গেছেন তা হ'ল এনপিএল ট্যাগ - তবে এটি এতটা বিস্তৃত যে এটি খুব বেশি উপকার করে না। আমি কী আশা করছি আপনি সরবরাহ করতে পারবেন, যাতে লোকেরা প্রশ্নটি বুঝতে পারে এবং ভাল উত্তর সরবরাহ করতে পারে, আপনি কীভাবে আপনার দূরত্বের পরিমাপটি সঠিকভাবে ব্যবহার করছেন এবং কীভাবে "ফলাফল" হতে পারে তা নির্ধারণ করে তা সঠিকভাবে নির্ধারণ করতে যথেষ্ট তথ্য রয়েছে।
whuber

stats.stackexchange.com/a/36158/3277 । যে কোনও কৌণিক ওরফে এসএসসিপি-টাইপের সাদৃশ্যটি তার সম্পর্কিত ইউক্লিডিয়ান দূরত্বে রূপান্তরিত ble
ttnphns

উত্তর:


31

জন্য -normalized ভেক্টর , আমরা আছে স্কোয়ারড ইউক্লিডিয় দূরত্বটি কোসাইন দূরত্বের সমানুপাতিক , অর্থাৎ, আপনি যদি আপনার ডেটাটিকে সাধারণীকরণ করেন এবং আপনার অ্যালগোরিদম দূরত্বগুলি স্কেলিংয়ের পক্ষে অবিস্মরণীয় হয়ে থাকে তবে আপনি স্কোয়ারিংয়ের কারণে পার্থক্য আশা করতে পারেন।2x,y

||x||2=||y||2=1,
||xy||22=(xy)(xy)=xx2xy+yy=22xy=22cos(x,y)

এটি কি র‌্যাঙ্কিংয়ে প্রভাব ফেলবে? অর্থ, যদি আমি বেশিরভাগ ভেক্টরকে 'ভি' তে ভি 'এর কোসাইন দূরত্ব দ্বারা ভেক্টর' ইউ 'অনুসারে বাছাই করি তবে আমি তাদের জন্য একটি নির্দিষ্ট আদেশ পেয়েছি। L2 নরমালিত ইউক্যালিডিয়ান দূরত্বের সাথে একই ভেক্টরকে কি একই ক্রম উত্পাদন করবে?
আর্ন

2
আইরিচ, যেহেতু স্কোয়ারিং মনোটিক ট্রান্সফর্মেশন (ধনাত্মক সংখ্যার জন্য), এটি দৈর্ঘ্য অনুসারে বাছাই করা ক্রমের ক্রম পরিবর্তন করতে পারে না।
আর্ন

5
আপনি ঠিক বলেছেন, যদি আপনি যা কিছু করেন তারা ভেক্টরকে তাদের দূরত্বের সাথে to হিসাবে স্থান করে দেন , কোসাইন দূরত্ব ব্যবহার করে ইউক্লিডিয়ান দূরত্বের (একইরকম ভেক্টরগুলির জন্য) একই ফলাফল দেওয়া উচিত। u
লুকাস

আপনাকে ধন্যবাদ, আপনি কি এই সংযোগের জন্য একটি উপযুক্ত উত্স পেয়েছেন?
আর্ন

1
ঠিক আছে, আমি অনুমান করি যে 'লিনিয়ার আলেব্রা আমি' তখন যথেষ্ট হবে;) অন্তর্দৃষ্টি জন্য আবার ধন্যবাদ!
আর্ন

5

স্ট্যান্ডার্ড কোসাইন মিলকে ইউক্লিডিয়ান স্পেসে নীচে সংজ্ঞায়িত করা হয়েছে, কলাম ভেক্টর এবং : যদি আপনার ভেক্টরগুলি ইউনিট আদর্শের (l2 তে) স্বাভাবিক করা হয় তবে এটি স্ট্যান্ডার্ড অভ্যন্তরীণ পণ্যটিকে হ্রাস করে। পাঠ্য মাইনিংয়ে এই ধরণের সাধারণীকরণটি শোনা যায় না, তবে আমি সেই মানটি বিবেচনা করব না।uv

cos(u,v)=u,vuv=uTvuv[1,1].
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.