জ্যাকার্ড মিল এবং কোসিন মিলের জন্য অ্যাপ্লিকেশন এবং পার্থক্য


27

আইটেমের মিলের তুলনা করার সময় জ্যাকার্ডের মিল এবং কোসাইন মিল দুটি অত্যন্ত সাধারণ পরিমাপ। তবে কোন পরিস্থিতিতে কোনটির চেয়ে অন্যের চেয়ে ভাল হওয়া উচিত সে বিষয়ে আমি খুব বেশি পরিষ্কার নই।

কেউ কি এই দুটি পরিমাপের পার্থক্য (সংজ্ঞা বা নীতিতে পার্থক্য, সংজ্ঞা বা গণনা নয়) এবং তাদের পছন্দসই প্রয়োগগুলি পরিষ্কার করতে সহায়তা করতে পারেন?

উত্তর:


19

জ্যাকার্ড সাদৃশ্য by দ্বারা দেওয়া হয়েছে sij=pp+q+r

কোথায়,

উভয় অবজেক্টের জন্য প = # বৈশিষ্ট্যগুলির ধনাত্মক
i
= এর জন্য 0 এবং জে আর এর জন্য 0 টির জন্য 1 = জেয়ের জন্য = 1 এবং জেয়ের জন্য 1 এর গুণাবলী

যেখানে কোসাইন মিল = = যেখানে A এবং B অবজেক্ট ভেক্টর।ABAB

সহজ কথায় বলতে গেলে, কোসাইন মিলের ক্ষেত্রে সাধারণ বৈশিষ্ট্যের সংখ্যাটি সম্ভাব্য বৈশিষ্ট্যের মোট সংখ্যা দ্বারা বিভক্ত হয়। যদিও জ্যাকার্ড সাদৃশ্যটিতে সাধারণ বৈশিষ্ট্যের সংখ্যাটি দুটি অবজেক্টের মধ্যে কমপক্ষে একটিতে উপস্থিত এমন গুণাবলীর সংখ্যা দ্বারা ভাগ করা হয়।

এবং মিলের অন্যান্য অনেকগুলি পদক্ষেপ রয়েছে যার প্রত্যেকটির নিজস্ব স্বতন্ত্রতা রয়েছে। কোনটি ব্যবহার করবেন তা সিদ্ধান্ত নেওয়ার সময় কয়েকটি প্রতিনিধি ক্ষেত্রে চিন্তা করার চেষ্টা করুন এবং আপনার লক্ষ্য অর্জনের জন্য কোন সূচকটি সবচেয়ে ব্যবহারযোগ্য ফলাফল দেবে তা নিয়ে কাজ করুন।

কোসিন সূচকটি চৌর্যবৃত্তি সনাক্তকরণের জন্য ব্যবহৃত হতে পারে তবে ইন্টারনেটে মিরর সাইটগুলি সনাক্ত করতে ভাল সূচক হবে না। যেখানে জ্যাকার্ড সূচকটি মিরর সাইটগুলি সনাক্ত করার জন্য একটি ভাল সূচক হবে তবে অনুলিপি পাস্তা চৌর্যবৃত্তিকে ধরার ক্ষেত্রে এত বড় নয় (বৃহত্তর নথির মধ্যে)।

এই সূচকগুলি প্রয়োগ করার সময়, আপনাকে অবশ্যই আপনার সমস্যা সম্পর্কে ভালভাবে চিন্তা করতে হবে এবং কীভাবে মিলকে সংজ্ঞায়িত করতে হবে তা নির্ধারণ করতে হবে। একবার আপনার মনে একটি সংজ্ঞা পরে, আপনি একটি সূচক জন্য কেনাকাটা সম্পর্কে যেতে পারেন।

সম্পাদনা: এর আগে আমার এই উত্তরের একটি উদাহরণ অন্তর্ভুক্ত ছিল যা শেষ পর্যন্ত ভুল ছিল। বেশ কয়েকজন ব্যবহারকারী যারা এই বিষয়টি নির্দেশ করেছেন তাদের ধন্যবাদ, আমি ভুল উদাহরণটি মুছে ফেলেছি।


2
আপনি কি দয়া করে ব্যাখ্যা করতে পারেন যে চৌর্যবৃত্তি সনাক্তকরণের জন্য কোসাইন সূচক কেন ভাল এবং মিরর সাইটগুলি সনাক্ত করার জন্য ভাল নয়?
dharm0us

আমার মনে হচ্ছে এই উত্তরের কিছু অংশ অ-স্বজ্ঞাত। "উদাহরণস্বরূপ, যদি আপনার সম্ভাব্য 100 টি বৈশিষ্ট্যের মধ্যে 10 টি বৈশিষ্ট্যযুক্ত দুটি জিনিস থাকে তবে আরও তাদের 10 টি গুণাবলীর মিল রয়েছে this এক্ষেত্রে জ্যাকার্ড সূচকটি 1 হবে এবং কোসাইন সূচকটি 0.001 হবে" " ভালো কিছু করার জন্য অনুবাদ হবে cosine_similarity(10*[1]+90*[0], 10*[1]+90*[0])। অবশ্যই, কোসাইন মিলও এখানে 1 হবে, উভয় পরিমাপ উভয় ভেক্টরগুলিতে শূন্য যে উপাদানগুলিকে উপেক্ষা করে।
fsociversity

1
এই উত্তরটি কোসাইন মিলের বিষয়ে ভুল, দয়া করে ব্যবহারকারীর উত্তরটি বিবেচনা করুন 18596
রবিন

"সহজ কথায় বলতে গেলে, কোসাইন মিলের ক্ষেত্রে সাধারণ বৈশিষ্ট্যের সংখ্যাটি সম্ভাব্য বৈশিষ্ট্যের মোট সংখ্যার দ্বারা ভাগ করা হয়" -> এটি সম্পূর্ণ ভুল incor স্বরলিপিটি ভেক্টর ডট পণ্য এবং মানকে সংজ্ঞায়িত করে।
শন ওভেন

23

আমি মন্তব্য করতে পারছি না কারণ আমার কোনও স্ট্যাটাস নেই, তবে পরীক্ষিত উত্তরটি ভুল, পাশাপাশি প্রশ্নের উত্তর না দেওয়ার জন্য। ∥A∥ এর অর্থ A এর এল 2 আদর্শ, অর্থাৎ ইউক্লিডিয়ান স্পেসে ভেক্টরের দৈর্ঘ্য, ভেক্টরের A. এর মাত্রিকতা নয় অন্য কথায়, আপনি 0 বিট গণনা করেন না, আপনি 1 টি বিট যোগ করেন এবং গ্রহণ করেন বর্গমূল. সুতরাং 100-দৈর্ঘ্যের ভেক্টরের 10 টি বৈশিষ্ট্যের উদাহরণটিও ভুল wrong দুঃখিত কখন আপনার কোন মেট্রিক ব্যবহার করা উচিত সে সম্পর্কে আমার কাছে সত্যিকারের উত্তর নেই তবে আমি ভুল উত্তরটি অপরিবর্তিত রাখতে দিতে পারি না।


2
আপনি পুরোপুরি ঠিক বলেছেন। এটি লজ্জাজনক যে এত লোক একটি ভুল উত্তর দিয়ে যাচ্ছে। উইকিপিডিয়া নিবন্ধে বর্ণিত কোসিন মিল, 0 বিটকে বিবেচনা করে না। en.wikipedia.org/wiki/Cosine_similarity
neelshiv

11

জ্যাকার্ডের সাদৃশ্যটি দুটি ধরণের বাইনারি ক্ষেত্রে ব্যবহৃত হয়:

  1. প্রতিসম, যেখানে 1 এবং 0 এর সমান গুরুত্ব রয়েছে (লিঙ্গ, বৈবাহিক অবস্থা, ইত্যাদি)
  2. অসমমিত, যেখানে 1 এবং 0 এর বিভিন্ন স্তরের গুরুত্ব রয়েছে (একটি রোগের জন্য ইতিবাচক পরীক্ষা করা)

ডকুমেন্ট বা ইমেলের তুলনা করার জন্য পাঠ্য খনির প্রসঙ্গে সাধারণত কোসিনের মিল দেখা যায়। যদি দুটি ডকুমেন্ট শব্দ ভেক্টরগুলির মধ্যে কোসাইন মিল বেশি হয়, তবে উভয় নথিতে শব্দের সংখ্যা বেশি রয়েছে

আর একটি পার্থক্য হ'ল 1 - জ্যাকার্ড সহগ একটি ভিন্নতা বা দূরত্ব পরিমাপ হিসাবে ব্যবহার করা যেতে পারে, যেখানে কোসাইন মিলের মতো কোনও গঠন বাধা নেই। অনুরূপ একটি জিনিস টোনিমোটো দূরত্ব, যা করশ্রমে ব্যবহৃত হয়।


কেন কেবল জ্যাকার্ডকে ভিন্নতা পরিমাপ হিসাবে ব্যবহার করা যেতে পারে? আমার বোঝার যে cosineএকটি হল বিভিন্ন কিন্তু অবৈধ পরিমাপ।
জাভাদবা

3

উপরে উল্লিখিত হিসাবে, পরীক্ষিত উত্তরটি ভুল।

কোথায় এবং হয় বাইনারি ভেক্টর, তারা মান 1. সঙ্গে সূচকের সেট হিসাবে ব্যাখ্যা করা যেতে পারে আসুন তাই সেট বিবেচনা এবং ।abAB

জ্যাকার্ডের সাদৃশ্যটি তখন

J(A,B)=|AB||AB|=|AB||AB|+|AB|+|BA|

কোসিনের সাদৃশ্যটি তখন

C(A,B)=|AB||A||B|=|AB|(|AB|+|AB|)(|AB|+|BA|)

কিছু তুলনা:

  • এখানকার সংখ্যাগুলি একই।
  • ডোনমিনেটর আকারের সাথে অঙ্কগুলিতে বেড়ে যায় এবংজ্যাকার্ডে, তবে জ্যামিতিকভাবে কোসিনে।|A||B|
  • কোসাইনের ডিনোমিনেটর কেবলমাত্র তে থাকা আইটেমের সংখ্যার উপর নির্ভর করে আইটেমের সংখ্যা । এটি তাদের ছেদগুলির উপর নির্ভর করে না।|A||B|

বিক্রম ভেঙ্কট যেমন উল্লেখ করেছেন, যেটি বাদ দিয়ে অন্যের তুলনায় একজনকে অন্যের চেয়ে বেশি পছন্দ করা উচিত সে সম্পর্কে আমার এখনও স্পষ্ট ধারণা নেই; - জ্যাকার্ড কোস্টিনের বিপরীতে সত্যিকারের মেট্রিকের সাথে সঙ্গতিপূর্ণ; এবং কোসাইন প্রাকৃতিকভাবে মূল্যবান ভেক্টরগুলিতে প্রসারিত হয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.