নেতিবাচক কোসাইন অনুরূপ ব্যাখ্যা


17

আমার প্রশ্নটি মূর্খ হতে পারে। তাই আমি আগেই ক্ষমা চাইব।

আমি স্ট্যানফোর্ড এনএলপি গ্রুপ ( লিঙ্ক ) দ্বারা প্রাক প্রশিক্ষিত GLOVE মডেলটি ব্যবহার করার চেষ্টা করছিলাম । তবে, আমি লক্ষ্য করেছি যে আমার মিলের ফলাফলগুলি কিছু নেতিবাচক সংখ্যা দেখিয়েছে।

এটি অবিলম্বে আমাকে শব্দ-ভেক্টর ডেটা ফাইলটি দেখার জন্য অনুরোধ করেছিল। স্পষ্টতই, ভেক্টর শব্দের মানগুলিকে নেতিবাচক হতে দেওয়া হয়েছিল। আমি ব্যাখ্যা করেছি কেন আমি নেতিবাচক কোসাইন মিল দেখতে পেলাম।

আমি ফ্রিকোয়েন্সি ভেক্টরগুলির কোসাইন মিলের ধারণার অভ্যস্ত, যার মানগুলি [0, 1] এ আবদ্ধ। আমি একটি সত্যের জন্য জানি যে বিন্দুর পণ্য এবং কোসাইন ফাংশন ভেক্টরের মধ্যবর্তী কোণের উপর নির্ভর করে ইতিবাচক বা নেতিবাচক হতে পারে। তবে আমার এই নেতিবাচক কোসাইন মিলের ব্যাখ্যা এবং ব্যাখ্যা করতে সত্যিই খুব কঠিন সময় কাটছে।

উদাহরণস্বরূপ, আমার কাছে যদি একজোড়া শব্দের সাথে -0.1 এর সাদৃশ্য দেওয়া থাকে তবে সেগুলি কি অন্য জুটির তুলনায় কম মিলছে যার মিলটি 0.05? -0.9 থেকে 0.8 এর মিলের তুলনা সম্পর্কে কীভাবে?

অথবা আমি কেবল থেকে ন্যূনতম কোণ পার্থক্যের নিখুঁত মানটি দেখতে পারি ? স্কোরগুলির সম্পূর্ণ মূল্য?nπ

অনেক অনেক ধন্যবাদ.


1
কোসিন মিলের ট্যাগ বলে: উভয়ের An angular-type similarity coefficient between two vectors. It is like correlation, only without centering the vectors.মধ্যে পার্থক্য কেবলমাত্র পারস্পরিক সম্পর্কের বিচ্যুতিতে (মুহুর্তগুলিতে) - যা ক্রস-গুণিত হয় - যখন কোসাইন বিচ্যুতির মূল 0 থেকে হয় - অর্থাৎ তারা যেমন হয় তেমন মানগুলি ।
ttnphns

2
(অবিরত) ইতিবাচক বা নেতিবাচক সহগ বোঝা উভয় ক্ষেত্রেই একই। নেতিবাচক কোফ এর অর্থ হ'ল একটি ভেক্টরের ইতিবাচক বিচ্যুতি / মানগুলি অন্য নেতিবাচক বিচ্যুতি / মানগুলির সাথে জুড়ে থাকে। এর অর্থ ভেক্টরগুলি "অনুরূপ" কিনা বা বিপরীতে "অত্যন্ত ভিন্ন" আপনার উপর নির্ভর করে ডেটাতে ইতিবাচক এবং নেতিবাচক বিচ্যুতি / মানগুলির অর্থ কী তার উপর নির্ভরশীল।
ttnphns

@ttnphns আপনার মন্তব্যের জন্য আপনাকে অনেক ধন্যবাদ! এটি কোসাইন মিলকে নতুন উপায়ে ভাবতে অনুপ্রাণিত করে। আমার ব্যবহারের ক্ষেত্রে, সম্ভবত আমি এটিকে শেষের ফলাফলগুলির পার্থক্য হিসাবে ভাবতে পারি: ডক এ এবং বি এর পারস্পরিক সম্পর্ক যদি নেতিবাচক হয়, এবং একটি ইউনি-টপিকাল জার্নাল এক্সে ডক এ অন্তর্ভুক্ত থাকে তবে এক্স এর বি হিসাবে অন্তর্ভুক্ত হওয়ার সম্ভাবনা কম থাকে is ভাল, কিছু থেকে সম্ভাব্যতা। এই ব্যাখ্যাটি কি আপনার কাছে বৈধ বলে মনে হচ্ছে?
মাই

আমি বলার সাহস পাচ্ছি না কারণ আমি আপনার ডেটা, এর মানগুলির অর্থ এবং আপনার অধ্যয়ন জানি না।
ttnphns

উত্তর:


2

দুই ভেক্টর যাক এবং , কোণ স্কালে পণ্য এবং ভেক্টর আদর্শ দ্বারা প্রাপ্ত হয়:abθ

cos(θ)=ab||a||||b||

যেহেতু মানটি :cos(θ)[1,1]

  • 1 মানটি শক্তিশালী বিপরীত ভেক্টরগুলিকে নির্দেশ করবে
  • 0 স্বতন্ত্র (অরথোগোনাল) ভেক্টর
  • 1 অনুরূপ (ইতিবাচক সহ-লিনিয়ার) ভেক্টর। মধ্যবর্তী মানগুলি মিলের ডিগ্রি মূল্যায়ন করতে ব্যবহৃত হয়।

উদাহরণ : দুটি ব্যবহারকারী এবং , এবং চলচ্চিত্রের জন্য স্বাদ অনুসারে এই দুই ব্যবহারকারীর মধ্যে সাদৃশ্য দিন:U1U2sim(U1,U2)

  • sim(U1,U2)=1 যদি দুই ব্যবহারকারীর ঠিক একই স্বাদ থাকে (বা যদি )U1=U2
  • sim(U1,U2)=0 যদি আমরা দুটি ব্যবহারকারীর মধ্যে কোনও সম্পর্ক খুঁজে না পাই, উদাহরণস্বরূপ যদি তারা কোনও সাধারণ সিনেমা না দেখে থাকে
  • sim(U1,U2)=1 যদি ব্যবহারকারীরা রুচির বিরোধিতা করে থাকে, উদাহরণস্বরূপ যদি তারা একই চলচ্চিত্রগুলি বিপরীত উপায়ে রেট করে থাকে

0

Absoluteণাত্মক চিহ্নটি যথেচ্ছ নয় বলে পরম মানগুলি ব্যবহার করবেন না। 0 এবং 1 এর মধ্যে একটি কোসাইন মান অর্জন করতে আপনার নিম্নলিখিত কোসাইন ফাংশনটি ব্যবহার করা উচিত:

(আর কোড)

cos.sim <- function(a,b) 
{
  dot_product = sum(a*b)
  anorm = sqrt(sum((a)^2))
  bnorm = sqrt(sum((b)^2))
  minx =-1
  maxx = 1
  return(((dot_product/anorm*bnorm)-minx)/(maxx-minx))
} 

(পাইথন কোড)

def cos_sim(a, b):
    """Takes 2 vectors a, b and returns the cosine similarity according 
to the definition of the dot product"""
    dot_product = np.dot(a, b)
    norm_a = np.linalg.norm(a)
    norm_b = np.linalg.norm(b)
    return dot_product / (norm_a * norm_b)

minx = -1 
maxx = 1

cos_sim(row1, row2)- minx)/(maxx-minx)
```

আপনি কোথায় মিনেক্স এবং ম্যাক্সেক্স সেট করবেন? আপনি গণনা করা দূরত্বের পরিবর্তে ভেক্টরের মাত্রায় এই সর্বনিম্ন সর্বোচ্চটি প্রয়োগ করতে পারেন।
ইমর

0

কোসিনের সাদৃশ্যটি পিয়ারসন পারস্পরিক সম্পর্কের মতো, তবে উপায়গুলি বাদ দিয়ে। সুতরাং আপনি 2 পিয়ারসন পারস্পরিক সম্পর্কের পরম মানেরগুলির তুলনা করার মতো পরম মানগুলি দেখে 2 টি কোসাইন সাদৃশ্যগুলির তুলনামূলক তুলনা করতে পারেন।


0

এটি ঠিক যে ফ্রিকোয়েন্সি ভেক্টরগুলির মধ্যে কোসাইন-মিলটি নেতিবাচক হতে পারে না কারণ শব্দ-গণনাগুলি নেতিবাচক হতে পারে না তবে শব্দ-এম্বেডিং সহ (যেমন গ্লাভস) আপনার নেতিবাচক মান থাকতে পারে।

ওয়ার্ড-এমবেডিং নির্মাণের একটি সরলীকৃত দৃশ্য নিম্নরূপ: আপনি প্রতিটি শব্দ R ^ d এ একটি এলোমেলো ভেক্টরকে বরাদ্দ করেন। এরপরে এমন একটি অপ্টিমাইজার চালান যা দুটি অনুরূপ ভেক্টর v1 এবং v2 একে অপরের নিকটে ঠেলাঠেলি করতে চেষ্টা করে বা দুটি ভিন্নতর ভেক্টর v3 এবং v4 আরও দূরে চালিত করে (কিছু দূরত্বে, কোসাইন বলে)। আপনি যথেষ্ট পরিমাণে পুনরাবৃত্তির জন্য এই অপ্টিমাইজেশন চালনা করেন এবং শেষে, আপনার কাছে একক মানদণ্ডের সাথে শব্দ-এম্বেডিং রয়েছে যে একই শব্দগুলির নিকটতর ভেক্টর রয়েছে এবং ভিন্নতর ভেক্টরগুলি আরও দূরে রয়েছে। শেষের ফলাফলটি আপনাকে কিছু মাত্রিক-মানগুলি নেতিবাচক এবং কিছু জোড় নেতিবাচক কোসাইন মিল থাকার সাথে ছেড়ে যেতে পারে - কেবলমাত্র অপ্টিমাইজেশন প্রক্রিয়াটি এই মানদণ্ডের বিষয়ে চিন্তা করে না। এটি কিছু ভেক্টরকে নেতিবাচক-মানগুলিতে ভালভাবে ঠেলে দিয়েছে। ভেক্টরগুলির মাত্রাগুলি শব্দ-গণনার সাথে মিল রাখে না,

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.