দূরত্বের মেট্রিক হিসাবে ডস পণ্য বনাম কোসিন মিল


41

দেখে মনে হচ্ছে দুটি বৈশিষ্ট্যের কোসাইন মিল হ'ল কেবলমাত্র তাদের বিন্দুর পণ্য দ্বারা আকারযুক্ত তাদের বিন্দু পণ্য। কোসিনের মিলটি কখন বিন্দুর চেয়ে ভাল দূরত্বের মেট্রিক তৈরি করে? অর্থাৎ ডট পণ্য এবং কোসাইন মিলের বিভিন্ন পরিস্থিতিতে বিভিন্ন শক্তি বা দুর্বলতা থাকে?


মনে রাখবেন যে এগুলি উভয়ই যথাযথ দূরত্বের মেট্রিক নয়, এমনকি যদি আপনি পয়েন্টগুলি "অনুরূপ" হয় তখন এগুলি ছোট হিসাবে মান হিসাবে রূপান্তর করেন। এটি আপনার ব্যবহারের ক্ষেত্রে গুরুত্বপূর্ণ হতে পারে বা নাও পারে।
শন ওয়ান

উত্তর:


41

জ্যামিতিকভাবে চিন্তা করুন। কোসিনের সাদৃশ্য কেবলমাত্র কোণ পার্থক্য সম্পর্কে যত্নশীল, অন্যদিকে ডট পণ্য কোণ এবং প্রস্থের বিষয়ে যত্নশীল। আপনি যদি নিজের ডেটাটিকে একই মাত্রার জন্য স্বাভাবিক করেন তবে দু'টি পৃথক হয়ে যায়। কখনও কখনও প্রস্থটিকে উপেক্ষা করা বাঞ্ছনীয়, সুতরাং কোসাইনের মিল একই রকম, তবে যদি परिमाण কোনও ভূমিকা পালন করে তবে ডট পণ্যটি মিলের পরিমাপ হিসাবে আরও ভাল be মনে রাখবেন যে তাদের উভয়ই "দূরত্বের মেট্রিক" নয়।


3
"দূরত্বের মেট্রিক" সাধারণত সাহিত্যে "মিল" এর বিপরীত হিসাবে ব্যবহৃত হয়: বৃহত্তর দূরত্ব, আরও কম মিল, তবে মূলত তারা একই ধারণা উপস্থাপন করে।
বন্ধু

1
@ ফ্রেন্ড আপনার অর্থ 'ভিন্নতা'। মেট্রিকের একটি সুনির্দিষ্ট সংজ্ঞা রয়েছে।
স্মারক

8

আপনি ঠিক বলেছেন, ভেক্টরগুলির ডট প্রোডাক্টের সাথে কোসাইন মিল রয়েছে common প্রকৃতপক্ষে, এটি একটি বিন্দু পণ্য, মাত্রার দ্বারা স্কেল। এবং স্কেলিংয়ের কারণে এটি 0 এবং 1 এর মধ্যে স্বাভাবিক করা হয় সিএস পছন্দনীয় কারণ এটি ডেটা এবং বৈশিষ্ট্যগুলির আপেক্ষিক ফ্রিকোয়েন্সিগুলির অ্যাকাউন্টের পরিবর্তনশীলতা গ্রহণ করে। অন্যদিকে, প্লেইন ডট পণ্যটি কিছুটা "সস্তা" (জটিলতা এবং বাস্তবায়নের ক্ষেত্রে)।


কেন ডট পণ্য একা (সাধারণকরণ না করার সমতুল্য) বৈশিষ্ট্যগুলির ডেটা এবং ফ্রিকোয়েন্সি হিসাবে অ্যাকাউন্ট করে না ? আমি জানি না যে এই পার্থক্য।
শন ওওন

2
সম্ভবত, আমি পরিষ্কার ছিল না। আমি ডেটা বৈচিত্র্যের কথা বলছিলাম। উদাহরণস্বরূপ, আমাদের কাছে দুটি জোড়া নথি রয়েছে। প্রতিটি জোড়ের মধ্যে ডকস অভিন্ন, তবে জোড়া -২ টির চেয়ে জোড়া -1 নথি ছোট are এবং আমরা প্রতিটি জুটির মধ্যে সাদৃশ্য গণনা করি। উভয় ক্ষেত্রে সর্বাধিক মিলের অনুমান করা হলেও ডট পণ্যটি বিভিন্ন সংখ্যা তৈরি করবে would
sobach

5

আমি উপরের উত্তরগুলিতে আরও একটি মাত্রা যুক্ত করতে চাই। সাধারণত আমরা বৃহত পাঠ্যের সাথে কোসাইন মিল খুঁজে পাই কারণ ডেটা অনুচ্ছেদে দূরত্বের ম্যাট্রিক্স ব্যবহারের পরামর্শ দেওয়া হয় না। এছাড়াও যদি আপনি নিজের ক্লাস্টারটিকে প্রশস্ত হতে চান তবে আপনি কোসাইন মিলের সাথে ঝোঁক পড়বেন কারণ এটি সামগ্রিকভাবে মিল খুঁজে পেয়েছে।

উদাহরণস্বরূপ যদি আপনার কাছে টেক্সট রয়েছে যা দুটি বা তিনটি শব্দের দীর্ঘ দীর্ঘতম আমি মনে করি কোস্টাইন মিল ব্যবহার করে দূরত্বের মেট্রিক দ্বারা যথাযথতা অর্জন করা যায় না।


4

সাধারণ ভেতরের পণ্য ভিত্তিক আদল মেট্রিক্স একটি চমৎকার তুলনা নেই এখানে

বিশেষত, কোসিন সাদৃশ্যটি [0,1] এর মধ্যে থাকা কোনও বিন্দুজাতীয় পণ্য যেমন কোনও আসল সংখ্যা হতে পারে তার বিপরীতে স্বাভাবিক হয়, তবে, যেহেতু প্রত্যেকে বলছেন, এর জন্য ভেক্টরগুলির পরিমাণকে উপেক্ষা করা দরকার। ব্যক্তিগতভাবে, আমি মনে করি এটি একটি ভাল জিনিস। আমি অভ্যন্তরীণ (ভেক্টরের অভ্যন্তরে) কাঠামো এবং ভেক্টরগুলির মধ্যে বাহ্যিক (ভেক্টরের মধ্যে) কাঠামো হিসাবে কোণ হিসাবে বিবেচনা করি। এগুলি আলাদা জিনিস এবং (আমার মতে) প্রায়শই পৃথক পৃথকভাবে বিশ্লেষণ করা হয়। আমি এমন পরিস্থিতিটি কল্পনা করতে পারি না যেখানে আমি কোস্টিনের মিলগুলির তুলনায় অভ্যন্তরীণ পণ্যগুলি গণনা করব এবং তারপরে মাত্রার তুলনা করব।


"কোসিন সাদৃশ্যটি [0,1] এর মধ্যে শুয়ে থাকতে স্বাভাবিক হয়" "এটির এখনও অঙ্কের একটি বিন্দু পণ্য রয়েছে, আমার মনে হয় এর পরিবর্তে পরিসরটি [-1, 1] হওয়া উচিত?
কড়ি

2

জ্যামিতিক দৃষ্টিকোণ থেকে, যদি আপনার সমস্ত ডেটা একত্রে থাকে, , তবে দুটি ভেক্টরের স্কেলার পণ্য একটি কোণকে সংজ্ঞায়িত করে , , এবং আপনার একটি দূরত্ব রয়েছে ।x,||x||2=x,x=1ϕx,y=cosϕϕ=arccosx,y

দৃশ্যমানভাবে, আপনার সমস্ত ডেটা একক গোলকের লাইভে থাকে। দূরত্ব হিসাবে একটি বিন্দু পণ্য ব্যবহার আপনাকে কর্ডাল দূরত্ব দেবে, তবে আপনি যদি এই কোসাইন দূরত্বটি ব্যবহার করেন তবে এটি গোলকের দুটি পয়েন্টের মধ্যে পথের দৈর্ঘ্যের সাথে মিলে যায়। এর অর্থ, আপনি যদি দুটি পয়েন্টের গড় গড় চান তবে 'পাটিগণিত গড় / ডট পণ্য / ইউক্লিডিয়ান জ্যামিতি' থেকে প্রাপ্ত মিড-পয়েন্টের পরিবর্তে আপনার এই পথের (জিওডেসিক) মাঝখানে পয়েন্টটি নেওয়া উচিত কারণ এই পয়েন্টটি করে গোলকের উপর বাস না (অতএব মূলত একই জিনিস নয়)!


1

অন্যরা যেমন উল্লেখ করেছে, এগুলি "মেট্রিক্স" দূরত্ব নয়, কারণ তারা মেট্রিকের মানদণ্ডটি পূরণ করে না। পরিবর্তে "দূরত্ব পরিমাপ" বলুন।

যাইহোক, আপনি কি পরিমাপ করছেন এবং কেন? এই তথ্যটি আপনার পরিস্থিতির জন্য আরও কার্যকর উত্তর দিতে আমাদের সহায়তা করবে।


আমি সবসময় ব্যবস্থা এবং মেট্রিকের মধ্যে পার্থক্য সম্পর্কে ভাবতাম। সরকার (এনআইএসটি) এর মতে: "... আমরা আরও বিমূর্ত, উচ্চ-স্তরের, বা কিছুটা বিষয়গত বৈশিষ্ট্যের জন্য আরও কংক্রিট বা উদ্দেশ্যগত বৈশিষ্ট্য এবং মেট্রিকের জন্য পরিমাপ ব্যবহার করি ... ... দৃ Rob়তা, গুণমান (" উচ্চ মানের "হিসাবে), এবং কার্যকারিতা হ'ল গুরুত্বপূর্ণ বৈশিষ্ট্য যা আমাদের কাছে কিছুটা ধারাবাহিক অনুভূতি রয়েছে তবে উদ্দেশ্যমূলকভাবে সংজ্ঞা দেওয়া শক্ত Thus সুতরাং এগুলি মেট্রিক্স "" তবে প্রসঙ্গটি সফটওয়্যার ইঞ্জিনিয়ারিং, গণিতে নয়। আপনার কি গ্রহণ?
অহফার 5:54 এ 20

1
উইকিপিডিয়া আরও সহায়ক ছিল। দূরত্ব (x, y) অবশ্যই অ-নেতিবাচক হতে হবে; d (x, y) = 0 কেবল x = y; d (x, y) = d (y, x); এবং ত্রিভুজ বৈষম্য পূরণ করুন- ডি (এক্স, জেড) ≤ ডি (এক্স, ওয়াই) + ডি (ওয়াই, জেড)
অহফার ২১ আগস্ট'১১ এ 21

1
এটি খুব সুন্দর এটি: একটি মেট্রিকের নির্দিষ্ট অক্ষগুলি পূরণ করতে হয় এবং একটি পরিমাপ কম কঠোরভাবে সংজ্ঞায়িত হয়।
সিনট্যাক্স
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.