কেন-অর্থ ক্লাস্টারিং অ্যালগরিদম কেবল ইউক্লিডিয়ান দূরত্বের মেট্রিক ব্যবহার করে?


62

দক্ষতা বা কার্যকারিতার দিক দিয়ে কি কোনও নির্দিষ্ট উদ্দেশ্য আছে কেন কেন-মানে অ্যালগরিদম উদাহরণস্বরূপ কোসাইন (ডিস) দূরত্বের মেট্রিক হিসাবে মিল ব্যবহার করে না, তবে কেবল ইউক্লিডিয়ান আদর্শ ব্যবহার করতে পারে? সাধারণভাবে, ইউক্লিডিয়ান ছাড়া অন্য দূরত্বগুলি বিবেচনা করা বা ব্যবহৃত হলে কে-মানে পদ্ধতিটি মেনে চলবে এবং সঠিক হবে?

[@Ttnphns দ্বারা সংযোজন প্রশ্ন দ্বিগুণ। "(অ) ইউক্যালিডিয়ান দূরত্ব" দুটি ডাটা পয়েন্টের মধ্যে দূরত্ব বা ডেটা পয়েন্ট এবং একটি ক্লাস্টার সেন্টারের মধ্যবর্তী দূরত্বকে উদ্বেগ করতে পারে। উভয় উপায়ে এখনও পর্যন্ত উত্তরগুলিতে সম্বোধনের চেষ্টা করা হয়েছে।]


এই প্রশ্নটি ইতিমধ্যে স্ট্যাকওভারফ্লো এবং এই সাইটে প্রায় 10 বার জিজ্ঞাসা করা হয়েছে। অনুসন্ধান ফাংশন ব্যবহার করুন।
অ্যানি-মৌসে

3
@ অ্যানি-মৌসেস: যদিও আমি সম্পূর্ণরূপে আপনার সাথে একমত হয়েছি এবং সম্প্রতি এসওতে বেশ কয়েকটি পতাকা উত্থাপন করেছি, তবে বেশিরভাগ প্রশ্নের মধ্যে আমি সদৃশ বন্ধের অভাব বোধ করি।
নিকানা রেকলাভিক্স

4
এই পৃষ্ঠাটি এই বিষয়টি সম্পর্কে গুগল করার সময় প্রথম আসে।
হরিপকান্নান

উত্তর:


62

কে-মিনস পদ্ধতি - যা একটি ভেক্টর কোয়ান্টাইজেশন পদ্ধতি যা প্রায়শই ক্লাস্টারিং পদ্ধতি হিসাবে ব্যবহৃত হয় - স্পষ্টভাবে জোড়ায়িত দূরত্বে বি / ডাব্লু ডেটা পয়েন্টগুলি মোটেও ব্যবহার করে না (শ্রেণিবদ্ধ এবং কিছু অন্যান্য ক্লাস্টারিংগুলির বিপরীতে যা স্বেচ্ছাসেবীকে নিকটবর্তীতা মাপার অনুমতি দেয়)। এটি বারবার নিকটতম সেন্ট্রয়েডকে পয়েন্ট নির্ধারণের পরিমাণ হিসাবে এর মাধ্যমে ইউক্লিডিয়ান দূরত্বকে ডেটা পয়েন্ট থেকে সেন্ট্রয়েড পর্যন্ত ব্যবহার করে । তবে, কে-মিনস স্পষ্টতই যুগলভাবে ইউক্লিডিয়ান দূরত্ব বি / ডাব্লু ডেটা পয়েন্টের উপর ভিত্তি করে তৈরি হয়েছে কারণ সেন্ট্রয়েড থেকে স্কোয়ার বিচ্যুতির যোগফল পয়েন্ট সংখ্যার দ্বারা বিভক্ত জোড়যুক্ত ইউক্লিডিয়ান দূরত্বের যোগফলের সমান। "সেন্ট্রয়েড" শব্দটি ইউক্লিডিয়ান জ্যামিতির থেকেই from এটি ইউক্লিডিয়ান স্পেসে মাল্টিভারিয়েট গড়। ইউক্লিডিয়ান স্থান ইউক্যালিডিয়ান দূরত্ব সম্পর্কে প্রায়। নন-ইউক্লিডিয়ান দূরত্বগুলি সাধারণত ইউক্লিডিয়ান স্থান স্প্যান করে না। এজন্য কে-মিনস কেবল ইউক্লিডিয়ান দূরত্বের জন্য।

তবে ইউক্লিডিয়ান দূরত্বের বি / ডাব্লু দুটি ডাটা পয়েন্টকে বিভিন্ন বিকল্প উপায়ে উপস্থাপন করা যেতে পারে । উদাহরণস্বরূপ, এটি কোজাইন বা স্কেলার পণ্য খ / ডাব্লু পয়েন্টগুলির সাথে ঘনিষ্ঠভাবে আবদ্ধ । আপনার যদি কোসাইন, বা কোভেরিয়েন্স বা পারস্পরিক সম্পর্ক থাকে তবে আপনি সর্বদা (1) এটিকে (স্কোয়ারড) ইউক্লিডিয়ান দূরত্বে রূপান্তর করতে পারেন এবং তারপরে (2) ইউক্লিডিয়ান দূরত্বের ম্যাট্রিক্সের জন্য ডেটা তৈরি করতে পারেন (প্রিন্সিপাল কোঅর্ডিনেটের মাধ্যমে বা মেট্রিকের অন্যান্য ফর্মগুলির মাধ্যমে) বহুমাত্রিক স্কেলিং) থেকে (3) কে-মিন ক্লাস্টারিংয়ে সেই ডেটাগুলি ইনপুট করে। অতএব, কে- মাইনসকে "জুড়িওয়ালা কোসাইন বা এই জাতীয় সাথে" কাজ করা সম্ভব ; আসলে, কে-মাইন ক্লাস্টারিংয়ের এ জাতীয় বাস্তবায়ন বিদ্যমান। আরো দেখুন "দূরত্ব ম্যাট্রিক্সের জন্য কে-মানে" বাস্তবায়ন সম্পর্কে।

কে-মানে প্রোগ্রাম করা এমনভাবে সম্ভব যে এটি সরাসরি জোড় ইউক্লিডিয়ান দূরত্বের বর্গ ম্যাট্রিক্সে গণনা করে। তবে এটি ধীরে ধীরে কাজ করবে এবং তাই আরও কার্যকর উপায় হ'ল দূরত্বের ম্যাট্রিক্সের জন্য ডেটা তৈরি করা (দূরত্বগুলিকে স্ক্যালার পণ্যগুলিতে রূপান্তর করা এবং এরপরে - পূর্ববর্তী অনুচ্ছেদে বর্ণিত পাস) - এবং তারপরে স্ট্যান্ডার্ড কে-মানে পদ্ধতি প্রয়োগ করুন যে ডেটাসেট।

অনুগ্রহ করে নোট করুন আমি ডেটা পয়েন্টগুলির মধ্যে ইউক্যালিডিয়ান বা ননোক্লাইডিয়ান ভিন্নতা কে-এর সাথে সামঞ্জস্যপূর্ণ কিনা তা নিয়ে আমি আলোচনা করছিলাম । এটি সম্পর্কিত তবে একেবারে একই প্রশ্নের মতো নয় কেন সেন্ট্রয়েড থেকে নওনোক্লাইডিয়ান বিচ্যুতিগুলি (বিস্তৃত অর্থে, কেন্দ্র বা কোসিসেন্ট্রয়েড) কে-ইনেস বা সংশোধিত "কে-মানে" তে অন্তর্ভুক্ত করা যেতে পারে কিনা whether

সম্পর্কিত প্রশ্নটি দেখুন কে-অর্থ: কেন ডাব্লুসিএসএস হ্রাস করা ক্লাস্টারগুলির মধ্যে দূরত্ব সর্বাধিকতর করছে?


আপনি যে পদ্ধতির উল্লেখ করছেন তার কয়েকটি উদাহরণ-ডকস উদ্ধৃত করতে পারেন?
কৌতুহল

4
@ ডগলাস, দয়া করে আমি বলেছিলাম যে কে- মানেগুলি জোড়াযুক্ত দূরত্ব ব্যবহার করে না । এটা স্পষ্টভাবে বলা আছে। এটি সেন্ট্রয়েড থেকে দূরত্ব ব্যবহার করে। তবে এর স্বয়ংক্রিয়ভাবে অর্থ হ'ল এটি ক্লাস্টারের মধ্যে জোড়া লাগানোর দূরত্বগুলি অনুকূল করে তোলার জন্য টাস্কের সাথে স্পষ্টভাবে আবদ্ধ
ttnphns

1
@ttnphns: আপনি লিখেছেন এমন কতগুলি অক্ষর But a Euclidean distance b/w two data points can be represented in a number of alternative ways. For example, it is closely tied with cosine or scalar product b/w the points. If you have cosine, or covariance, or correlation, you can always (1) transform it to (squared) Euclidean distance, আপনি ঠিক তত সহজেই লিখতে পারতেন: distance(x,y) = 1 - cosine_sim(x,y)বা অনুরূপ কিছু পিথী এবং তথ্যবহুল।
stackoverflowuser2010

1
এটি বৈধ এবং গঠনমূলক সমালোচনার মতো দেখায়: কোনও লিঙ্কের উপর নির্ভর না করে সরাসরি আপনার পোস্টে তথ্য অন্তর্ভুক্ত করা ভাল; এবং অস্পষ্টতার চেয়ে স্পষ্ট হওয়া সাধারণত ভাল। (সিসি @ স্ট্যাকওভারফ্লুউজার)
শুকনো

3
আপনি কি বিতর্ক করছেন? এই ক্ষেত্রে কোনও লিঙ্কের উপর নির্ভর করা ভাল, বা অস্পষ্ট হওয়া ভাল, বা উভয়ই? এবং কেন?
হোবার

46

কে-এর অর্থের ব্যাখ্যার জন্য @ এনটিএনএফএনএস এর উত্তরও দেখুন যা আসলে পয়েন্টওয়াস ইউক্লিডিয়ান দূরত্বের সাথে জড়িত।

কে-উপায়টি যেভাবে নির্মিত হয় তা দূরত্বের ভিত্তিতে নয়

কে-মানে-ক্লাস্টারের বৈচিত্রকে হ্রাস করে। এখন যদি আপনি ভিন্নতার সংজ্ঞাটি দেখেন তবে এটি কেন্দ্র থেকে স্কোয়ারড ইউক্লিডিয়ান দূরত্বের যোগফলের সমান। (@ এনটিএনএফএনএস এর উত্তর ইউক্যালিডিয়ান দূরত্বকে যুগলভাবে বোঝায়!)

কে-মানেগুলির প্রাথমিক ধারণাটি স্কোয়ার ত্রুটিগুলি হ্রাস করা । এখানে কোনও "দূরত্ব" জড়িত নেই।

কেন সালিসি দূরত্ব ব্যবহার করা সঠিক নয়: কারণ কে-মানে অন্যান্য দূরত্বের ক্রিয়াকলাপগুলির সাথে রূপান্তর বন্ধ করতে পারে । কনভারজেন্সের সাধারণ প্রমাণটি হ'ল: অ্যাসাইনমেন্ট পদক্ষেপ এবং গড় আপডেট ধাপ উভয়ই একই মানদণ্ডকে অপ্টিমাইজ করে । সীমাবদ্ধ অ্যাসাইনমেন্টের সংখ্যা রয়েছে। সুতরাং, এটি অবশ্যই সীমিত সংখ্যক উন্নতির পরে একত্রিত হতে হবে। অন্যান্য দূরত্বের ক্রিয়াকলাপগুলির জন্য এই প্রমাণটি ব্যবহার করতে, আপনাকে অবশ্যই দেখানো উচিত যে গড় (নোট: কে- মানে ) আপনার দূরত্বও হ্রাস করবে।

আপনি যদি কে-মানেগুলির কোনও ম্যানহাটন-দূরত্বের বৈকল্পিকের সন্ধান করছেন, সেখানে কে-মিডিয়ান রয়েছে। কারণ মিডিয়ান একটি পরিচিত সেরা এল 1 অনুমানকারী।

আপনি যদি নির্বিচারে দূরত্বের ফাংশন চান তবে কে-মেডোইডগুলি (দেখুন: পিএএম, মেডোইডগুলির চারপাশে বিভাজন করা) দেখুন। মধ্যস্থতা নির্বিচারে দূরত্বগুলি হ্রাস করে (কারণ এটি সর্বনিম্ন হিসাবে সংজ্ঞায়িত করা হয়) এবং কেবলমাত্র সম্ভাব্য মিডোয়েডগুলির একটি সীমাবদ্ধ সংখ্যা রয়েছে। যদিও এটি গড়ের চেয়ে অনেক বেশি ব্যয়বহুল।


তবে কে-অর্থের প্রথম ধাপে প্রতিটি বিন্দু ক্লাস্টারের সেন্ট্রয়েডের সাথে নিকটতম ইউক্লিডিয়ান দূরত্ব সহ ক্লাস্টারে রাখা হয় ... সুতরাং একটি দূরত্বের মেট্রিক রয়েছে
কৌতূহলী

@ অ্যাননিমুস @ttnphns answer refers to pairwise Euclidean distances!আমার উত্তর, প্রথম অনুচ্ছেদে আমি উভয়কে "এসএস ত্রুটি" (প্রত্যক্ষ) এবং "পেয়ারওয়াইজ ডি ^ 2" (অন্তর্নিহিত) ব্যাখ্যাগুলিকে স্পষ্টভাবে উল্লেখ করেছি refer
ttnphns

3
আমি আপনার সাথে উত্তর সম্মত। মনে রাখবেন যে আপনার অপারেশনাল অ্যাকাউন্টটি k-means may stop converging with other distance functionsআমার তাত্ত্বিকের কাছে সমজাতীয় Non-euclidean distances will generally not span euclidean space
ttnphns

খুব ভাল ব্যাখ্যা। আমি কখনও ইউক্যালিডিয়ান দূরত্বকে দ্বিতীয় চিন্তাধারা দেইনি এবং বুঝতে পারি নি যে এটি প্রকৃতপক্ষে স্কোয়ারগুলির সাথে উইনিং ক্লাস্টারের যোগফলকে হ্রাস করছে।
ভেরেনা হংসসমিড

আমি এখনও দেখতে পাচ্ছি না কেন ইউক্লিডীয় দূরত্বের দিক থেকে কেন মহাকাশ দূরত্ব কমিয়ে দেয় এবং মহাজাগতিক দিক থেকে এটি প্রমাণের অংশ হিসাবে হয় না
কৌতূহলী

9

আমি এখানে সামান্য পেডেন্টিক হতে পারি, তবে কে-মানে হ'ল একটি নির্দিষ্ট অ্যালগরিদমকে দেওয়া নাম যা ক্লাস্টারের ভেরিয়েন্সগুলি হ্রাস করা হয় এবং এটি কোনও "সাধারণ কৌশল" এর নাম নয় data

কে-মানে অ্যালগরিদমটি ক্ষেত্রের সাথে প্রযোজ্য দৃations় ব্যাখ্যা সহ কয়েকটি ক্ষেত্র থেকে স্বাধীনভাবে প্রস্তাবিত হয়েছে। এটি কেবল সুন্দরভাবে দেখা যাচ্ছে যে এটি কেন্দ্রের ইউক্লিডিয়ান দূরত্বও। কে-অর্থাত্ সংক্ষিপ্ত ইতিহাসের জন্য, দয়া করে ডেটা ক্লাস্টারিং পড়ুন: কে-মানে ছাড়িয়ে 50-বছর

অন্যান্য ক্লাস্টারিং অ্যালগরিদমগুলির আধিক্য রয়েছে যা ইউক্লিডিয়ান ছাড়াও মেট্রিক ব্যবহার করে। আমি জানি সবচেয়ে সাধারণ ক্ষেত্রে হ'ল ক্লাস্টারিংয়ের জন্য গ্রেগম্যান ডাইভারজেন্স ব্যবহার করা, যার মধ্যে ইউক্লিডিয়ান একটি বিশেষ ক্ষেত্রে।


"ইউক্যালিডিয়ান ছাড়া অন্য মেট্রিক্স" আমি হয়ত আরও বেশি প্যাডেন্টিক হতে পারি, তবে সেগুলি ডাইভারজেন্সগুলি সাধারণভাবে মেট্রিক নয় :)
mic

সত্য :); আমার সম্ভবত উত্তরটি সম্পাদনা করা উচিত।
ব্যবহারকারী 1669710

8

যেহেতু এটি আপাতদৃষ্টিতে একটি প্রচলিত প্রশ্ন, এবং এটি এখনও এখানে উল্লেখ করা হয়নি:

K-মাধ্যম উপর মান ইউক্লিডিয় দূরত্ব ছাড়া অন্য দূরত্ব মেট্রিক্স ব্যবহার করতে এক প্রাকৃতিক এক্সটেনশন ব্যবহার করা কার্নেল কৌতুক । এটি ইনপুটগুলিকে উচ্চ - বা অসীম- মাত্রিক হিলবার্ট স্পেসে স্পষ্টভাবে ম্যাপিংয়ের ধারণাটিকে বোঝায়, যেখানে দূরত্বগুলি আমরা ব্যবহার করতে চাইলে যে দূরত্ব ফাংশনটির সাথে সামঞ্জস্য করে এবং সেখানে অ্যালগরিদম চালায়। এটি হ'ল এমন কিছু বৈশিষ্ট্য মানচিত্র হতে হবে যাতে পছন্দসই মেট্রিক লিখতে পারে , আমরা পয়েন্ট K-উপায়ে চালানো । অনেক ক্ষেত্রে, আমরা মানচিত্রের স্পষ্টভাবে গণনা করতে পারি না , তবে আমরা পারিRdφ:RpHdd(x,y)=φ(x)φ(y)H{φ(xi)}φগনা কার্নেল । সমস্ত দূরত্বের মেট্রিকগুলি এই মডেলটির সাথে খাপ খায় না, তবে অনেকগুলিই করেন এবং স্ট্রিং, গ্রাফ, চিত্র, সম্ভাব্যতা বিতরণ এবং আরও অনেক কিছুতে এই জাতীয় ফাংশন সংজ্ঞায়িত করা হয় ....k(x,y)=φ(x),φ(y)H

এই পরিস্থিতিতে, স্ট্যান্ডার্ডে (লয়েডের) কে-মানে অ্যালগরিদম, আমরা সহজেই তাদের ক্লাস্টারগুলিতে পয়েন্ট নির্ধারণ করতে পারি, তবে আমরা ক্লাস্টার কেন্দ্রগুলিকে স্পষ্টভাবে উপস্থাপন করি (হিলবার্ট স্পেসে ইনপুট পয়েন্টের লিনিয়ার সংমিশ্রণ হিসাবে)। ইনপুট স্পেসে সেরা প্রতিনিধিত্ব সন্ধানের জন্য ফ্র্যাচেট গড়ের সন্ধান করা দরকার , যা বেশ ব্যয়বহুল। সুতরাং কার্নেলের সাথে ক্লাস্টার অ্যাসাইনমেন্টগুলি পাওয়া সহজ, উপায়গুলি পাওয়া শক্ত।

নিম্নলিখিত কাগজটি এই অ্যালগরিদম নিয়ে আলোচনা করেছে এবং বর্ণালী ক্লাস্টারিংয়ের সাথে সম্পর্কিত:

আই Dhিলন, ওয়াই। গুয়ান এবং বি কুলিস। কার্নেল কে মানে, স্পেকট্রাল ক্লাস্টারিং এবং নরমালাইজড কাটস। কেডিডি 2005।


লয়েডের অ্যালগরিদম দিয়ে কীভাবে কার্নেল ট্রিক ব্যবহার করা যেতে পারে তা আমি বুঝতে পারি না। আমার কাছে মনে হয় একটি সেন্ট্রয়েড (এমনকি হিলবার্ট স্পেসে অন্তর্নিহিত) গণনা করার জন্য আমাদের সুস্পষ্ট মানচিত্রের প্রয়োজন হবে (x_i)? ক্লাস্টারগুলিকে পয়েন্ট নির্ধারণের জন্য, আমাদের কেবল কার্নেল প্রয়োজন, তবে সেন্ট্রয়েডগুলি পুনরায় গণনা করার জন্য, আমরা কেবল কার্নেল দিয়ে দূরে যেতে পারি না, কেননা সেন্ট্রয়েড cl φ (x_i) of এর ক্লাস্টারে নির্ধারিত the আমি কিছু অনুপস্থিত করছি?
ব্যবহারকারী 2428107

আপনি ঠিক বলেছেন যে আমরা স্পষ্টভাবে সেন্ট্রয়েডগুলি গণনা করতে পারি না। তবে আমরা সেগুলিকে কেবল হিসাবে উপস্থাপন করতে পারি , এবং বিন্দুতে হিসাবে গণনা করতে পারি । 1nijCiφ(xj)xφ(x)1nijCiφ(xj)2=k(x,x)+1ni2j,jk(xj,xj)2nijk(x,xj)
ডগল

5

আমি এখানে অনেক আকর্ষণীয় মন্তব্য পড়েছি, তবে আমাকে যোগ করতে দাও যে মাতলাবের কে-ইন-এর "ব্যক্তিগত" বাস্তবায়ন 4 টি ইউক্লিডিয়ান দূরত্বকে সমর্থন করে [ডেটা পয়েন্ট এবং ক্লাস্টার সেন্টারগুলির মধ্যে]। ডকুমেন্টেশন থেকে কেবলমাত্র এটি সম্পর্কে আমি দেখতে পাচ্ছি মন্তব্য:

দূরত্ব পরিমাপ, পি-ডাইমেনশনাল স্পেসে, নূন্যতমকরণের জন্য ব্যবহৃত, 'দূরত্ব' এবং একটি স্ট্রিং সমন্বিত কমা-বিভাজিত জুটি হিসাবে নির্দিষ্ট।

kmeans বিভিন্ন, সমর্থিত দূরত্বের ব্যবস্থার জন্য সেন্ট্রয়েড ক্লাস্টারগুলি আলাদাভাবে গণনা করে। এই টেবিলটি উপলব্ধ দূরত্বের ব্যবস্থাগুলির সংক্ষিপ্তসার জানায়। সূত্রগুলিতে, x হল একটি পর্যবেক্ষণ (যা X এর একটি সারি) এবং সি একটি সেন্ট্রয়েড (একটি সারি ভেক্টর)।

তারপরে cএবং xঅনুসরণ করে ফাংশনগুলির একটি তালিকা । সুতরাং, pএটি ইনপুট ডেটার মাত্রিকতা বিবেচনা করে মনে হয়, কোনও ইউক্যালিডিয়ান এম্বেডিং আগেই করা হয় নি।

বিটিডাব্লু অতীতে আমি মতলবের কে-অর্থগুলি পারস্পরিক সম্পর্কযুক্ত দূরত্বের সাথে ব্যবহার করেছি এবং এটি (আশ্চর্যজনকভাবে) এটি করার কথা বলেছিল did


2
একটি দ্রষ্টব্য হিসাবে, সমর্থিত নন-ইউক্লিডিয়ান দূরত্বগুলি cosine(যা ইনপুট পয়েন্টগুলিতে কেবল ইউক্লিডিয়ান দূরত্ব correlation), cityblock( ইনপুটগুলিতে ইউক্লিডিয়ান), ( , পরিবর্তে ব্যবহৃত হয়), এবং (যা শুধু বাইনারি ইনপুট জন্য)। L1hammingcityblock
ডগল

@ ডৌগল, কীভাবে মধ্যমকে অ্যালগরিদমে স্থান দেওয়া হয়? এটি কি-কে মানে একটি মূলত পৃথক আলগোতে পরিবর্তন করে না ?
ttnphns

1
বাইনারি ডেটা "হামিং দূরত্ব" = সিটি ব্লক = বর্গ ইউক্যালিডিয়ান দূরত্বের জন্যও নোট করুন।
ttnphns ২

1
@ttnphns হ্যাঁ, এটি অবশ্যই এখন আর কে-মানে নয়, তবে সেন্ট্রয়েডগুলি গণনা করার পরিবর্তে এটির ঠিক একই কাঠামো রয়েছে যার অর্থ আপনি একটি মিডিয়ান গণনা করছেন। এবং হ্যাঁ বাইনারি ইনপুটগুলিতে , তবে মতলব এর পরিবর্তে পরিবর্তে মিডিয়ান ব্যবহার করে। =L22=L1
ডুগল

1
@ ডৌগল, লক্ষ্য করুন যে ম্যাটলব পদ্ধতিটি একটি ডেটা পয়েন্ট এবং ক্লাস্টার সেন্টারের মধ্যে বিভিন্ন দূরত্বের সাথে বলেছে; যা জোড়া ধরণের দূরত্বগুলির মতো একই জিনিস নয়।
ttnphns

2

থেকে এখানে :

এখানে চিত্র বর্ণনা লিখুন

আসুন উপরের চিত্রটিতে ভেক্টর দ্বারা প্রতিনিধিত্ব করা দুটি নথি A এবং B বিবেচনা করা যাক। কোসাইন উভয় ভেক্টরকে ইউনিট ভেক্টর হিসাবে স্বাভাবিক করে তাদের আচরণ করে, আপনাকে দুটি ভেক্টরের মধ্যবর্তী কোণকে একটি পরিমাপ দেয়। এটি মিলের একটি সঠিক পরিমাপ সরবরাহ করে তবে মাত্রার সাথে সম্পর্কিত নয়। তবে সাদৃশ্য বিবেচনা করার সময় বিশালতা একটি গুরুত্বপূর্ণ বিষয়।


এটি একটি সাধারণ উত্তর। কেন-কে মানে কোসাইন মিল নেই তা ব্যাখ্যা করে না। উদাহরণস্বরূপ হায়ারারিকিকাল ক্লাস্টারিংয়ে এটি ব্যাপকভাবে ব্যবহৃত হচ্ছে
কৌতূহলী

3
@ ডিএলডাহলি: কখনও কখনও বিশালতা গুরুত্বপূর্ণ, কখনও কখনও এটি শব্দ হয়। এটি গবেষণা ক্ষেত্রের উপর নির্ভর করে এবং ডেটা মানককরণের বিষয়।
ttnphns
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.