ইউক্লিডিয়ান দূরত্বের বিপরীতে কেউ কখন ম্যানহাটনের দূরত্ব ব্যবহার করবে?


18

আমি কেন এক ব্যবহার করেন একটি ভাল যুক্তি জন্য চেহারা চেষ্টা করছি ম্যানহাটন দূরত্ব ওভার ইউক্লিডিয় দূরত্ব Machine Learning এর মধ্যে।

আমি এখনও পর্যন্ত একটি ভাল যুক্তি খুঁজে পেয়েছি নিকটতম জিনিস এই এমআইটি বক্তৃতা হয়

36:15 এ আপনি নীচের বিবৃতি স্লাইডগুলিতে দেখতে পারেন:

"সাধারণত ইউক্যালিডিয়ান মেট্রিক ব্যবহার করুন; ম্যানহাটান উপযুক্ত হতে পারে যদি ভিন্ন মাত্রা তুলনামূলক না হয়। "

অধ্যাপক বলার অল্প সময় পরেই, যেহেতু সরীসৃপের পাগুলির সংখ্যা 0 থেকে 4 টির মধ্যে পরিবর্তিত হয় (অন্য বৈশিষ্ট্যগুলি বাইনারি হলেও কেবল 0 থেকে 1 এর মধ্যে থাকে), "পায়ে সংখ্যা" বৈশিষ্ট্যটি আরও অনেক বেশি থাকবে ওজন যদি ইউক্যালিডিয়ান দূরত্ব ব্যবহৃত হয়। নিশ্চিতভাবেই, এটি সত্য। তবে ম্যানহাটনের দূরত্বটি ব্যবহার করার ক্ষেত্রে একটিরও সমস্যা হতে পারে (কেবলমাত্র সমস্যাটি কিছুটা প্রশমিত হবে কারণ আমরা ইউক্যালিডিয়ান দূরত্বের মতো পার্থক্যটি বর্গা করি না)।

উপরের সমস্যা সমাধানের আরও ভাল উপায় হ'ল "সংখ্যা সংখ্যা" বৈশিষ্ট্যটিকে স্বাভাবিক করা যাতে এর মান সর্বদা 0 থেকে 1 এর মধ্যে থাকে।

সুতরাং, যেহেতু সমস্যা সমাধানের আরও ভাল উপায় আছে, এটি মনে হয়েছিল যে এই ক্ষেত্রে ম্যানহাটনের দূরত্বটি ব্যবহার করার যুক্তিটির দৃ stronger়তর বিন্দুর অভাব রয়েছে, কমপক্ষে আমার মতে।

কেউ কি আসলে জানে কেন এবং কখন ইউক্লিডিয়ানের উপরে কেউ ম্যানহাটনের দূরত্ব ব্যবহার করবে? ম্যানহাটনের দূরত্ব ব্যবহার করে আরও ভাল ফলাফল হতে পারে এমন কেউ আমাকে উদাহরণ দিতে পারেন?

উত্তর:


4

এই আকর্ষণীয় কাগজ অনুসারে, হাই ডাইমেনশনাল ডেটার ক্ষেত্রে ম্যানহাটনের দূরত্ব (এল 1 নরম) ইউক্লিডিয়ান দূরত্বের (এল 2 আদর্শ) এর চেয়ে ভাল হতে পারে:

https://bib.dbvis.de/uploadedFiles/155.pdf

কাগজের লেখকরা এমনকি আরও এক ধাপ এগিয়ে যান এবং ক্লাস্টারিংয়ের মতো দূরত্ব ভিত্তিক অ্যালগরিদমের ফলাফলগুলিকে উন্নত করার জন্য খুব উচ্চ মাত্রিক ডেটার জন্য কে এর ভগ্নাংশের মান সহ এলকে আদর্শ আদর্শ দূরত্ব ব্যবহার করার পরামর্শ দেন।


stats.stackexchange.com/a/99191 একটি পূর্ণাঙ্গ উত্তর সরবরাহ করে
মাইক

3

আমি উইকিপিডিয়া থেকে কয়েক দফা পরামর্শ দিতে পারি ।

  1. যদি আপনি আউটলিয়ারদের উপর কম জোর রাখতে চান তবে ম্যানহাটান দূরত্ব সমস্ত ত্রুটি সমভাবে হ্রাস করার চেষ্টা করবে যেহেতু গ্রেডিয়েন্টের ধ্রুবক দৈর্ঘ্য রয়েছে।
  2. যদি আপনার শব্দটি ল্যাপ্লেসিয়ান বিতরণ করা হয় তবে ম্যানহাটনের প্রাক্কলনটি হ্রাস করে এমএলই পাওয়া যায়।

3

হ্যান্ডস অন মেশিন লার্নিং-এ সাইকিট-লার্ন এবং টেনসরফ্লো দিয়ে হ্যান্ডস অন মেশিন লার্নিংয়ে এই সমস্যাটি সম্পর্কে অন্তর্দৃষ্টি হতে পারে এমন একটি জিনিস আমি পেয়েছি

আরএমএসই এবং এমএই উভয়ই দুটি ভেক্টরের মধ্যকার দূরত্ব পরিমাপ করার উপায়: পূর্বাভাসের ভেক্টর এবং লক্ষ্য মানগুলির ভেক্টর। বিভিন্ন দূরত্বের ব্যবস্থা বা নিয়মগুলি সম্ভব:

  • স্কোয়ারের যোগফলের মূল নির্ধারণ (আরএমএসই) ইউক্লিডিয়ান আদর্শের সাথে মিলে যায়: এটি আপনার সাথে পরিচিত দূরত্বের ধারণা। একে ℓ2 আদর্শও বলা হয় (...)

  • অবিচ্ছেদের যোগফল গণনা (এমএই) ℓ1 আদর্শের সাথে মিলে যায়, (...)। এটিকে কখনও কখনও ম্যানহাটন আদর্শ হিসাবেও অভিহিত করা হয় কারণ এটি কোনও শহরে দুটি পয়েন্টের মধ্যে দূরত্ব পরিমাপ করে যদি আপনি কেবল অर्थোগোনাল সিটি ব্লকগুলি ধরে ভ্রমণ করতে পারেন।

  • আরও সাধারণভাবে, (...) ℓ 0 কেবলমাত্র ভেক্টরটিতে শূন্য নয় এমন উপাদানগুলির সংখ্যা দেয় এবং ℓ∞ ভেক্টরে সর্বাধিক পরম মান দেয়।

  • আদর্শ সূচক যত বেশি, তত বেশি এটি বড় মূল্যবোধগুলিতে মনোনিবেশ করে এবং ছোটগুলিকে অবহেলা করে। এই কারণেই আরএমএসই এমএই এর চেয়ে বেশি বিদেশীদের কাছে সংবেদনশীল। তবে যখন আউটলিয়ারগুলি তাত্পর্যপূর্ণভাবে বিরল হয় (ঘণ্টা আকারের বক্ররেখার মতো), আরএমএসই খুব ভাল সম্পাদন করে এবং সাধারণত পছন্দ করা হয়।


2

আপনার ডেটাসেট যে ধরণের সমন্বয় ব্যবস্থা ব্যবহার করছে তার উপর ম্যানহাটনের দূরত্বের ব্যবহার অনেকাংশে নির্ভর করে। যদিও ইউক্লিডিয়ান দূরত্ব দুটি পয়েন্টের মধ্যে স্বল্পতম বা সর্বনিম্ন দূরত্ব দেয়, ম্যানহাটনের নির্দিষ্ট বাস্তবায়ন রয়েছে implement

উদাহরণস্বরূপ, আমরা যদি দাবা ডেটাসেট ব্যবহার করি তবে ইউক্লিডিয়ান দূরত্বের চেয়ে ম্যানহাটনের দূরত্বের ব্যবহার বেশি উপযুক্ত। আরেকটি ব্যবহার হ'ল যখন কয়েকটি ব্লক দূরে থাকা বাড়ির মধ্যে দূরত্ব জানার আগ্রহী হয়।

এছাড়াও, আপনি ম্যানহাটনের দূরত্ব বিবেচনা করতে চাইতে পারেন যদি ইনপুট ভেরিয়েবলগুলি টাইপের মতো না হয় (যেমন বয়স, লিঙ্গ, উচ্চতা ইত্যাদি)। মাত্রিকতার অভিশাপের কারণে আমরা জানি যে মাত্রার সংখ্যা বাড়ার সাথে ইউক্লিডিয়ান দূরত্ব একটি নিম্ন পছন্দ হয়ে যায়।

সুতরাং সংক্ষেপে: ম্যানহাটনের দূরত্ব কেবল তখনই কাজ করে যদি পয়েন্টগুলি গ্রিড আকারে সাজানো হয় এবং আমরা যে সমস্যাটিতে কাজ করছি কেবল গ্রিডের পাশাপাশি পয়েন্টগুলির মধ্যে দূরত্বকে আরও অগ্রাধিকার দেয় তবে জ্যামিতিক দূরত্ব নয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.