ইউক্লিডিয়ান দূরত্ব কেন উচ্চ মাত্রায় একটি ভাল মেট্রিক নয়?


239

আমি পড়েছি যে 'ইউক্লিডিয়ান দূরত্ব উচ্চ মাত্রায় ভাল দূরত্ব নয়'। আমি অনুমান করি এই বিবৃতিটির মাত্রিকতার অভিশাপের সাথে কিছু আছে তবে ঠিক কী? এছাড়াও 'উচ্চ মাত্রা' কী? আমি 100 বৈশিষ্ট্য সহ ইউক্লিডিয়ান দূরত্ব ব্যবহার করে শ্রেণিবদ্ধ ক্লাস্টারিং প্রয়োগ করছি applying এই মেট্রিকটি ব্যবহার করা কতগুলি বৈশিষ্ট্য পর্যন্ত 'নিরাপদ'?



5
এটি সম্ভবত আপনার পক্ষে খুব বেসিক; আমি উচ্চতর মাত্রায় ইউক্লিডিয়ান মেট্রিকের বিষয়ে এবং তার ফলে নিকটবর্তী ম্যাচের জন্য ভেক্টর স্পেস অনুসন্ধানে কীভাবে প্রভাবিত হয় সে বিষয়ে ব্লগ পোস্টগুলির একটি সিরিজ লিখেছি। ব্লগস.এমএসডিএন
এরিক লিপার্ট

1
@ HorstGrünbusch কিছু উল্লেখের জন্য নীচে উত্তর দেখুন। গড়ের তুলনায় দূরত্বের বৈচিত্র্য ছোট হয়ে যায়। সুতরাং এক পর্যায়ে, আপনি প্রান্তিকতা, ওজন, ক্রম নির্বাচন করে সমস্যায় পড়েছেন; এবং আপনি এমনকি সংখ্যাসম্য নির্ভুলতা সমস্যা পেতে পারেন। তবে যদি আপনার ডেটা অপ্রয়োজনীয় হয় তবে এটি সম্ভবত অনেক কম অভ্যন্তরীণ মাত্রিক।
অ্যানি-মৌসেস

3
"উচ্চ মাত্রা" একটি বিভ্রান্তিকর শব্দ বলে মনে হচ্ছে - কিছু উত্তর 9-12 কে "উচ্চ মাত্রা" হিসাবে বিবেচনা করছে, তবে অন্যান্য ক্ষেত্রে উচ্চ মাত্রা বলতে কয়েক হাজার বা মিলিয়ন মাত্রা বোঝায় (বলুন, ব্যাগ-অফ-ওয়ার্ড ভেক্টরগুলির মধ্যে কোণ পরিমাপ করা হয়) প্রতিটি মাত্রা অভিধানে কিছু শব্দের ফ্রিকোয়েন্সি) এবং 100 টি মাত্রা কম বলা হবে, উচ্চ নয়।
পিটারিস 20'14

2
এই প্রশ্নটি কিছু প্রসঙ্গে সত্যিই করতে পারে। কি জন্য ভাল না?
কাজ Szabolcs

উত্তর:


242

ওয়াশিংটন ইউনিভার্সিটির পেড্রো ডোমিংগোসের " মেশিন লার্নিং সম্পর্কে জানার জন্য কয়েকটি ব্যবহার্য জিনিস " থেকে উচ্চতর মাত্রায় অ-স্বজ্ঞাত ফলাফলের দুর্দান্ত সংক্ষিপ্তসারটি এসেছে :

[ও] তাত্পর্যীয় বিশ্বের থেকে আসা আপনার অন্তর্দৃষ্টিগুলি প্রায়শই উচ্চ-মাত্রিক ক্ষেত্রে প্রয়োগ হয় না। উচ্চ মাত্রায়, মাল্টিভারিয়েট গাউসিয়ান বিতরণের বেশিরভাগ ভরটি গড়ের কাছাকাছি নয়, তবে এটির চারপাশে ক্রমবর্ধমান দূরবর্তী "শেল"; এবং উচ্চ মাত্রিক কমলার বেশিরভাগ ভলিউম ত্বকে থাকে, সজ্জন নয়। যদি অবিচ্ছিন্ন উদাহরণগুলি উচ্চ মাত্রিক হাইপারকিউবে সমানভাবে বিতরণ করা হয় তবে কিছু মাত্রিকতার বাইরেও বেশিরভাগ উদাহরণগুলি নিকটতম প্রতিবেশীর চেয়ে হাইপারকিউবের মুখের কাছাকাছি থাকে। এবং যদি আমরা হাইপারস্পিয়ারটিকে হাইপারকিউবে শিলালিপি দ্বারা অনুমান করি তবে উচ্চ মাত্রায় হাইপারকিউবের প্রায় সমস্ত ভলিউম হাইপারস্পিয়ারের বাইরে। এটি মেশিন লার্নিংয়ের জন্য খারাপ সংবাদ, যেখানে এক ধরণের আকারগুলি প্রায়শই অন্য আকারের দ্বারা প্রায় হয়।

নিবন্ধটি মেশিন লার্নিংয়ের জন্য প্রজ্ঞার অনেকগুলি অতিরিক্ত মুক্তোতে পূর্ণ।

মেশিন লার্নিংয়ের বাইরে আরেকটি অ্যাপ্লিকেশন হ'ল নিকটতম প্রতিবেশী অনুসন্ধান: আগ্রহের পর্যবেক্ষণ দেওয়া হলে এর নিকটবর্তী প্রতিবেশীগুলি সন্ধান করুন (এই বিবেচনায় যে এইগুলি কোয়েরি পয়েন্ট থেকে সবচেয়ে ছোট দূরত্ব সহ)। তবে উচ্চ মাত্রায়, একটি কৌতূহলী ঘটনাটি দেখা দেয়: নিকটতম এবং দূরতম পয়েন্টগুলির মধ্যে অনুপাত 1, অর্থাৎ পয়েন্টগুলি অপরিহার্যভাবে একে অপরের থেকে সমানভাবে দূরে হয়ে যায়। এই ঘটনাটি বিভিন্ন ধরণের দূরত্বের মেট্রিকের জন্য লক্ষ্য করা যায়, তবে ইউক্লিডিয়ান মেট্রিকের চেয়ে এটি ম্যানহাটনের দূরত্বের মেট্রিকের চেয়ে বেশি স্পষ্ট। নিকটতম প্রতিবেশী অনুসন্ধানের ভিত্তি হ'ল "আরও" পয়েন্টগুলি "আরও" পয়েন্টগুলির চেয়ে বেশি প্রাসঙ্গিক, তবে সমস্ত পয়েন্টগুলি মূলত একে অপরের থেকে সমানভাবে দূরে থাকলে, পার্থক্যটি অর্থহীন।

চারু সি আগরওয়াল, আলেকজান্ডার হিনবার্গ, ড্যানিয়েল এ কেইম, " হাই ডাইমেনশনাল স্পেসে দূরত্বের মেট্রিকের বিস্ময়কর আচরণের উপর ":

[কেভিন বেয়ার, জোনাথন গোল্ডস্টেইন, রঘু রামকৃষ্ণান, উরি শ্যাফ্টে যুক্তি দেওয়া হয়েছে, " কখন নিকটতম নিকটবর্তী 'অর্থবহ? "] যে তথ্য বিতরণে কিছু যুক্তিসঙ্গত অনুমানের অধীনে নিকটতম এবং সবচেয়ে দূরবর্তী প্রতিবেশীদের দূরত্বের অনুপাত বিভিন্ন মাত্রায় ডেটা বিতরণ এবং দূরত্ব ফাংশনগুলির জন্য উচ্চ মাত্রিক স্থানটিতে একটি নির্দিষ্ট লক্ষ্যমাত্রা প্রায় 1। যেমন একটি ক্ষেত্রে, নিকটতম প্রতিবেশী সমস্যা অসুস্থ সংজ্ঞায়িত হয়ে যায়, যেহেতু ডিফেরেন্ট ডেটা পয়েন্টের দূরত্বগুলির মধ্যে বৈসাদৃশ্য উপস্থিত নেই। এই ধরনের ক্ষেত্রে, এমনকি নৈকট্য ধারণাটি গুণগত দৃষ্টিকোণ থেকে অর্থবহ নাও হতে পারে: একটি সমস্যা যা উচ্চ মাত্রিক অ্যালগরিদমের কর্মক্ষমতা অবনতির চেয়েও বেশি মৌলিক।

... অনেকগুলি উচ্চ-মাত্রিক সূচক কাঠামো এবং অ্যালগরিদমগুলি [E] উভয় বা ত্রি-মাত্রিক স্থানিক অ্যাপ্লিকেশনগুলিতে traditionalতিহ্যবাহী ব্যবহারের প্রাকৃতিক বর্ধন হিসাবে [ঘ] উপকূলীয় দূরত্ব মেট্রিক ব্যবহার করে। ... এই গবেষণাপত্রে আমরা এর মানের উপর আদর্শের নির্ভরতা বিশ্লেষণে কিছু অবাক করা তাত্ত্বিক এবং পরীক্ষামূলক ফলাফল সরবরাহ করি । আরও সুনির্দিষ্টভাবে, আমরা দেখাই যে একটি ক্যোয়ারী পয়েন্টের দূরত্বগুলির তুলনামূলক ব্যবহৃত মেট্রিকের উপর নির্ভর করে । এটি যথেষ্ট প্রমাণ দেয় যে আদর্শের অর্থবোধকতা উচ্চতর মানগুলির জন্য ক্রমবর্ধমান মাত্রিকতার মধ্যে আরও । সুতরাং, মাত্রিকতার জন্য একটি নির্দিষ্ট (উচ্চ) মান সহ প্রদত্ত সমস্যার জন্য কে এল কে এল কে কে ডি কে এল 1 এল 2LkkLkLkkd, নিম্ন মানের ব্যবহার করা ভাল । এর অর্থ উচ্চমাত্রার অ্যাপ্লিকেশনগুলির জন্য দূরত্বের মেট্রিক (ম্যানহাটন দূরত্বের মেট্রিক) সবচেয়ে বেশি পছন্দসই, তারপরে ইউক্লিডিয়ান মেট্রিক ( ) রয়েছে। ...kL1L2

"অবাক করা আচরণ" কাগজের লেখকরা তখন দিয়ে নিয়ম ব্যবহার করার প্রস্তাব । তারা কিছু ফলাফল উত্থাপন করে যা দেখায় যে এই "ভগ্নাংশ রীতিগুলি" দূরবর্তী এবং নিকটতম পয়েন্টগুলির মধ্যে বৈসাদৃশ্য বাড়ানোর সম্পত্তি প্রদর্শন করে। এটি কিছু প্রসঙ্গে প্রযোজ্য হতে পারে, তবে একটি সতর্কতা রয়েছে: এই "ভগ্নাংশ রীতিগুলি" যথাযথ দূরত্বের মেট্রিক নয় কারণ তারা ত্রিভুজ বৈষম্য লঙ্ঘন করে। আপনার গবেষণায় যদি ত্রিভুজ বৈষম্য একটি গুরুত্বপূর্ণ গুণ থাকে তবে ভগ্নাংশ মেট্রিকগুলি খুব বেশি কার্যকর হতে পারে না। কে < 1Lkk<1


7
এই উল্লেখটি দুর্দান্ত
এন্টোইন

1
আরও একবার পড়া ... সুন্দর ...
রিচার্ড হার্ডি

113

ইউক্লিডের দূরত্বের ধারণাটি, যা ইউক্লিড দ্বারা অধ্যয়ন করা দ্বি-মাত্রিক এবং ত্রি-মাত্রিক বিশ্বে ভালভাবে কাজ করে, উচ্চতর মাত্রায় কিছু বৈশিষ্ট্য রয়েছে যা আমাদের (সম্ভবত কেবল আমার ) জ্যামিতিক অন্তর্নিবেশের বিপরীত যা দুটি এবং তিনটি থেকেও একটি এক্সট্রা বিচ্ছিন্নতা রয়েছে মাত্রা.

বর্গক্ষেত্রটি উল্লম্ব সহ বিবেচনা করুন । চার ইউনিট-ব্যাসার্ধ চেনাশোনা কেন্দ্রীভূত আঁকুন । এই স্কোয়ারটি "ভরাট" করে, প্রতিটি বৃত্ত দুটি স্কোয়ারের উভয় পাশে স্পর্শ করে এবং প্রতিটি বৃত্তটি তার দুটি প্রতিবেশীকে স্পর্শ করে। উদাহরণস্বরূপ, কেন্দ্রীভূত বৃত্তটি বর্গাকার দিকগুলি এবং এ স্পর্শ করে এবং এর প্রতিবেশী বৃত্তগুলি এবং । এর পরে, উত্সকে কেন্দ্র করে একটি ছোট বৃত্ত আঁকুন( ± 2 , ± 2 ) ( ± 1 , ± 1 ) ( 1 , 1 ) ( 2 , 1 ) ( 1 , 2 ) ( 1 , 0 ) ( 0 , 1 ) আর 2 = 4×4(±2,±2)(±1,±1)(1,1)(2,1)(1,2)(1,0)(0,1)যা চারটি চেনাশোনা স্পর্শ করে। যেহেতু লাইন বিভাগটি যার শেষ বিন্দুগুলি দুটি দোলাচলকারী বৃত্তগুলির কেন্দ্র রয়েছে, এটি সহজেই যাচাই করা যায় যে ছোট বৃত্তটি ব্যাসার্ধ এবং এটি চারটি বৃহত্তর বৃত্তগুলিকে স্পর্শ করে । নোট করুন যে ছোট বৃত্তটি চারটি বৃহত্তর চেনাশোনা দ্বারা "সম্পূর্ণরূপে বেষ্টিত" এবং এইভাবে পুরো বর্গাকার অভ্যন্তরেও রয়েছে। এটিও লক্ষ করুন যে বিন্দুটি ছোট বৃত্তের মধ্যে রয়েছে। আরও লক্ষ করুন যে উত্স থেকে, বর্গাকার প্রান্তে বিন্দুটি "দেখতে" যায় না কারণ দৃষ্টিভঙ্গিটি দুটি বৃত্তের কেন্দ্রিক বিন্দু দিয়ে যায় এr2=21(±r2/2,±r2/2)(r2,0)(2,0,0)(1,0,0)(1,1) এবং । অক্ষটি স্কোয়ারের প্রান্ত দিয়ে অতিক্রম করে এমন অন্যান্য পয়েন্টগুলিতে দর্শনের রেখার জন্য ডিট্টো।(1,1)

এরপরে, শীর্ষে consider ঘনকটি বিবেচনা করুন । আমরা এটি দোলক ইউনিট-ব্যাসার্ধ গোলককে কেন্দ্র করে এবং তারপরে উত্সকে কেন্দ্র করে একটি ছোট দোলায়মান গোলকটি রাখি। মনে রাখবেন যে ছোট গোলকের ব্যাসার্ধ এবং বিন্দু ছোট গোলকের পৃষ্ঠের উপর অবস্থিত। কিন্তু নোটিশ এছাড়াও ত্রিমাত্রিক, এক করতে নির্দেশ "দেখুন" 4×4×4(±2,±2,±2)8(±1,±1,±1)r3=31<1(r3,0,0)(2,0,0)উত্স থেকে; দুটি মাত্রায় যেমন দেখা যায় তেমন কোনও বৃহত গোলকটি দেখতে বাধা দেয় না। উত্স থেকে দৃষ্টিশক্তিগুলির এই স্পষ্ট লাইনগুলি ঘনক্ষেত্রের তলদেশ থেকে অক্ষগুলি যে সকল পয়েন্টের মধ্য দিয়ে যায় সমস্ত বৃহত্তর মাত্রায়ও ঘটে।

সাধারণকরণ, আমরা পার্শ্ব একটি মাত্রিক হাইপারকিউব বিবেচনা করতে পারি এবং এটি os অসিলেটিং ইউনিট-ব্যাসার্ধের হাইপারস্পিয়ারগুলি কেন্দ্রের এবং তারপরে একটি "ছোট" রাখতে পারি মূল ব্যাসার্ধ গোলাকার গোলকটি । বিন্দুটি এই "ছোট" গোলকের উপরে। তবে, থেকে লক্ষ্য করুন যে যখন , এবং তাই "ছোট" গোলকটির একক ব্যাসার্ধ থাকে এবং সুতরাং প্রকৃতপক্ষে জন্য "ছোট" এর স্যুরব্রিকেট প্রাপ্য নয়n42n(±1,±1,,±1)(আরএন,0,0,,0)(1)এন=4আরএন=1এন4এন>9(1)আরএন>2(আরএন,0,0,,0)4

(1)rn=n1
(rn,0,0,,0)(1)n=4rn=1n4। প্রকৃতপক্ষে, যদি আমরা এটিকে "বৃহত্তর গোলক" বা কেবল "কেন্দ্রীয় ক্ষেত্র" বলি তবে ভাল হয়। শেষ অনুচ্ছেদে উল্লিখিত হিসাবে, অক্ষগুলি হাইপারকিউবের পৃষ্ঠের মধ্য দিয়ে অতিক্রম করে এমন বিন্দুগুলির দিকে স্পষ্ট দৃষ্টিভঙ্গি রয়েছে line সবচেয়ে খারাপ বিষয়, যখন , আমাদের যে , এবং সুতরাং কেন্দ্রীয় গোলকের বিন্দুটি পাশের হাইপারকিউবের বাইরে রয়েছে যদিও এটি রয়েছে ইউনিট-ব্যাসার্ধের হাইপারস্পিয়ার দ্বারা "সম্পূর্ণভাবে ঘেরা" যা হাইপারকিউবকে "পূরণ" করে (এটি প্যাকিংয়ের অর্থে)।n>9(1)rn>2(rn,0,0,,0)4 কেন্দ্রিয় গোলকটি হাই-ডাইমেনশনাল স্পেসে হাইপারকিউবের বাইরে " আমি এটিকে খুব পাল্টা-স্বজ্ঞাত বলে মনে করি কারণ আমার ইউক্লিডিয়ান দূরত্বকে উচ্চ মাত্রায় ধারণার ধারণা সম্পর্কে আমার মানসিক অনুবাদগুলি, আমি পরিচিত 2-স্পেস এবং 3-স্পেসের সাথে জ্যামিতিক অন্তর্নিহিত ব্যবহার করে, যার বাস্তবতা বর্ণনা করি না উচ্চ মাত্রার স্থান।

ওপির প্রশ্নের আমার উত্তর "এ ছাড়াও 'উচ্চ মাত্রা' কী?" হয় ।n9



9
@ স্ট্যাকওভারফ্লোজার 2010: যদি এই উত্তরটি সম্পূর্ণ বোধগম্য হয় তবে আপনি কীভাবে এটি বলতে পারবেন যে এটির মূল প্রশ্নটি সম্বোধন করার চেষ্টা করা হয়েছে কিনা? আরও গঠনমূলক পন্থা হতে পারে আপনি পুরো বিষয়টিকে হাতছাড়া করার পরিবর্তে অস্পষ্ট যে কোনও পয়েন্টের ব্যাখ্যা দেওয়ার জন্য জিজ্ঞাসা করা।
স্কোর্টচি

8
@ stackoverflowuser2010 যেহেতু এই উত্তরটির বহু ডজন উপাখ্যান রয়েছে, তাই এটি অনেকের মনে হবে যে এটি উভয়ই যুক্তিসঙ্গতভাবে বোধগম্য এবং প্রশ্নের কিছু গ্রহণযোগ্য উপায়ে প্রতিক্রিয়া জানিয়েছে। সম্ভবত আপনি আরও গঠনমূলক সমালোচনার চেষ্টা করতে পারেন - কীভাবে, আপনি কীভাবে বিশেষভাবে উত্তরটি আরও উন্নত করবেন বলে মনে করেন? এটি কী না তা অন্তর্ভুক্ত করা উচিত?
Glen_b

1
@ স্কোর্টচি: সম্ভবত আমি খুব বেশি প্রত্যাশা করছি, তবে এই প্রশ্নের একটি পরিষ্কার উত্তর যা এই সম্প্রদায়কে "ইউক্যালিডিয়ান দূরত্ব ভাল মেট্রিক নয় কারণ <x>" এর মতো কিছু হতে পারে help
stackoverflowuser2010

7
@ stackoverflow2010 আপনি এর মতো "ভাল" উত্তর কখনই দেখতে পাবেন না কারণ << বিষয়গুলি তখনকার বক্তব্যগুলির তুলনায় অনেক জটিল। আপনি যদি একটি সহজ উত্তর চান, এটি সম্ভবত ভুল। জঘন্য মিথ্যাবাদী মিথ্যাবাদীর মতো, তারা সহজ উত্তর দেওয়ার ক্ষেত্রে ভাল ছিল (মিথ্যা, তবে সহজ)।
অ্যানি-মৌসে

42

এটি সিগন্যাল টু শোরগোলের বিষয় । বর্গক্ষেত্রের কারণে ইউক্যালিডিয়ান দূরত্বটি বিশেষভাবে শব্দের সংবেদনশীল; তবে ম্যানহাটনের দূরত্ব এবং "ভগ্নাংশ" (অ-মেট্রিক) দূরত্বও ভোগ করে।

আমি এই নিবন্ধটিতে অধ্যয়নগুলি খুব আলোকিত করে দেখতে পেয়েছি:

জিমেক, এ।, শুবার্ট, ই। এবং ক্রিগেল, এইচ.পি. (২০১২),
উচ্চ-মাত্রিক সংখ্যাসূচক তথ্যগুলিতে নিরীক্ষণযোগ্য আউটলেটর সনাক্তকরণ সম্পর্কিত একটি সমীক্ষা।
পরিসংখ্যান বিশ্লেষণ ডেটা মাইনিং, 5: 363–387। doi: 10.1002 / sam.11161

এটি যেমনটি করা পর্যবেক্ষণগুলিতে পুনরায় পর্যালোচনা করে: উদাহরণস্বরূপ @ পেট দ্বারা উল্লিখিত আগরওয়াল, হিনবার্গ এবং কেইমের উচ্চ মাত্রিক স্থানের দূরত্ব মেট্রিক্সের অবাক করা আচরণের উপর। তবে এটি সিন্থেটিক পরীক্ষাগুলি কীভাবে বিভ্রান্তিকর এবং প্রকৃতপক্ষে উচ্চ-মাত্রিক ডেটা আরও সহজ হতে পারে তাও দেখায় । আপনার যদি প্রচুর (রিডানডান্ট) সংকেত থাকে এবং নতুন মাত্রা অল্প শব্দ করে noise

x,yx,y,x,y,x,y,x,y,...,x,y

সুতরাং শেষ পর্যন্ত, এটি এখনও আপনার ডেটার উপর নির্ভর করে। আপনার যদি প্রচুর অকেজো বৈশিষ্ট্য থাকে তবে ইউক্লিডিয়ান দূরত্ব অকেজো হয়ে যাবে। আপনি যদি সহজেই কোনও নিম্ন-মাত্রিক ডেটা স্পেসে আপনার ডেটা এম্বেড করতে পারতেন তবে ইউক্লিডিয়ান দূরত্বটিও পূর্ণ মাত্রিক জায়গাতে কাজ করা উচিত। বিশেষত বিরল তথ্য যেমন পাঠ্য থেকে টিএফ ভেক্টরগুলির ক্ষেত্রে, এটি ভেক্টর স্পেস মডেলের পরামর্শ অনুসারে ডেটাটি অনেক কম মাত্রার বলে মনে হয়।

কিছু লোক বিশ্বাস করে যে কোসাইন দূরত্ব উচ্চ মাত্রিক ডেটাতে ইউক্লিডিয়ানের চেয়ে ভাল। আমি এটি মনে করি না: কোসাইন দূরত্ব এবং ইউক্লিডিয়ান দূরত্ব খুব ঘনিষ্ঠভাবে জড়িত; সুতরাং আমরা অবশ্যই তাদেরকে একই সমস্যায় ভুগতে আশা করব। যাইহোক, কোস্টিন জনপ্রিয় যেখানে পাঠ্যগত ডেটা সাধারণত বিরল , এবং কোসাইন অপ্রয়োজনীয় ডেটাগুলির তুলনায় দ্রুততর হয় - তাই বিরল ডেটার জন্য কোসাইন ব্যবহারের উপযুক্ত কারণ রয়েছে; এবং ডেটা বিচ্ছিন্ন হওয়ার কারণে অভ্যন্তরীণ মাত্রিকতা ভেক্টর স্পেসের মাত্রার চেয়ে অনেক কম।

এই উত্তরটিও দেখুন, আমি আগের প্রশ্নের উত্তর দিয়েছি: https://stats.stackexchange.com/a/29647/7828


[1,1]nn

এবং এর থেকে উপসংহারটি কী হবে? [-1; 1] On d- এ কেউ কোসিন ব্যবহার করা উচিত নয় কারণ এটি 0 এ সংজ্ঞায়িত করা হয় নি, গড়টি আমাদের অভিশাপ সম্পর্কে কিছু বলতে পারে না এবং অভিন্ন তথ্য অবাস্তব।
অ্যানি-মৌসে

আমি এখনই এটি চেষ্টা করে দেখিনি, তবে আমার ধারণা যে আসল তথ্যগুলির জন্য কোণগুলি একই রকম দেখাচ্ছে। এটি 0-এ সংজ্ঞায়িত করা হয় নি এটি আসলে একটি মাত্র পয়েন্ট হওয়ায় সত্যই তা বিবেচনা করা উচিত নয়। আমার উপসংহারটি আপনার অনুরূপ: উচ্চ মাত্রার জায়গাগুলির জন্য কোসিনের দূরত্ব ভালভাবে উপযুক্ত নয় (যদিও এটি ডোমেনগুলি এখনও কাজ করতে পারে)
মার্টিন থোমা

আরও বাস্তবসম্মত দৃশ্যাবলি হ'ল ননজেটিভ ইউনিট গোলকের পয়েন্ট। এবং আগ্রহের পরিমাপটি সম্ভবত বৈকল্পিক হবে, এর অর্থ নয়।
অ্যানি-মৌসে

অ-নেতিবাচক ইউনিট গোলকটি পেতে আপনাকে কেবল +1 যোগ করতে হবে এবং 2 দিয়ে ভাগ করতে হবে ...
মার্টিন থোমা

34

শুরু করার সবচেয়ে ভাল জায়গাটি সম্ভবত অগ্রিমওয়াল, হিনবার্গ এবং কেইমের উচ্চ মাত্রিক স্থানের দূরত্ব মেট্রিক্সের অবাক করে দেওয়া আচরণটি পড়তে হবে to এখানে বর্তমানে কাজ করার একটি লিঙ্ক রয়েছে (পিডিএফ) , তবে এটি যদি ভেঙে যায় তবে এটি খুব গুগল-সক্ষম হওয়া উচিত। সংক্ষেপে, মাত্রাগুলির সংখ্যা বাড়ার সাথে সাথে একটি সেট এবং এর নিকটতম প্রতিবেশী একটি বিন্দুর মধ্যে এবং সেই বিন্দুটি এবং এর নিকটতম প্রতিবেশীর মধ্যে আপেক্ষিক ইউক্লিডিয়ান দূরত্ব কিছু অ-সুস্পষ্ট উপায়ে পরিবর্তিত হয়। এটি আপনার ফলাফলগুলিকে খারাপভাবে প্রভাবিত করবে কিনা তা আপনি কী অর্জন করতে চাইছেন এবং আপনার ডেটা কী পছন্দ করছেন তার উপরে অনেক বেশি নির্ভর করে।


6

ইউক্লিডিয়ান দূরত্ব খুব কমই মেশিন লার্নিংয়ে বেছে নেওয়ার জন্য একটি ভাল দূরত্ব এবং এটি উচ্চ মাত্রায় আরও স্পষ্ট হয়ে ওঠে। এটি কারণ মেশিন লার্নিংয়ের বেশিরভাগ সময় আপনি ইউক্লিডিয়ান মেট্রিক স্পেসের সাথে কাজ করছেন না, তবে একটি সম্ভাব্য মেট্রিক স্পেস এবং তাই আপনার সম্ভাব্যতা এবং তথ্য তাত্ত্বিক দূরত্ব ফাংশনগুলি ব্যবহার করা উচিত, যেমন এনট্রপি ভিত্তিক একটি।

মানুষ ইউক্যালিডিয়ান স্পেস পছন্দ করে কারণ এটি ধারণাই করা সহজ, তদুপরি রৈখিক বৈশিষ্ট্যের কারণে এটি গাণিতিকভাবে সহজ, যার অর্থ আমরা লিনিয়ার বীজগণিত প্রয়োগ করতে পারি। কুলব্যাক-লেবলার ডাইভারজেন্সের ক্ষেত্রে যদি আমরা দূরত্বগুলি সংজ্ঞায়িত করি তবে গণিতের সাথে কল্পনা করা এবং কাজ করা আরও কঠিন।


2
এটি সমস্যাযুক্ত হতে পারে, কারণ কেএল ডাইভারজেন্স কোনও মেট্রিক নয়। :-)
এগ্রি এগ্রি

2
যদি কারও প্রতিসম প্রয়োজন হয়, আপনি মিউচুয়াল তথ্য ব্যবহার করতে পারেন, যা ইঙ্গিত হিসাবে, কেএল এর শর্তে সংজ্ঞায়িত করা যেতে পারে।
সমথবেস্ট

3

সাদৃশ্য হিসাবে, উত্সকে কেন্দ্র করে একটি বৃত্ত কল্পনা করুন। পয়েন্টগুলি সমানভাবে বিতরণ করা হয়। ধরুন এলোমেলোভাবে নির্বাচিত পয়েন্টটি (x1, x2) এ রয়েছে। উত্স থেকে ইউক্লিডিয়ান দূরত্ব ((x1) ^ 2 + (x2) ^ 2) ^ 0.5

এখন কল্পনা করুন পয়েন্টগুলি সমানভাবে একটি গোলকের উপরে বিতরণ করা হয়েছে। একই পয়েন্ট (x1, x2) এখন সম্ভাব্য (x1, x2, x3) হবে। যেহেতু, এমনকি একটি বিতরণে শূন্য হিসাবে কয়েকটি পয়েন্টের একটি সমন্বয় থাকে, তাই আমরা ধরে নিতে পারি যে [x3! = 0] আমাদের এলোমেলোভাবে নির্বাচিত সমানভাবে বিতরণকারী পয়েন্টের জন্য। সুতরাং, আমাদের এলোমেলো পয়েন্টটি সম্ভবত (x1, x2, x3) এবং না (x1, x2, 0)।

এর প্রভাব: যে কোনও এলোমেলো বিন্দু এখন 3-ডি গোলকের উত্স থেকে ((x1) ^ 2 + (x2) ^ 2 + (x3)। 2) ^ 0.5 এর দূরত্বে রয়েছে। এই দূরত্বটি 2-ডি বৃত্তের উত্সের কাছাকাছি এলোমেলো পয়েন্টের তুলনায় এর চেয়ে বড়। এই সমস্যাটি উচ্চ মাত্রায় আরও খারাপ হয়ে যায়, এজন্য আমরা উচ্চ মাত্রার সাথে কাজ করার জন্য ইউক্যালিডিয়ান মাত্রা ব্যতীত অন্য মেট্রিক নির্বাচন করি।

সম্পাদনা: একটি বক্তব্য আছে যা আমি এখন স্মরণ করছি: "উচ্চ মাত্রিক কমলাগুলির বেশিরভাগ ভর ত্বকে থাকে, না মুরগি", এর অর্থ উচ্চ মাত্রায় সমানভাবে বিতরণ করা পয়েন্টগুলি আরও "কাছাকাছি" (ইউক্লিডিয়ান দূরত্ব) সীমানা হয় উত্স তুলনায়।

পার্শ্ব দ্রষ্টব্য: 'অ-অভিন্নতার আশীর্বাদ'-এর কারণে ইউক্লিডিয়ান দূরত্ব বাস্তব-বিশ্বের সমস্যার জন্য খুব খারাপ নয়, যা মূলত বলেছে যে বাস্তব তথ্যগুলির জন্য, আপনার ডেটা সম্ভবত উচ্চতর মাত্রায় সমানভাবে বিতরণ করা হবে না, তবে স্থানটির একটি ছোট ক্লাস্টেড সাবসেট দখল করবে। এটি স্বজ্ঞাতভাবে জ্ঞান তৈরি করে: আপনি যদি উচ্চতা, ওজন ইত্যাদির মতো মানুষের সম্পর্কে 100 পরিমাণ পরিমাপ করেন তবে মাত্রার জায়গার উপর এমনকি একটি বিতরণটিও বোধগম্য নয়, উদাহরণস্বরূপ (উচ্চতা = 65 ইঞ্চি, ওজন = 150 পাউন্ড, অ্যাভিজি_ক্যালরি_িন্টেক) = 4000) যা বাস্তব বিশ্বে কেবল সম্ভব নয়।


ভবিষ্যতের যে কোনও পাঠক যদি "কমলা / পাল্প" উক্তি, বা "অ-অভিন্নতার আশীর্বাদ" মন্তব্য নিয়ে আগ্রহী হন, তবে উভয়ই "মেশিন লার্নিং সম্পর্কে শেখার জন্য কয়েকটি দরকারী জিনিস" তে উপস্থিত হন, যা আমার উত্তরটির সাথে যুক্ত রয়েছে থ্রেড।
সাইকোরাক্স

1

এই প্রশ্নের আর একটি বিষয় হ'ল:

(মেশিন-লার্নিং / স্ট্যাটিস্টিকাল) সমস্যার মধ্যে খুব উচ্চ মাত্রা অতিরিক্ত-সীমাবদ্ধ বৈশিষ্ট্যগুলির ফলাফল।

অর্থাত্ মাত্রাগুলি স্বতন্ত্র নয় (বা সম্পর্কযুক্ত নয়) তবে ইউক্লিডিয়ান মেট্রিকগুলি (কমপক্ষে) আন-পারস্পরিক সম্পর্ক বলে ধরে নিয়েছে এবং ফলস্বরূপ সেরা ফলাফল নাও পেতে পারে

সুতরাং আপনার প্রশ্নের উত্তর দেওয়ার জন্য "উচ্চ মাত্রা" সংখ্যাটি কতগুলি বৈশিষ্ট্য আন্তঃ-অবনমিত বা রিডানড্যান্ট বা অতিরিক্ত সীমাবদ্ধ তার সাথে সম্পর্কিত

অতিরিক্তভাবে: এটি সিসজারের একটি উপপাদ্য (এটি ইত্যাদি) যে বৈশিষ্ট্যগুলি নির্দিষ্ট ফর্মের হয় তখন ইউক্লিডিয়ান মেট্রিকগুলি অনুমানের জন্য "প্রাকৃতিক" প্রার্থী হয়


3
ইউক্লিডিয়ান মেট্রিকগুলি "ধরে নেই ... আন-পারস্পরিক সম্পর্ক" নয়। ইউক্যালিডিয়ান দূরত্বগুলি অমীমাংসিত ভেরিয়েবলগুলির সাথে উচ্চ মাত্রায় সবচেয়ে খারাপ কাজ করে। চূড়ান্ত ক্ষেত্রে বিবেচনা করুন: আপনার অনেকগুলি মাত্রা রয়েছে যা পুরোপুরি একে অপরের সাথে সম্পর্কিত, r = 1, এখন আপনার ডেটা বাস্তবে এক-মাত্রিক, এবং ইউক্লিডিয়ান দূরত্ব সূক্ষ্ম ডাব্লু / ইউনি-ডাইমেনশনাল ডেটা কার্যকর করে।
গাং

না, আমি এটি ভাবি না, সংজ্ঞা অনুসারে ইউক্লিডিয়ান দূরত্বটি আন-ক্যারলেলেটেড ডেটা ধরে নিয়েছে (করিকেলেশন ম্যাট্রিক্স সহ সাধারণীকরণের ইউক্লিডিয়ান দূরত্ব ব্যবহার করা ব্যতীত)
নিকস এম।

মোট পারস্পরিক সম্পর্ক (r = 1) সহ বৈশিষ্ট্যগুলি একটি তুচ্ছ উদাহরণ এবং একটি "তুচ্ছ সম্পর্কের ম্যাট্রিক্স" এর সমতুল্য, তবে সম্ভবত আমি ভুল করছি
নিকোস এম

@ গুং আপনি ইউক্যালিডিয়ান ক্ষতির স্থির ইউনিট আইসোট্রপিক ভেরিয়েন্স ম্যাট্রিক্স সহ গৌসিয়ানদের ক্রস এনট্রপি ক্ষতি হিসাবে ব্যাখ্যা করতে পারেন। আমি মনে করি এটি একটি ভাল বিষয়, তবে এটি আরও ভালভাবে ব্যাখ্যা করা যেতে পারে।
নিল জি

1
(0,0)(1,1)dE=j(x2jx1j)22X1=X212cor(X1,X2)=02

0

এই কাগজটি আপনাকে "উন্নত স্কয়ার্ট-কোসাইন সমানতা পরিমাপ" পরিদর্শন করতে সহায়তা করতে পারে https: //j पत्रकारofbigdata.springeropen.com/articles/10.1186/s40537-017-0083-6 এই কাগজটি ব্যাখ্যা করে যে ইউক্লিডিয়ান দূরত্ব উচ্চ মাত্রিক কেন ভাল মেট্রিক নয়? ডেটা এবং উচ্চ মাত্রিক ডেটাতে ইউক্লিডিয়ান দূরত্বের জন্য সেরা প্রতিস্থাপন কী। ইউক্যালিডিয়ান দূরত্ব হ'ল এল 2 আদর্শ এবং Lk আদর্শে কে এর মান হ্রাস করার মাধ্যমে আমরা উচ্চ মাত্রিক ডেটাতে দূরত্বের সমস্যাটি দূর করতে পারি। আপনি এই কাগজে রেফারেন্সগুলিও খুঁজে পেতে পারেন।


2
সাইটে স্বাগতম। আমরা প্রশ্নোত্তর আকারে উচ্চ-মানের পরিসংখ্যান সম্পর্কিত তথ্যের একটি স্থায়ী সংগ্রহস্থল তৈরি করার চেষ্টা করছি। সুতরাং, লিঙ্করোটের কারণে আমরা কেবলমাত্র লিংক-উত্তর থেকে সাবধান ary আপনি যদি লিঙ্কে একটি সম্পূর্ণ উদ্ধৃতি এবং তথ্যের সংক্ষিপ্তসার পোস্ট করতে পারেন, এটি মারা যায় তবে?
গুং
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.