মেশিন লার্নিংয়ের মাত্রাটির অভিশাপ ব্যাখ্যা করা হয়েছে?


14

মাত্রিকতার অভিশাপ বুঝতে আমার সমস্যা হচ্ছে। বিশেষত, scikit-learnপাইথনের টিউটোরিয়াল করার সময় আমি এটি পেরিয়ে এসেছি। কেউ দয়া করে নীচে সহজ পদ্ধতিতে ব্যাখ্যা করতে পারেন? দুঃখিত আমি দীর্ঘকাল ধরে বোঝার চেষ্টা করে যাচ্ছি এবং বুঝতে পারছি না কীভাবে তারা দক্ষ কেএনএন অনুমানক অর্জনের জন্য প্রশিক্ষণের কয়েকটি সংখ্যার গণনা নিয়ে এসেছিল?

এখানে ব্যাখ্যা:

একটি অনুমানকারী কার্যকর হওয়ার জন্য, প্রতিবেশী পয়েন্টগুলির মধ্যে দূরত্বের দরকার কিছু মান ডি থেকে কম হওয়া, যা সমস্যার উপর নির্ভর করে। একটি মাত্রায় এটির জন্য গড়ে n ~ 1 / d পয়েন্ট প্রয়োজন। উপরের কেএনএন উদাহরণের প্রসঙ্গে, যদি ডেটা 0 থেকে 1 অবধি এবং n প্রশিক্ষণ পর্যবেক্ষণ সহ মানগুলির একটি মাত্র বৈশিষ্ট্য দ্বারা বর্ণনা করা হয়, তবে নতুন ডেটা 1 / n এর বাইরে আর থাকবে না। অতএব, নিকটবর্তী প্রতিবেশী সিদ্ধান্তের নিয়মটি ক্লাসের বৈশিষ্ট্যটির বৈচিত্রের পরিবর্তনের স্কেলের তুলনায় 1 / এন ছোট হওয়ার সাথে সাথে কার্যকর হবে।

যদি বৈশিষ্ট্যের সংখ্যা পি হয় তবে আপনার এখন n ~ 1 / d ^ p পয়েন্ট প্রয়োজন। ধরা যাক যে আমাদের এক মাত্রায় 10 পয়েন্ট প্রয়োজন: [0, 1] স্থান প্রশস্ত করার জন্য এখন 10 ^ p পয়েন্টের প্রয়োজন। পি বড় হওয়ার সাথে সাথে, একটি ভাল অনুমানকারীগুলির জন্য প্রয়োজনীয় প্রশিক্ষণের পয়েন্টগুলির সংখ্যা দ্রুত বৃদ্ধি পায় grows

এখানে লিঙ্ক

সম্পাদনা: এছাড়াও টিলড ( ~) যে উদাহরণটিতে আনুমানিক উপস্থাপন করে? বা পাইথন টিল্ড অপারেটর?



@ এমবাচকারভ হা আপনাকে ধন্যবাদ। আনুমানিক এবং আনুপাতিক

উত্তর:


11

সেই অনুচ্ছেদে অনুবাদ করা:

এমন কোনও বৈশিষ্ট্যগুলির সেট তৈরি করা যাক যা ডেটা পয়েন্ট বর্ণনা করে। আপনি আবহাওয়া তাকিয়ে থাকতে পারে। বৈশিষ্ট্যের এই সেটটিতে তাপমাত্রা, আর্দ্রতা, দিনের সময় ইত্যাদির মতো জিনিস অন্তর্ভুক্ত থাকতে পারে তাই প্রতিটি ডাটা পয়েন্টের একটি বৈশিষ্ট্য থাকতে পারে (যদি আপনি কেবলমাত্র তাপমাত্রার দিকে তাকিয়ে থাকেন) বা এতে দুটি বৈশিষ্ট্য থাকতে পারে (আপনি যদি তাপমাত্রার দিকে তাকান তবে এবং আর্দ্রতা) এবং তাই। এই অনুচ্ছেদটি যা বলছে তা হ'ল আপনার ডেটা যে পরিমাণ মাত্রা রয়েছে (তার কতগুলি বৈশিষ্ট্য রয়েছে) তার উপর ভিত্তি করে, অনুমানকারী তৈরি করা তত বেশি কঠিন। এটি কারণ যদি আপনার কেবলমাত্র ডেটা বা 1-মাত্রিক ডেটা বৈশিষ্ট্য থাকে তবে আপনি যখন এই ডেটা গ্রাফ করতে যান তখন আপনি একটি লাইন গ্রাফ পাবেন এবং 0-50 ডিগ্রি সেন্টিগ্রেডের মধ্যে লাইন গ্রাফটি কল্পনা করুন, এটি কেবল গ্রহণ করবে প্রতিটি ডাটা পয়েন্টের আগে 50 এলোমেলো পয়েন্টগুলি অন্য কোনও ডেটা পয়েন্ট থেকে প্রায় 1 ডিগ্রি থাকে। এখন ' s 2 টি মাত্রা সম্পর্কে ভাবুন, আর্দ্রতা এবং তাপমাত্রার বিষয়ে কথা বলুন, এখন ডিটি এটির মতো খুঁজে পাওয়া কঠিন যে সমস্ত পয়েন্টগুলি একে অপরের "ডি" ইউনিটের মধ্যে রয়েছে। কল্পনা করুন তাপমাত্রা এখনও 0-50 এর মধ্যে রয়েছে তবে এখন আর্দ্রতা 0-100% এর মধ্যেও রয়েছে। একে অপরের 1 বা 2 এর মধ্যে সমস্ত পয়েন্ট পেতে কতগুলি এলোমেলো পয়েন্ট লাগে? এখন এটি 100 * 50 বা 5,000 ডলার! এখন 3 টি মাত্রা ইত্যাদি কল্পনা করুন আপনার প্রতিটি পয়েন্ট অন্য কোনও পয়েন্টের d এর মধ্যে রয়েছে তা নিশ্চিত করার জন্য আপনাকে আরও পয়েন্টের প্রয়োজন শুরু করে। আপনার জীবনকে আরও সহজ করার জন্য "d" হ'ল অনুমানের চেষ্টা করুন এবং দেখুন কী ঘটে। আশা করি এইটি কাজ করবে! একে অপরের 1 বা 2 এর মধ্যে সমস্ত পয়েন্ট পেতে কতগুলি এলোমেলো পয়েন্ট লাগে? এখন এটি 100 * 50 বা 5,000 ডলার! এখন 3 টি মাত্রা ইত্যাদি কল্পনা করুন আপনার প্রতিটি পয়েন্ট অন্য কোনও পয়েন্টের d এর মধ্যে রয়েছে তা নিশ্চিত করার জন্য আপনাকে আরও পয়েন্টের প্রয়োজন শুরু করে। আপনার জীবনকে আরও সহজ করার জন্য "d" হ'ল অনুমানের চেষ্টা করুন এবং দেখুন কী ঘটে। আশা করি এইটি কাজ করবে! একে অপরের 1 বা 2 এর মধ্যে সমস্ত পয়েন্ট পেতে কতগুলি এলোমেলো পয়েন্ট লাগে? এখন এটি 100 * 50 বা 5,000 ডলার! এখন 3 টি মাত্রা ইত্যাদি কল্পনা করুন আপনার প্রতিটি পয়েন্ট অন্য কোনও পয়েন্টের d এর মধ্যে রয়েছে তা নিশ্চিত করার জন্য আপনাকে আরও পয়েন্টের প্রয়োজন শুরু করে। আপনার জীবনকে আরও সহজ করার জন্য "d" হ'ল অনুমানের চেষ্টা করুন এবং দেখুন কী ঘটে। আশা করি এইটি কাজ করবে!


2
এটি একটি ভাল ব্যাখ্যা, তবে তারা যে সমীকরণ সরবরাহ করেছিল তা কী? আপনার 1 বৈশিষ্ট্যের উদাহরণে, যেখানে আমি অনুমানকারীটি 1 ডিগ্রি দূরে থাকতে চাই, (অর্থাত্ d = 1) তবে তাদের সমীকরণটির n~1/dঅর্থ n এর প্রায় 1 হওয়া দরকার? এতো বোঝা যায় না?

না তারা বলছেন না যে বৈশিষ্টটিতে যদি 0-1 (খনিতে 0-50 এর পরিসীমা থাকে) থাকে তবে আপনি 1 / d পয়েন্ট করবেন যাতে প্রতিটি একে অপরের থেকে প্রায় ডি। এটি আমার উদাহরণটির জন্য কাজ করে যেহেতু আপনার প্রায় 50/1 পয়েন্ট প্রয়োজন যেখানে 1 "d" হয়। দুঃখিত, এই সমীকরণগুলি টাইপ করতে বিভ্রান্তিকর তবে আমি মনে করি এটির সহায়তা করা উচিত

12

matty-d ইতিমধ্যে একটি খুব ভাল উত্তর সরবরাহ করেছে, তবে আমি একটি উত্তর পেয়েছি যা এই সমস্যাটিকে সমানভাবে ব্যাখ্যা করে, একজন কোওরার ব্যবহারকারী কেভিন ল্যাকারের কাছ থেকে:

ধরা যাক আপনার 100 গজ দীর্ঘ লম্বা একটি সরল রেখা রয়েছে এবং আপনি তার উপর একটি পয়সা ফেলেছেন। এটি খুঁজে পাওয়া খুব কঠিন হবে না। আপনি লাইন ধরে হাঁটেন এবং এতে দুই মিনিট সময় লাগে।

এখন ধরা যাক যে আপনার প্রতিটি পাশের বর্গাকার 100 গজ এবং আপনি তার কোথাও একটি পয়সা ফেলেছেন। এটি একসাথে আটকে থাকা দুটি ফুটবলের ক্ষেত্র জুড়ে অনুসন্ধান করার মতো সুন্দর হবে। এটি কয়েক দিন সময় নিতে পারে।

এখন 100 গজ জুড়ে একটি ঘনক্ষেত্র। এটি একটি ফুটবল স্টেডিয়ামের আকারের 30-তলা বিল্ডিং অনুসন্ধান করার মতো। বিতৃষ্ণা।

আপনার আরও মাত্রা হওয়ায় স্থানটি অনুসন্ধানের অসুবিধা অনেক বেশি শক্ত হয়ে যায়। এটি গাণিতিক সূত্রগুলিতে সবেমাত্র বর্ণিত হওয়ার পরে আপনি এটিকে স্বজ্ঞাতভাবে বুঝতে পারবেন না, যেহেতু তাদের সবার একই "প্রস্থ" রয়েছে। এটি মাত্রিকতার অভিশাপ। এটি একটি নাম পেতে পারে কারণ এটি অনর্থক, দরকারী এবং তবুও সহজ।


-1

এই উদাহরণটি সমস্যার কিছুটা অন্তর্দৃষ্টি দিতে পারে তবে বাস্তবে এটি কোনও কঠোর প্রমাণ নয়: এটি কেবলমাত্র একটি উদাহরণ যেখানে "ভাল" স্থানের কভারেজ পাওয়ার জন্য অনেকগুলি নমুনার প্রয়োজন হয়। একটি নিয়মিত গ্রিডের চেয়ে অনেক বেশি দক্ষ কভ্রেজ থাকতে পারে (এবং ইতিমধ্যে 2 ডি তে উদাহরণস্বরূপ হেক্সাগন রয়েছে) থাকতে পারে ... (নিম্ন তাত্পর্যপূর্ণ ক্রমগুলির পরিশীলিত ক্ষেত্রটি এটিতে উত্সর্গীকৃত) ... এবং প্রমাণিত হয় যে এমনকি আরও ভাল আচ্ছাদন সহ মাত্রিকতার কিছু অভিশাপ এখনও অন্য বিষয় is আসলে নির্দিষ্ট ফাংশন স্পেসে এই আপাত সমস্যাটি নিরসনের এমনকি উপায় রয়েছে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.