মাত্রিকতার অভিশাপ: কেএনএন শ্রেণিবদ্ধকারী


11

আমি কেভিন মারফি বইটি পড়ছি: মেশিন লার্নিং-এ সম্ভাব্য দৃষ্টিভঙ্গি। প্রথম অধ্যায়ে লেখক মাত্রিকতার অভিশাপ ব্যাখ্যা করছেন এবং এর একটি অংশ রয়েছে যা আমি বুঝতে পারি না। উদাহরণ হিসাবে, লেখক বলেছেন:

ইনপুটগুলি ডি-ডাইমেনশনাল ইউনিট কিউবে সমানভাবে বিতরণ করা হয়েছে তা বিবেচনা করুন। ধরুন আমরা x কাছাকাছি একটি অধি ঘনক্ষেত্র ক্রমবর্ধমান দ্বারা বর্গ লেবেলের ঘনত্ব অনুমান পর্যন্ত এটি কাঙ্ক্ষিত ভগ্নাংশ রয়েছে উপর ভিত্তি করে বিন্দুর। এই ঘনক্ষেত্র প্রত্যাশিত প্রান্ত দৈর্ঘ্য হল।ডি()=1ডি

এটি সর্বশেষ সূত্র যা আমি মাথা পেতে পারি না। দেখে মনে হচ্ছে আপনি প্রান্তের দৈর্ঘ্যের চেয়ে 10% পয়েন্টের প্রতিটি মাত্রা বরাবর 0.1 হওয়া উচিত? আমি জানি আমার যুক্তি ভুল তবে কেন বুঝতে পারছি না।


6
প্রথমে পরিস্থিতিটি দুটি মাত্রায় চিত্রিত করার চেষ্টা করুন। যদি আমি একটি 1 মি * কাগজ 1 মি শীট আছে, এবং আমি একটি 0.1m * নীচে বাঁদিকের কোণায় আউট 0.1m বর্গাকার, আমি আছে এই কাটা না কাগজ এক দশমাংশ মুছে, কিন্তু শুধুমাত্র একটি শততম
ডেভিড জাং

উত্তর:


13

এটি উচ্চ মাত্রায় দূরত্বের অবিকল অপ্রত্যাশিত আচরণ। 1 মাত্রার জন্য, আপনার অন্তর [0, 1] রয়েছে। পয়েন্টগুলির 10% দৈর্ঘ্যের 0.1 সেগমেন্টে রয়েছে। তবে বৈশিষ্ট্যের স্থানটির মাত্রিকতা বাড়ার সাথে সাথে কী ঘটে?

এই অভিব্যক্তিটি আপনাকে বলছে যে আপনি যদি 5 টি মাত্রার জন্য পয়েন্টের 10% পেতে চান তবে আপনার 0,79 এর ঘনকটির জন্য দৈর্ঘ্য 0,79 এর 10 মাত্রা এবং 100 মাত্রার জন্য 0.98 হওয়া দরকার।

যেমনটি আপনি দেখছেন, মাত্রা বৃদ্ধির জন্য একই পরিমাণে পয়েন্ট পেতে আপনাকে আরও দূরে সন্ধান করতে হবে। আরও বেশি, আপনাকে জানিয়ে দিচ্ছে যে পয়েন্টগুলির বেশিরভাগই ঘনক্ষেত্রের সীমানায় রয়েছে কারণ মাত্রা বৃদ্ধি করে। যা অপ্রত্যাশিত।


4

আমি মনে করি যে লক্ষ্য করার প্রধান বিষয়টি হ'ল প্রকাশ

ডি()=1ডি

শুরুতে সত্যিই খাড়া। এর অর্থ হ'ল ভলিউমের একটি নির্দিষ্ট ভগ্নাংশকে ঘিরে আপনার প্রয়োজনীয় প্রান্তের আকারটি বিশেষত শুরুতে বিশেষত বৃদ্ধি পাবে। অর্থাত্ আপনার প্রান্তটি হাস্যকর আকারে বড় হয়ে যাবেডি বাড়ে।

এটি আরও পরিষ্কার করার জন্য, মারফি যে প্লটটি দেখিয়েছেন তা পুনরায় স্মরণ করুন:

এখানে চিত্র বর্ণনা লিখুন

যদি আপনি খেয়াল করেন, এর মানগুলির জন্য ডি>1, theাল সত্যই বড় এবং তাই, ফাংশনটি শুরুতে খুব খাড়াভাবে বৃদ্ধি পায়। আপনি যদি এর উদ্দীপনা গ্রহণ করেন তবে এটি আরও ভালভাবে প্রশংসা করা যেতে পারেডি():

ডি'()=1ডি1ডি-1=1ডি1-ডিডি

যেহেতু আমরা কেবলমাত্র ক্রমবর্ধমান মাত্রা (যা পূর্ণসংখ্যার মানগুলি) বিবেচনা করছি, আমরা কেবলমাত্র পূর্ণসংখ্যার মানগুলির যত্ন নিই ডি>1। এই যে মানে1-ডি<0। প্রান্তটির জন্য নিম্নরূপে ভাবটি বিবেচনা করুন:

ডি'()=1ডি(1-ডি)1ডি

আমরা যে বিজ্ঞপ্তিগুলি উত্থাপন করছি 0 এর চেয়ে কম পাওয়ার হিসাবে (অর্থাত্ নেতিবাচক)। যখন আমরা নেতিবাচক শক্তিগুলিতে সংখ্যা বাড়িয়ে তুলি আমরা এক পর্যায়ে একটি পারস্পরিক কাজ (অর্থাত্‍) করিএক্স-1=1এক্স)। ইতিমধ্যে খুব ছোট এমন একটি সংখ্যার সাথে পারস্পরিক ক্রিয়াকলাপ করা rec<1 যেহেতু আমরা কেবল ভলিউমের ভগ্নাংশ বিবেচনা করছি, যেহেতু আমরা কেএনএন করছি, অর্থাৎ মোট মধ্যে নিকটতম তথ্য পয়েন্ট এন) এর অর্থ হ'ল সংখ্যাটি "অনেক বাড়বে"। অতএব, আমরা কাঙ্ক্ষিত আচরণ পাই, অর্থাৎ সেই হিসাবে asডি শক্তি বৃদ্ধি করে আরও বেশি নেতিবাচক হয়ে যায় এবং এজন্য প্রয়োজনীয় প্রান্তটি কতটা বড় নির্ভর করে অনেক বেড়ে যায় ডি ক্ষয়কারীকে বাড়িয়ে তোলে।

(লক্ষ্য করুন 1-ডি বিভাগের তুলনায় তাত্পর্যপূর্ণভাবে বৃদ্ধি পায় 1ডি যা তাড়াতাড়ি তুচ্ছ হয়ে যায়)।


2

হ্যাঁ, সুতরাং যদি আপনার কাছে ইউনিট কিউব থাকে, বা আপনার ক্ষেত্রে ইউনিট লাইন রয়েছে এবং ডেটাটি সমানভাবে বিতরণ করা হয় তবে আপনাকে 10% ডেটা ক্যাপচার করতে আপনাকে দৈর্ঘ্য 0.1 করতে হবে। এখন আপনি মাত্রা বৃদ্ধি করার সাথে সাথে ডি বৃদ্ধি পাবে, যা পাওয়ারকে কমিয়ে দেয় এবং চ এর 1 এর চেয়ে কম হওয়া, বৃদ্ধি পাবে যেমন ডি যদি অনন্ততায় যায় তবে আপনাকে সমস্ত কিউব ক্যাপচার করতে হবে, e = 1।


0

আমি মনে করি কেএনএন দূরত্বের জন্য আরও বড় ভূমিকা পালন করে। (হাইপার) কিউবতে যা ঘটে তা পয়েন্টগুলির মধ্যে দূরত্বের সাথে কী হয় তা সাদৃশ্যপূর্ণ। আপনি মাত্রাগুলির সংখ্যা বাড়ানোর সাথে সাথে গড় দূরত্বের সবচেয়ে কাছের দূরত্বের মধ্যে অনুপাত বৃদ্ধি পায় - এর অর্থ হল নিকটতম বিন্দু গড় পয়েন্ট হিসাবে প্রায় দূরে, তবে এটির গড় বিন্দুর চেয়ে সামান্য আরও ভবিষ্যদ্বাণীপূর্ণ শক্তি রয়েছে। এই নিবন্ধটি সুন্দরভাবে এটি ব্যাখ্যা করে

স্ক্র্যাচ থেকে ডেটা সায়েন্সে এই সমস্যাটি বর্ণনা করার জন্য জোয়েল গ্রাস একটি ভাল কাজ করেছেন। সেই বইতে তিনি একটি মাত্রার জায়গাতে দুটি পয়েন্টের মধ্যে গড় এবং ন্যূনতম দূরত্বগুলি গণনা করেন মাত্রার সংখ্যা বৃদ্ধি পাওয়ার সাথে সাথে। তিনি পয়েন্টগুলির মধ্যে ১০,০০০ দূরত্বের গণনা করেছিলেন, যার মাত্রা 0 থেকে 100 অবধি রয়েছে। তারপরে তিনি দুটি পয়েন্টের মধ্যে গড় এবং সর্বনিম্ন দূরত্বের পাশাপাশি গড় দূরত্বের নিকটতম দূরত্বের অনুপাত (দূরত্ব_ক্ল্যাসেস্ট / ডিস্টেন্স_এভারেজ) নির্ধারণ করতে এগিয়ে যান) ।

এই প্লটগুলিতে জোয়েল দেখিয়েছিল যে গড় দূরত্বের নিকটতম দূরত্বের অনুপাতটি 0 থেকে 0 মাত্রায় 0 থেকে 100 মাত্রায় at 0.8 পর্যন্ত বেড়েছে। এবং এটি কে-নিকটতম প্রতিবেশী অ্যালগরিদম ব্যবহার করার সময় মাত্রিকতার মৌলিক চ্যালেঞ্জ দেখায়; মাত্রাগুলির সংখ্যা বাড়ার সাথে সাথে গড় দূরত্বের নিকটতম দূরত্বের অনুপাত 1 অ্যালগরিদমের ভবিষ্যদ্বাণীক শক্তি হ্রাস হওয়ার সাথে সাথে। যদি নিকটতম পয়েন্টটি গড় পয়েন্টের থেকে প্রায় দূরে থাকে তবে এটিতে গড় পয়েন্টের তুলনায় সামান্য বেশি ভবিষ্যদ্বাণীী শক্তি রয়েছে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.