যদি কিছু নিউরোন অপসারণের ফলে আরও ভাল পারফরম্যান্স মডেল আসে, তবে প্রথম স্তরটিতে কম স্তর এবং কম নিউরন সহ একটি সরল নিউরাল নেটওয়ার্ক ব্যবহার করবেন না কেন? কেন প্রথমদিকে আরও বড়, আরও জটিল মডেল তৈরি করেন এবং এর অংশগুলি পরে দমন করেন?
যদি কিছু নিউরোন অপসারণের ফলে আরও ভাল পারফরম্যান্স মডেল আসে, তবে প্রথম স্তরটিতে কম স্তর এবং কম নিউরন সহ একটি সরল নিউরাল নেটওয়ার্ক ব্যবহার করবেন না কেন? কেন প্রথমদিকে আরও বড়, আরও জটিল মডেল তৈরি করেন এবং এর অংশগুলি পরে দমন করেন?
উত্তর:
ড্রপ আউট এর কাজটি হল মডেলের দৃust়তা বৃদ্ধি এবং নিউরনের মধ্যে যে কোনও সাধারণ নির্ভরতা অপসারণ করা।
নিউরনগুলি কেবলমাত্র একটি একক পাসের জন্য এবং নেটওয়ার্কের মাধ্যমে পিছিয়ে যাওয়ার জন্য সরানো হয় - যার অর্থ তাদের পাসের জন্য ওজন সিন্থেটিকভাবে শূন্যতে সেট করা আছে, এবং তাই তাদের ত্রুটিগুলিও রয়েছে, মানে ওজন আপডেট হয় না। ড্রপআউট নিয়মিতকরণের একটি রূপ হিসাবেও কাজ করে , কারণ এটি কিছুটা জটিলতার জন্য মডেলটিকে শাস্তি দিচ্ছে।
আমি মাইকেল নীলসনের ডিপ লার্নিং বই (ফ্রি এবং অনলাইন) এর ড্রপআউট বিভাগে একটি পড়ার পিএফ রাখার সুপারিশ করব , যা ভাল অনুভূতি দেয় এবং খুব সহায়ক ডায়াগ্রাম / ব্যাখ্যাও রয়েছে। তিনি ব্যাখ্যা করেছেন যে:
ড্রপআউট নিয়মিতকরণের জন্য একেবারে আলাদা কৌশল। এল 1 এবং এল 2 নিয়মিতকরণের বিপরীতে, ড্রপআউট ব্যয় ফাংশনটি পরিবর্তনের উপর নির্ভর করে না। পরিবর্তে, ড্রপআউটে আমরা নেটওয়ার্কটি নিজেই সংশোধন করি।
এখানে একটি চমৎকার সংক্ষিপ্ত নিবন্ধ । এই নিবন্ধ থেকে:
কিছু পর্যবেক্ষণ:
- ড্রপআউট আরও মজবুত বৈশিষ্ট্যগুলি শিখতে একটি নিউরাল নেটওয়ার্ককে বাধ্য করে যা অন্যান্য নিউরনের অনেকগুলি বিভিন্ন এলোমেলো উপগ্রহের সাথে একত্রে দরকারী।
- ড্রপআউট রূপান্তরকরণের জন্য প্রয়োজনীয় পুনরাবৃত্তির সংখ্যা দ্বিগুণ করে। তবে, প্রতিটি যুগের প্রশিক্ষণের সময় কম less
- এইচ লুকানো ইউনিটগুলির সাথে, যার প্রত্যেকটি বাদ দেওয়া যেতে পারে, আমাদের কাছে 2 ^ এইচ সম্ভাব্য মডেল রয়েছে। পরীক্ষার পর্যায়ে পুরো নেটওয়ার্কটি বিবেচনা করা হয় এবং প্রতিটি অ্যাক্টিভেশন একটি ফ্যাক্টর পি দ্বারা হ্রাস পায়।
কল্পনা করুন আমি আপনাকে আমাকে এক কাপ চা তৈরি করতে বলি - আপনি জল alwaysালতে সর্বদা আপনার ডান হাতটি ব্যবহার করতে পারেন, আপনার বাম চোখের পানির স্তর পরিমাপ করতে এবং তারপরে আপনার ডান হাতটি আবার চামচ দিয়ে চাটি আলোড়ন করতে। এর অর্থ আপনার বাম হাত এবং ডান চোখের সামান্য উদ্দেশ্য রয়েছে। ড্রপআউট ব্যবহার করা উদাহরণস্বরূপ আপনার পিছনের পিছনে আপনার ডান হাতটি বেঁধে রাখবে - আপনাকে বাম হাত ব্যবহার করতে বাধ্য করবে। এখন আমাকে এক কাপ চা তৈরির পরে, এক চোখ বা এক হাত দিয়ে বাইরে নিয়ে যাওয়া, আপনি সমস্ত কিছু ব্যবহারের ক্ষেত্রে আরও ভাল প্রশিক্ষণ পেয়েছেন। সম্ভবত আপনি পরে একটি ছোট রান্নাঘরে চা তৈরি করতে বাধ্য হবেন, যেখানে কেবল আপনার বাম হাত দিয়ে কেটলি ব্যবহার করা সম্ভব ... এবং ড্রপআউট ব্যবহারের পরে, আপনার এটি করার অভিজ্ঞতা আছে! আপনি অদেখা ডেটা আরও শক্তিশালী হয়ে উঠেছে।
ড্রপআউট আসলে নিউরনগুলিকে সরিয়ে দেয় না, কেবলমাত্র সেই নির্দিষ্ট নিউরনগুলি প্রদত্ত ব্যাচের তথ্যের জন্য কোনও ভূমিকা পালন করে না (সক্রিয় হয় না)।
উদাহরণ - ধরুন এখানে 8 টি লেনের রাস্তা রয়েছে - ট্রাকগুলি আসে তখন তারা 1,2,4,6,7 লেন দিয়ে যায়, যখন গাড়ি আসে তখন তারা 2,3,4,7,8 লেন দিয়ে যায় এবং যখন বাইক আসে , তারা 1,2,5,8 লেন দিয়ে যায়। সুতরাং কোনও যানবাহন নির্বিশেষে, সমস্ত লেন সেখানে রয়েছে, তবে কেবলমাত্র তাদের কয়েকটি ব্যবহার করা হয়েছে।
একইভাবে, সমস্ত নিউরোনগুলি পুরো মডেলটিতে ব্যবহৃত হয়, তবে নির্দিষ্ট ব্যাচের জন্য কেবল নিউরনের একটি উপসেট সক্রিয় করা হয়। এবং মডেলটি পরে কাটা হয় না, মডেলের জটিলতা যেমন রয়েছে তেমন রয়েছে।
ড্রপআউট কেন ব্যবহার করবেন?
ইয়ান গুডফেলোর ডিপ লার্নিং বইতে যেমন দেওয়া হয়েছে,
ওজন হ্রাস, ফিল্টার আদর্শের সীমাবদ্ধতা এবং বিচ্ছিন্ন ক্রিয়াকলাপ নিয়মিতকরণের মতো অন্যান্য স্ট্যান্ডার্ড কম্পিউটেশনালি কম ব্যয়বহুল নিয়ামকগুলির চেয়ে ড্রপআউট আরও কার্যকর।
তিনি আরও বলেন-
ড্রপআউটের একটি সুবিধা হ'ল এটি খুব কম কম্পিউটেশনাল সস্তা।
ড্রপআউটের আরেকটি উল্লেখযোগ্য সুবিধা হ'ল এটি ব্যবহার করা যায় এমন মডেল বা প্রশিক্ষণের পদ্ধতিতে উল্লেখযোগ্যভাবে সীমাবদ্ধ করে না। এটি প্রায় কোনও মডেলের সাথে ভাল কাজ করে যা বিতরণ উপস্থাপনা ব্যবহার করে এবং স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত দ্বারা প্রশিক্ষিত হতে পারে। এর মধ্যে রয়েছে ফিডফোরওয়ার্ড নিউরাল নেটওয়ার্ক, সম্ভাব্য মডেলগুলি যেমন সীমাবদ্ধ বোল্টজমান মেশিন (শ্রীবাস্তব এট আল।, ২০১৪) এবং পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলি (বায়ার এবং ওসেনডোরফার, ২০১৪; পাসকানু এট আল।, ২০১৪a) অন্তর্ভুক্ত রয়েছে।
এই বইটি বলে-
মূল ধারণাটি হ'ল একটি স্তরের আউটপুট মানগুলিতে শব্দের প্রবর্তন ঘটনাস্থলগুলির নিদর্শনগুলিকে ভেঙে ফেলতে পারে যা উল্লেখযোগ্য নয়, কোন শব্দ উপস্থিত না থাকলে নেটওয়ার্ক মুখস্থ করতে শুরু করবে।
ড্রপআউট কী করে তা দেখার আরেকটি উপায় হ'ল এটি কোনও কোয়েরিয়াট (কিছু জটিল ক্রিয়ামূলক রূপান্তরকৃত মূল কোভারিয়েটের কিছু জটিল ইন্টারঅ্যাকশন শব্দ) বায়েসিয়ান মডেলটির জন্য সহগের পূর্বে স্ল্যাব এবং স্পাইকের মতো। ইয়ারিন গাল তাঁর থিসিসে প্রস্তাবিত এটি ব্যাখ্যা ( তার প্রকাশনাগুলির তালিকা দেখুন )।
কেন এটি হয় তার জন্য এখানে একটি সংক্ষিপ্ত হাতে-তরঙ্গিত যুক্তি দেওয়া হল:
আমরা কেন আগে স্ল্যাব এবং স্পাইক চাইব? এটি নিউরন ছাড়াই একটি নিরপেক্ষ নেটওয়ার্ক এবং এটির মধ্যে একটির মধ্যে একটি বেইসিয়ান মডেলকে গড়ে তোলে u ভবিষ্যৎবাণী। এটি নিরপেক্ষ নেটওয়ার্কগুলিকে ডেটাতে বেশি পরিমাণে ফিট করতে সক্ষম হওয়ার প্রধান সমস্যাটিকে সম্বোধন করে (অবশ্যই এটি অর্জনের একমাত্র সম্ভাব্য উপায় নয়)।
ড্রপআউট স্তর নির্বিচারে নিউরনের একটি নির্দিষ্ট অংশকে টানতে থাকে, প্রশ্নে মডেলটির প্রতিনিধিত্বমূলক ক্ষমতা হ্রাস করে। এটি জটিল ননলাইনারের সিদ্ধান্তের সীমানা (যেমন ডেটাশেটের "গোলমাল") ফিটিং থেকে নেটওয়ার্ককে বাধা দেয়, সুতরাং এইভাবে (বা জাগ্রত করা) অতিরিক্ত ফিট করা রোধ করে।
ড্রপআউট নিম্নলিখিত কারণে একটি মেশিন লার্নিং মডেলের কর্মক্ষমতা উন্নত করতে সহায়তা করে: