এলএসটিএম এর কোন স্তরটিতে ড্রপআউট?


11

LSTMড্রপআউট সহ একাধিক স্তর ব্যবহার করে, সমস্ত আড়াল স্তরগুলির পাশাপাশি আউটপুট ঘন স্তরগুলিতে ড্রপআউট রাখার পরামর্শ দেওয়া হয় কি? হিন্টনের কাগজে (যা ড্রপআউটের প্রস্তাব দিয়েছিল) তিনি কেবল ড্রপআউটকে ঘন স্তরগুলিতে ফেলেছিলেন, তবে এটি কারণ লুকানো অভ্যন্তরীণ স্তরগুলি সংবিধানমূলক ছিল।

স্পষ্টতই, আমি আমার নির্দিষ্ট মডেলটির জন্য পরীক্ষা করতে পারি, তবে আমি ভাবছিলাম যে এই বিষয়ে কোন sensক্যমত আছে কিনা?


3
কিছু ভাল এই কাগজে পৌনঃপুনিক নেটওয়ার্কে ড্রপআউট আলোচনা যদি তুমি আগ্রহী: arxiv.org/abs/1512.05287 গালা, Yarin এবং Zoubin Ghahramani। "পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলিতে ড্রপআউটের একটি তাত্ত্বিক ভিত্তিতে ভিত্তিক অ্যাপ্লিকেশন" " নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমগুলিতে অগ্রগতি। 2016.
redhqs

2
@ মিডিয়া নীচে যা বলেছে তা নিশ্চিত করার জন্য মনে হচ্ছে
বিগব্যাডমে

উত্তর:


12

আমি LSTMএকটি নির্দিষ্ট এবং স্পষ্ট কারণে কোষে ড্রপ আউট যুক্ত না করা পছন্দ করি । LSTMsদীর্ঘ মেয়াদের জন্য ভাল তবে তাদের সম্পর্কে একটি গুরুত্বপূর্ণ বিষয় হ'ল তারা একসাথে একাধিক জিনিস মুখস্থ করার ক্ষেত্রে খুব ভাল নয়। ড্রপ আউটয়ের যুক্তিটি কোনও নির্দিষ্ট নিউরনের উপর নির্ভরশীল না হওয়ার জন্য নিউরনের সাথে শব্দ যোগ করার জন্য। LSTMকোষগুলির জন্য ড্রপ আউট যুক্ত করে, এমন কিছু ভুলে যাওয়ার সুযোগ রয়েছে যা ভুলে যাওয়া উচিত নয়। ফলস্বরূপ, CNNsআমি সর্বদা স্তরগুলির পরে ঘন স্তরগুলিতে ড্রপ আউট ব্যবহার করতে পছন্দ করি LSTM


1
আপনি যা বলছেন তা আমি বুঝতে পেরেছি এবং এটি উপলব্ধি করেছে তবে তারপরে কেন কেরাস বা টেনসরফ্লোতে এলএসটিএম সেল বাস্তবায়ন ড্রপআউট (এবং পুনরুক্ত ড্রপআউট) নির্দিষ্ট করার ক্ষমতা সরবরাহ করে যদি এটি কার্যকরভাবে এলএসটিএমকে কীভাবে অনুমান করা উচিত তা হ্রাস করে ফাংশন আছে?
বিগব্যাডমে

3
এতে CNNsকনভ্যুশনাল স্তরগুলিতে অল্প সংখ্যক ওজনের কারণে কনফি স্তরগুলিতে এগুলি ব্যবহার না করা সম্পূর্ণ গ্রহণযোগ্য। ইন LSTMsঅপরপক্ষে, ওজন সংখ্যা ছোট নয়। যেহেতু আমি কার্যগুলিতে উল্লেখ করেছি যে এখানে অনেকগুলি জিনিস মুখস্থ করতে হবে, আমি ড্রপআউট ব্যবহার না করার চেষ্টা করব তবে এটি ক্রিয়া ক্রমের মতো ঘটায় যে আপনার অনেক নির্ভরতা নেই, আমার ধারণা এটি খুব খারাপ নয়। যাইহোক, এটি আমার অভিজ্ঞতা ছিল। বিভিন্ন অ্যাপ্লিকেশন ডোমেনের জন্য অন্যান্য উত্তর থাকতে পারে।
মিডিয়া

1
উভয় জবাব দিয়ে দুর্দান্ত ব্যাখ্যা! (+ 1)
আদিত্য

5

কোনও modelক্যমত্য নেই যা সমস্ত মডেলের ধরণের ক্ষেত্রে প্রমাণিত হতে পারে।

নিয়মিতকরণের ফর্ম হিসাবে ড্রপআউটের চিন্তাভাবনা , এর কতটুকু প্রয়োগ করা হবে (এবং কোথায়), তা সহজাতভাবে ডেটাসেটের ধরণ এবং আকারের উপর নির্ভর করবে, পাশাপাশি আপনার নির্মিত মডেলের জটিলতায় (এটি কত বড়)।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.