ড্রপআউট মডেল থেকে কিছু নিউরনকে দমন করে, কেন একটি ড্রপআউট স্তর যুক্ত গভীর / মেশিন লার্নিং কর্মক্ষমতা উন্নত করে?


13

যদি কিছু নিউরোন অপসারণের ফলে আরও ভাল পারফরম্যান্স মডেল আসে, তবে প্রথম স্তরটিতে কম স্তর এবং কম নিউরন সহ একটি সরল নিউরাল নেটওয়ার্ক ব্যবহার করবেন না কেন? কেন প্রথমদিকে আরও বড়, আরও জটিল মডেল তৈরি করেন এবং এর অংশগুলি পরে দমন করেন?

উত্তর:


31

ড্রপ আউট এর কাজটি হল মডেলের দৃust়তা বৃদ্ধি এবং নিউরনের মধ্যে যে কোনও সাধারণ নির্ভরতা অপসারণ করা।

নিউরনগুলি কেবলমাত্র একটি একক পাসের জন্য এবং নেটওয়ার্কের মাধ্যমে পিছিয়ে যাওয়ার জন্য সরানো হয় - যার অর্থ তাদের পাসের জন্য ওজন সিন্থেটিকভাবে শূন্যতে সেট করা আছে, এবং তাই তাদের ত্রুটিগুলিও রয়েছে, মানে ওজন আপডেট হয় না। ড্রপআউট নিয়মিতকরণের একটি রূপ হিসাবেও কাজ করে , কারণ এটি কিছুটা জটিলতার জন্য মডেলটিকে শাস্তি দিচ্ছে।

আমি মাইকেল নীলসনের ডিপ লার্নিং বই (ফ্রি এবং অনলাইন) এর ড্রপআউট বিভাগে একটি পড়ার পিএফ রাখার সুপারিশ করব , যা ভাল অনুভূতি দেয় এবং খুব সহায়ক ডায়াগ্রাম / ব্যাখ্যাও রয়েছে। তিনি ব্যাখ্যা করেছেন যে:

ড্রপআউট নিয়মিতকরণের জন্য একেবারে আলাদা কৌশল। এল 1 এবং এল 2 নিয়মিতকরণের বিপরীতে, ড্রপআউট ব্যয় ফাংশনটি পরিবর্তনের উপর নির্ভর করে না। পরিবর্তে, ড্রপআউটে আমরা নেটওয়ার্কটি নিজেই সংশোধন করি।

এখানে একটি চমৎকার সংক্ষিপ্ত নিবন্ধ । এই নিবন্ধ থেকে:

কিছু পর্যবেক্ষণ:

  • ড্রপআউট আরও মজবুত বৈশিষ্ট্যগুলি শিখতে একটি নিউরাল নেটওয়ার্ককে বাধ্য করে যা অন্যান্য নিউরনের অনেকগুলি বিভিন্ন এলোমেলো উপগ্রহের সাথে একত্রে দরকারী।
  • ড্রপআউট রূপান্তরকরণের জন্য প্রয়োজনীয় পুনরাবৃত্তির সংখ্যা দ্বিগুণ করে। তবে, প্রতিটি যুগের প্রশিক্ষণের সময় কম less
  • এইচ লুকানো ইউনিটগুলির সাথে, যার প্রত্যেকটি বাদ দেওয়া যেতে পারে, আমাদের কাছে 2 ^ এইচ সম্ভাব্য মডেল রয়েছে। পরীক্ষার পর্যায়ে পুরো নেটওয়ার্কটি বিবেচনা করা হয় এবং প্রতিটি অ্যাক্টিভেশন একটি ফ্যাক্টর পি দ্বারা হ্রাস পায়।

উদাহরণ

কল্পনা করুন আমি আপনাকে আমাকে এক কাপ চা তৈরি করতে বলি - আপনি জল alwaysালতে সর্বদা আপনার ডান হাতটি ব্যবহার করতে পারেন, আপনার বাম চোখের পানির স্তর পরিমাপ করতে এবং তারপরে আপনার ডান হাতটি আবার চামচ দিয়ে চাটি আলোড়ন করতে। এর অর্থ আপনার বাম হাত এবং ডান চোখের সামান্য উদ্দেশ্য রয়েছে। ড্রপআউট ব্যবহার করা উদাহরণস্বরূপ আপনার পিছনের পিছনে আপনার ডান হাতটি বেঁধে রাখবে - আপনাকে বাম হাত ব্যবহার করতে বাধ্য করবে। এখন আমাকে এক কাপ চা তৈরির পরে, এক চোখ বা এক হাত দিয়ে বাইরে নিয়ে যাওয়া, আপনি সমস্ত কিছু ব্যবহারের ক্ষেত্রে আরও ভাল প্রশিক্ষণ পেয়েছেন। সম্ভবত আপনি পরে একটি ছোট রান্নাঘরে চা তৈরি করতে বাধ্য হবেন, যেখানে কেবল আপনার বাম হাত দিয়ে কেটলি ব্যবহার করা সম্ভব ... এবং ড্রপআউট ব্যবহারের পরে, আপনার এটি করার অভিজ্ঞতা আছে! আপনি অদেখা ডেটা আরও শক্তিশালী হয়ে উঠেছে।


মাল্টি ক্লাস শ্রেণিবিন্যাসের সেরা ড্রপআউট মান কীভাবে নির্ধারণ করবেন? এবং কীভাবে ড্রপআউট স্তরটির সেরা সংখ্যা নির্ধারণ করবেন?
এন.আইটি

2
@ এন.আইটি - যতদূর আমি সচেতন, সেখানে কোনও নির্ধারিত পদ্ধতি নেই যা ড্রপআউটের সেরা স্তরটি খুঁজে পেতে পারে বা কত স্তরগুলি খুঁজে পেতে পারে - জাসুত বাদে অনেকগুলি সংমিশ্রণ চেষ্টা করে। নিয়মিতকরণ এবং আর্কিটেকচার অন্বেষণের অন্যান্য পদ্ধতির মতো, আপনি সম্ভবত কোনও মডেলকে প্রশিক্ষণ দিয়ে এবং প্রশিক্ষণ / বৈধতা হ্রাসকরণ কার্ভগুলির তুলনা করে সেরা ফলাফল পাবেন। বিষয়টির চারপাশে এই ব্যাখ্যাটি দেখুন ।
n1k31t4

দুর্দান্ত উত্তর। আপনার রান্নাঘরের উপমা সম্পর্কে আরও কংক্রিট হওয়ার জন্য, ড্রপআউট কেবল প্রশিক্ষণের সময় ব্যবহার করা হয়, অনুমানের সময় নয়। অতএব, জটিল মডেলটি আংশিকভাবে ব্যবহৃত হয় না।
বৈভব গর্গ

আমি এই উত্তরটি টাইপ করব আমার চোখ বন্ধ করে চাই। আরও প্রশিক্ষণের প্রয়োজন। nwws mouw seopour
ভিহ্যান্ডেড

3

ড্রপআউট আসলে নিউরনগুলিকে সরিয়ে দেয় না, কেবলমাত্র সেই নির্দিষ্ট নিউরনগুলি প্রদত্ত ব্যাচের তথ্যের জন্য কোনও ভূমিকা পালন করে না (সক্রিয় হয় না)।

উদাহরণ - ধরুন এখানে 8 টি লেনের রাস্তা রয়েছে - ট্রাকগুলি আসে তখন তারা 1,2,4,6,7 লেন দিয়ে যায়, যখন গাড়ি আসে তখন তারা 2,3,4,7,8 লেন দিয়ে যায় এবং যখন বাইক আসে , তারা 1,2,5,8 লেন দিয়ে যায়। সুতরাং কোনও যানবাহন নির্বিশেষে, সমস্ত লেন সেখানে রয়েছে, তবে কেবলমাত্র তাদের কয়েকটি ব্যবহার করা হয়েছে।

একইভাবে, সমস্ত নিউরোনগুলি পুরো মডেলটিতে ব্যবহৃত হয়, তবে নির্দিষ্ট ব্যাচের জন্য কেবল নিউরনের একটি উপসেট সক্রিয় করা হয়। এবং মডেলটি পরে কাটা হয় না, মডেলের জটিলতা যেমন রয়েছে তেমন রয়েছে।

ড্রপআউট কেন ব্যবহার করবেন?

ইয়ান গুডফেলোর ডিপ লার্নিং বইতে যেমন দেওয়া হয়েছে,

ওজন হ্রাস, ফিল্টার আদর্শের সীমাবদ্ধতা এবং বিচ্ছিন্ন ক্রিয়াকলাপ নিয়মিতকরণের মতো অন্যান্য স্ট্যান্ডার্ড কম্পিউটেশনালি কম ব্যয়বহুল নিয়ামকগুলির চেয়ে ড্রপআউট আরও কার্যকর।

তিনি আরও বলেন-

ড্রপআউটের একটি সুবিধা হ'ল এটি খুব কম কম্পিউটেশনাল সস্তা।

ড্রপআউটের আরেকটি উল্লেখযোগ্য সুবিধা হ'ল এটি ব্যবহার করা যায় এমন মডেল বা প্রশিক্ষণের পদ্ধতিতে উল্লেখযোগ্যভাবে সীমাবদ্ধ করে না। এটি প্রায় কোনও মডেলের সাথে ভাল কাজ করে যা বিতরণ উপস্থাপনা ব্যবহার করে এবং স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত দ্বারা প্রশিক্ষিত হতে পারে। এর মধ্যে রয়েছে ফিডফোরওয়ার্ড নিউরাল নেটওয়ার্ক, সম্ভাব্য মডেলগুলি যেমন সীমাবদ্ধ বোল্টজমান মেশিন (শ্রীবাস্তব এট আল।, ২০১৪) এবং পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলি (বায়ার এবং ওসেনডোরফার, ২০১৪; পাসকানু এট আল।, ২০১৪a) অন্তর্ভুক্ত রয়েছে।

এই বইটি বলে-

মূল ধারণাটি হ'ল একটি স্তরের আউটপুট মানগুলিতে শব্দের প্রবর্তন ঘটনাস্থলগুলির নিদর্শনগুলিকে ভেঙে ফেলতে পারে যা উল্লেখযোগ্য নয়, কোন শব্দ উপস্থিত না থাকলে নেটওয়ার্ক মুখস্থ করতে শুরু করবে।


আমি দমন শব্দটি ব্যবহার করার জন্য এবং মুছে ফেলার জন্য প্রশ্নটি সম্পাদনা করেছি। প্রশ্ন থেকেই যায়। যখন কেবলমাত্র কয়েকটি ব্যবহার করা হবে তখন কেন এতগুলি লেন তৈরি করবেন?
ব্যবহারকারী 781486

@ ব্যবহারকারীর 14১1486 them86 এর কিছু দ্বারা এটির অর্থ প্রতিটি ব্যাচের ডেটার জন্য কিছু রয়েছে তবে আপনি সম্পূর্ণ ডেটা বিবেচনা করলে সেগুলি সবই ব্যবহৃত হবে। আমার উদাহরণের মতো, আপনি প্রতিটি যানবাহনের জন্য লেন সংখ্যার সমন্বিত সেট নিলে সমস্ত লেন 1-8 ব্যবহার করা হয়।
অঙ্কিত শেঠ

3

ড্রপআউট কী করে তা দেখার আরেকটি উপায় হ'ল এটি কোনও কোয়েরিয়াট (কিছু জটিল ক্রিয়ামূলক রূপান্তরকৃত মূল কোভারিয়েটের কিছু জটিল ইন্টারঅ্যাকশন শব্দ) বায়েসিয়ান মডেলটির জন্য সহগের পূর্বে স্ল্যাব এবং স্পাইকের মতো। ইয়ারিন গাল তাঁর থিসিসে প্রস্তাবিত এটি ব্যাখ্যা ( তার প্রকাশনাগুলির তালিকা দেখুন )।

কেন এটি হয় তার জন্য এখানে একটি সংক্ষিপ্ত হাতে-তরঙ্গিত যুক্তি দেওয়া হল:

  • এই ব্যাচগুলিতে, যেখানে একটি নিউরন নির্মূল হয়, বৈশিষ্ট্য / কোভেরিয়েটের সহগ (নিউরনের মধ্যে থাকা নিউরাল নেটওয়ার্কের সংযোগ দ্বারা নির্মিত) শুন্য (শূন্যের স্পাইক)।
  • এই ব্যাচগুলিতে, যেখানে নিউরন উপস্থিত রয়েছে, গুণাগুলি অনিয়ন্ত্রিত (অনুপযুক্ত ফ্ল্যাট পূর্ব = স্ল্যাব)।
  • সমস্ত ব্যাচ জুড়ে গড়ে, আপনি একটি স্পাইক এবং স্ল্যাব আগে পাবেন prior

আমরা কেন আগে স্ল্যাব এবং স্পাইক চাইব? এটি নিউরন ছাড়াই একটি নিরপেক্ষ নেটওয়ার্ক এবং এটির মধ্যে একটির মধ্যে একটি বেইসিয়ান মডেলকে গড়ে তোলে u ভবিষ্যৎবাণী। এটি নিরপেক্ষ নেটওয়ার্কগুলিকে ডেটাতে বেশি পরিমাণে ফিট করতে সক্ষম হওয়ার প্রধান সমস্যাটিকে সম্বোধন করে (অবশ্যই এটি অর্জনের একমাত্র সম্ভাব্য উপায় নয়)।


ভাল যুক্তি. উত্তর আপডেট করবে।
বিজির্ন

2

ড্রপআউট স্তর নির্বিচারে নিউরনের একটি নির্দিষ্ট অংশকে টানতে থাকে, প্রশ্নে মডেলটির প্রতিনিধিত্বমূলক ক্ষমতা হ্রাস করে। এটি জটিল ননলাইনারের সিদ্ধান্তের সীমানা (যেমন ডেটাশেটের "গোলমাল") ফিটিং থেকে নেটওয়ার্ককে বাধা দেয়, সুতরাং এইভাবে (বা জাগ্রত করা) অতিরিক্ত ফিট করা রোধ করে।


0

ড্রপআউট নিম্নলিখিত কারণে একটি মেশিন লার্নিং মডেলের কর্মক্ষমতা উন্নত করতে সহায়তা করে:

  • নেটওয়ার্ককে সহজতর করা: এটি নেটওয়ার্ককে আরও সহজ করে তোলে, ওভার ফিটনেস প্রতিরোধ করে।
  • একটি সিঙ্গল সিম্পল নেটওয়ার্ক ব্যবহার করার চেয়ে ভাল: একটি সহজ নেটওয়ার্কটিকে ম্যানুয়ালি পুনরায় ডিজাইনিং করার চেয়ে ভাল কারণ আপনি যখন কোনও নির্দিষ্ট আর্কিটেকচার ডিজাইন করেন, পুরো প্রশিক্ষণের প্রক্রিয়াটি শেষ না হওয়া পর্যন্ত আপনি এটি পরিবর্তন করতে পারবেন না, যেমন সমস্ত যুগের জন্য নেটওয়ার্ক আর্কিটেকচার স্থির হয় না। কিন্তু ড্রপআউটে নেটওয়ার্ক প্রতিটি পর্বে বিভিন্ন উপায়ে সহজ হচ্ছে। 1000 যুগের জন্য বলুন আপনি 1000 ধরণের সরল নেটওয়ার্কের বিভিন্নতার সাথে প্রকৃতপক্ষে চেষ্টা করছেন।
  • বিভিন্ন উপায়ে শিখুন: নেটওয়ার্কের ইনপুট এবং আউটপুট পরিবর্তন হয় না, কেবলমাত্র তাদের মধ্যে ম্যাপিং হ'ল পরিবর্তন। সুতরাং কেবল এটি কল্পনা করুন যে, নেটওয়ার্ক বিভিন্ন জিনিস বিভিন্নভাবে একই জিনিস শিখছে। সুতরাং ঠিক এই নেটওয়ার্কটির মতোই, আমাদের মানুষের জন্য- যখনই আমরা একই সমস্যাটি বিভিন্ন উপায়ে চিন্তা করি আমরা স্বয়ংক্রিয়ভাবে এটিকে সাধারণীকরণ করতে শিখি এবং আমাদের সামগ্রিক জ্ঞান এবং বোঝাপড়াও উন্নত হয় এবং অনুরূপ জিনিসটি নেটওয়ার্কে ঘটে। প্রতিটি যুগের মধ্যে ড্রপআউট প্রক্রিয়া চলাকালীন এলোমেলোভাবে কিছু ওজন (একটি নিউরন থেকে পরবর্তী স্তরের অন্য নিউরনের সাথে সংযোগ) কাটা হচ্ছে, সুতরাং, আমরা বিদ্যমান নেটওয়ার্কগুলি এখনও উপলব্ধ যে সংযোগগুলি ব্যবহার করে শিখতে বাধ্য করছি এবং এইভাবে নেটওয়ার্ক শিখছে বিভিন্ন দৃষ্টিকোণ থেকে একই সমস্যাটিকে কীভাবে বিশ্লেষণ করা যায়।
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.