ড্রপআউট এবং ড্রপ কানেক্টের মধ্যে পার্থক্য কী?

24

আফাইক, ড্রপআউট প্রশিক্ষণের সময় এলোমেলোভাবে লুকানো নোডগুলি ড্রপ করে তবে এগুলি পরীক্ষায় রাখে এবং সংযোগ ড্রপ সংযোগগুলি ড্রপ করে।

তবে সংযুক্তিগুলি কি লুকানো নোডগুলি ফেলে দেওয়ার সমতুল্য নয়? নোডগুলি (বা সংযোগগুলি) কেবল ওজনের এক সেট নয়?

neural-networks dropout

— Machina333
সূত্র

24

ড্রপআউট এবং ড্রপ সংযোগ উভয় পদ্ধতিই নিউরাল নেটওয়ার্কের ইউনিটগুলির "কো-অভিযোজন" রোধ করার উদ্দেশ্যে তৈরি। অন্য কথায়, আমরা চাই ইউনিটগুলি অন্যান্য নিউরোনগুলিতে নির্ভর করার পরিবর্তে তাদের ইনপুটগুলি থেকে স্বতন্ত্রভাবে বৈশিষ্ট্যগুলি বের করতে পারে।

ধরুন আমাদের কাছে এটির মতো একটি মাল্টিলেয়ার্ড ফিডফোরওয়ার্ড নেটওয়ার্ক রয়েছে (টপোলজিটি আসলে কিছু যায় আসে না)। আমরা মাঝের স্তরের সহ-অভিযোজিত হলদে লুকানো ইউনিট সম্পর্কে চিন্তিত।

বাদ পড়া

ড্রপআউট প্রয়োগ করতে, আমরা এলোমেলোভাবে ইউনিটগুলির একটি উপসেটটি নির্বাচন করি এবং ইনপুট নির্বিশেষে তাদের আউটপুট শূন্যে আটকে থাকি; এটি কার্যকরভাবে মডেল থেকে সেই ইউনিটগুলি সরিয়ে দেয়। প্রতিবার আমরা প্রশিক্ষণের উদাহরণ উপস্থাপন করার সময় এলোমেলোভাবে ইউনিটগুলির একটি পৃথক উপসেট নির্বাচন করা হয়।

নীচে দুটি সম্ভাব্য নেটওয়ার্ক কনফিগারেশন রয়েছে। প্রথম উপস্থাপনায় (বাম), প্রথম এবং তৃতীয় ইউনিট অক্ষম করা হয়েছে, তবে দ্বিতীয় এবং তৃতীয় ইউনিট পরবর্তী উপস্থাপনায় এলোমেলোভাবে নির্বাচন করা হয়েছে। পরীক্ষার সময়, আমরা সম্পূর্ণ নেটওয়ার্ক ব্যবহার করি তবে ওজনগুলি পুনরুদ্ধার করে এই সত্যটির ক্ষতিপূরণ দেওয়ার জন্য যে এগুলি এখন সকলেই সক্রিয় হয়ে উঠতে পারে (উদাহরণস্বরূপ, আপনি যদি নোডের অর্ধেক ড্রপ করেন তবে ওজনও অর্ধেক হওয়া উচিত)।

DropConnect

ড্রপকনেক্টটি একইভাবে কাজ করে, আমরা নোডের পরিবর্তে পৃথক ওজনগুলি (যেমন, এগুলি শূন্যতে সেট করে) অক্ষম করি, তাই কোনও নোড আংশিকভাবে সক্রিয় থাকতে পারে। পরিকল্পিতভাবে, এটি দেখতে এটির মতো দেখাচ্ছে:

তুলনা

এই পদ্ধতিগুলি উভয়ই কার্যকর কারণ তারা আপনাকে একই সময়ে বেশ কয়েকটি মডেলকে কার্যকরভাবে প্রশিক্ষণ দিতে দেয়, তারপরে পরীক্ষার জন্য তাদের জুড়ে গড়ে। উদাহরণস্বরূপ, হলুদ স্তরটির চারটি নোড রয়েছে এবং এভাবে 16 টি ড্রপআউট স্টেটস (সমস্ত সক্ষম, # 1 অক্ষম, # 1 এবং # 2 অক্ষম ইত্যাদি)।

ড্রপকনেক্ট হ'ল ড্রপআউটের একটি সাধারণীকরণ কারণ এটি আরও বেশি সম্ভাব্য মডেল তৈরি করে, যেহেতু ইউনিটগুলির চেয়ে প্রায় সবসময় সংযোগ থাকে। তবে, আপনি পৃথক পরীক্ষায় অনুরূপ ফলাফল পেতে পারেন। উদাহরণস্বরূপ, আগত সমস্ত সংযোগ সরানো হওয়ায় ডানদিকে ড্রপকনেক্ট নেটওয়ার্ক কার্যকরভাবে ইউনিট # 2 নামিয়েছে।

আরও পড়া

মূল কাগজপত্রগুলি বেশ অ্যাক্সেসযোগ্য এবং এতে আরও বিশদ এবং অভিজ্ঞতামূলক ফলাফল রয়েছে।

ড্রপআউট: হিন্টন ইত্যাদি।, 2012 , শ্রীবাস্ত এট আল।, 2014; JMLR
ড্রপ সংযোগ: ওয়ান এট।, 2013

— ম্যাট ক্রাউস
সূত্র

6

হ্যাঁ, তবে ওজন কীভাবে বাদ দেওয়া হয় তার বিচারে এটি কিছুটা আলাদা।

এগুলি ড্রপকনেক্ট (বাম) এবং ড্রপআউট (ডান) এর সূত্র।

সুতরাং ড্রপআউট অ্যাক্টিভেশনগুলিতে একটি মাস্ক প্রয়োগ করে, যখন ড্রপকনেক্ট ওজনে একটি মাস্ক প্রয়োগ করে।

ড্রপকোনেক্ট পেপার বলে যে এটি যে অর্থে ড্রপআউটকে সাধারণীকরণ করেছে

ড্রপকনেক্ট হ'ল ড্রপআউটের সাধারণীকরণ যেখানে ড্রপআউটের মতো প্রতিটি আউটপুট ইউনিটের পরিবর্তে প্রতিটি সংযোগ সম্ভাব্যতা পি সহ ফেলে দেওয়া যেতে পারে।

— dontloo
সূত্র