নিউরাল নেটওয়ার্কে ম্যাক্সআউট কী?


42

নিউরাল নেটওয়ার্কের ম্যাক্সআউট ইউনিটগুলি কি কি ব্যাখ্যা করতে পারে? তারা কীভাবে সম্পাদন করে এবং কীভাবে তারা প্রচলিত ইউনিট থেকে আলাদা?

গুডফেলো এট আল দ্বারা 2013 সালের "ম্যাক্সআউট নেটওয়ার্ক" কাগজটি পড়ার চেষ্টা করেছি (অধ্যাপক যোশুয়া বেনজিওর গ্রুপ থেকে) তবে আমি তা বেশিরভাগই পাই না।

উত্তর:


26

একটি ম্যাক্সআউট স্তর কেবল একটি স্তর যেখানে অ্যাক্টিভেশন ফাংশনটি ইনপুটগুলির সর্বাধিক। যেমনটি কাগজে বলা হয়েছে, এমনকি 2 ম্যাকসআউট ইউনিট সহ একটি এমএলপি যে কোনও ক্রিয়াকলাপ আনুমানিক করতে পারে। ম্যাক্সআউট কেন ভাল পারফরম্যান্স করছে সে সম্পর্কে তারা বেশ কয়েকটি কারণ দেয় তবে তারা যে প্রধান কারণ দেয় তা হ'ল -

ড্রপআউটকে গড় গড় মডেল হিসাবে বিবেচনা করা যেতে পারে যেখানে প্রতিটি পুনরাবৃত্তিতে একটি এলোমেলো সাবনেটওয়ার্ক প্রশিক্ষণ দেওয়া হয় এবং শেষ পর্যন্ত বিভিন্ন এলোমেলো নেটওয়ার্কগুলির ওজন গড়ে গড়ে নেওয়া হয়। যেহেতু কেউ ওজনকে সুস্পষ্টভাবে গড়তে পারে না, তাই একটি আনুমানিক ব্যবহার করা হয়। এই আনুমানিকটি লিনিয়ার নেটওয়ার্কের জন্য সঠিক
, ম্যাক্সআউটে, তারা ইনপুটগুলিকে ম্যাক্সআউট স্তরে ফেলে দেয় না। সুতরাং কোনও ডাটা পয়েন্টের সর্বাধিক মান আউটপুট আদান-প্রদানের পরিচয় অপরিবর্তিত থাকে। সুতরাং ড্রপআউটটি কেবলমাত্র এমএলপির লিনিয়ার অংশে ঘটে তবে ম্যাক্সআউট লেয়ারের কারণে যে কোনও ফাংশন আনুমানিকভাবে নির্ধারণ করতে পারে।
যেহেতু ড্রপআউটটি কেবল রৈখিক অংশে ঘটে, তারা অনুমান করে যে এটি লিনিয়ার নেটওয়ার্কগুলির জন্য গড় আনুমানিক হিসাবে সঠিক হিসাবে গড় আরও কার্যকর মডেলের দিকে পরিচালিত করে।

তাদের কোড এখানে উপলব্ধ ।


1
ধন্যবাদ! আমি বুঝতে পারি কীভাবে এখন ম্যাক্সআউট করবেন। আমার কিছু প্রশ্ন আছে. (1) সুতরাং আপনি যা লিখেছেন ম্যাক্সআউট আউট করার আগে ড্রপআউট করবেন না "ম্যাক্সআউটে, তারা ইনপুটগুলিকে সর্বাধিক স্তরটিতে ফেলে দেয় না?" (২) এমএলপির লিনিয়ার অংশ বলতে কী বোঝায়? "এইভাবে ড্রপআউটটি কেবলমাত্র এমএলপির লিনিয়ার অংশে ঘটে তবে ম্যাক্সআউট লেয়ারের কারণে কেউ যে কোনও ক্রিয়াকলাপের আনুমানিক অনুমান করতে পারে (" (৩) কেন আরও ভাল গড়? "শুধুমাত্র লিনিয়ার অংশে ড্রপআউট হওয়ার সাথে সাথে তারা অনুমান করেছেন যে এটি লিনিয়ার নেটওয়ার্কগুলির জন্য গড় আনুমানিক হিসাবে সঠিক হিসাবে গড় আরও কার্যকর মডেলের দিকে পরিচালিত করে।"
রকটিস্টার

2
(1) আমি কি বুঝতে থেকে, একটি maxout স্তর নোড এবং । সুতরাং ম্যাকআউটআউট স্তরের ইনপুট নোডগুলি স্তরগুলির আরও নীচে নোডের রৈখিক সংমিশ্রণ। ড্রপআউটটি ম্যাক্সআউট লেয়ারের জন্য বা জেড লেয়ারের জন্য করা হয় না তবে এটি স্তরগুলির চেয়ে আরও গভীর হয়। (২) রৈখিক অংশ দ্বারা, এর অর্থ হাইড লেয়ারগুলি কেবলমাত্র রৈখিক অ্যাক্টিভেশন ফাংশন (3) রৈখিক নেটওয়ার্কগুলির জন্য আরও ভাল গড়, ড্রপআউট দ্বারা ব্যবহৃত গড় স্কিমটি হুবহু। সাধারণত এনএন লিনিয়ার নয় তবে ম্যাক্সআউট সহ, তারা বেশিরভাগ এনএন লিনিয়ার তৈরি করে এবং কেবল লিনিয়ার অংশে ড্রপআউট করে। max(zi)zi=kxk
অপ্ট করুন

ধন্যবাদ! (3) এর জন্য "নির্ভুল" বলতে কী বোঝায় এবং এনএন কেন ম্যাকআউট দিয়ে লিনিয়ার হয়? আপনার সাহায্যের জন্য আপনাকে অনেক ধন্যবাদ।
রকটিস্টার

1
না ম্যাকআউট একটি নেটওয়ার্ক আর্কিটেকচার। ড্রপআউট একটি নিয়মিতকরণ কৌশল
অপ্ট

1
-1 এটি গুডফেলির ম্যাক্সআউট অ্যাক্টিভেশন ফাংশনের সঠিক সংজ্ঞা নয়। @ টাসসেইন্ট-লুভারচারের উত্তর এটি সঠিকভাবে পেয়েছে। stats.stackexchange.com/a/298705/20587
ত্রিসোলরিয়ান্সস্ক্রিন

15

একটি ম্যাক্সআউট ইউনিট টুকরোর্ধ্ব লিনিয়ার, উত্তোলন ফাংশন কে টুকরো টুকরো সহ শিখতে পারে। 1

সুতরাং যখন কে 2 হয়, আপনি রিলু, পরম আরএলইউ, ফাঁসযুক্ত আরএলইউ ইত্যাদি প্রয়োগ করতে পারেন বা এটি কোনও নতুন ফাংশন বাস্তবায়ন করতে শিখতে পারে। যদি কে 10 বলে নেওয়া হয় তবে আপনি প্রায় উত্তল ক্রিয়াটি শিখতে পারেন।

যখন কে 2:

ম্যাক্সআউট নিউরন ফাংশনটি । ReLU এবং Leaky ReLU উভয়ই এই ফর্মের একটি বিশেষ কেস (উদাহরণস্বরূপ, ReLU এর জন্য আমাদের )। ম্যাকসআউট নিউরন তাই একটি আরএলইউ ইউনিট (অপারেশনের রৈখিক ব্যবস্থা, কোন স্যাচুরেশন) এর সমস্ত সুবিধা ভোগ করে এবং এর অসুবিধাগুলি নেই (মারা যাচ্ছেন রিলু)।max(w1Tx+b1,w2Tx+b2)w1,b1=0

তবে, আরএলইউ নিউরনের বিপরীতে এটি প্রতিটি একক নিউরনের জন্য পরামিতির সংখ্যাকে দ্বিগুণ করে, যার ফলে সর্বোচ্চ পরামিতিগুলির সংখ্যার সৃষ্টি হয়। 2

আপনি এখানে বিশদটি পড়তে পারেন:
1. ডিএল বই
২. http://cs231n.github.io/neura-networks-1


এটি সমস্ত ওজন নয়, কেবলমাত্র কয়েকটি পক্ষপাতের পরামিতি দ্বিগুণ করে।
হ্যান্স
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.