অ্যাক্টিভেশন ফাংশন হিসাবে সফটপ্লাসের ওপরে রিলু ব্যবহারের সুবিধা কী?


21

এটি প্রায়শই উল্লেখ করা হয় যে সংশোধনযোগ্য লিনিয়ার ইউনিটগুলি (রিলিজ) সফ্টপ্লাস ইউনিটকে ছাড়িয়ে গেছে কারণ তারা লিনিয়ার এবং গণনা করার জন্য দ্রুত।

সফটপ্লাসে কি এরপরেও স্পারসিটি প্ররোচিত করার সুবিধা রয়েছে বা এটি কি আরএলইউতে সীমাবদ্ধ?

আমি জিজ্ঞাসা করার কারণটি হ'ল আমি আরএলইউর শূন্য opeালের নেতিবাচক পরিণতি সম্পর্কে অবাক হয়েছি। এই সম্পত্তিটি "ফাঁদ" শূন্যে ইউনিট করে না যেখানে তাদের পুনরায় সক্রিয় হওয়ার সম্ভাবনা দেওয়ার পক্ষে এটি সুবিধাজনক হতে পারে?


আপনি কি এর উত্তর খুঁজে পেয়েছেন?
চার্লি পার্কার

উত্তর:


4

ডিপ লার্নিং বইয়ের 6.৩.৩ অনুচ্ছেদে আমি আপনার প্রশ্নের উত্তর পেয়েছি । (গুডফেলো এট। আল, ২০১)):

সফটপ্লাস ব্যবহার সাধারণত নিরুৎসাহিত করা হয়। ... যে কেউ সর্বত্র পার্থক্যযোগ্য হওয়ার কারণে বা সম্পূর্ণরূপে কম পরিপূর্ণভাবে সম্পৃক্ত হওয়ার কারণে এটির সংশোধনকারীটির পক্ষে সুবিধা অর্জনের আশা করতে পারে, তবে বুদ্ধিমানভাবে এটি হয় না।

এই দাবির সমর্থনের জন্য একটি উল্লেখ হিসাবে তারা ডিপ স্পার্স রেকটিফায়ার নিউরাল নেটওয়ার্কগুলি (গ্লোরোট এট। আল, ২০১১) উদ্ধৃত করে ।


1
আমি মনে করি আমাদের সম্পর্কে আরও স্পষ্টকরণ প্রয়োজন "তবে বুদ্ধিমানভাবে এটি হয় না"।
nbro

2

বিশেষত উচ্চ শিক্ষার হারের অধীনে রিএলইউগুলি স্থায়ীভাবে স্থায়ীভাবে বন্ধ করা যেতে পারে। এটি ফাঁস হওয়া আরএলইউ এবং ইএলইউ ক্রিয়াকলাপগুলির পিছনে একটি অনুপ্রেরণা, উভয়ই প্রায় সর্বত্রই শূন্য নন গ্রেডিয়েন্ট রয়েছে।

Leaky ReLU একটি অংশবিশেষ রৈখিক ফাংশন, ঠিক যেমন ReLU এর জন্য গণনা করা তত দ্রুত। ELU এর সফটম্যাক্স এবং রিলু এর চেয়ে সুবিধা রয়েছে যে এর অর্থ আউটপুট শূন্যের কাছাকাছি, যা শিক্ষার উন্নতি করে।


"প্রায় সর্বত্র" এর অর্থ কী?
nbro

1
"প্রায় সর্বত্র" একটি প্রযুক্তিগত শব্দ যার অর্থ "কিছু অসীম ক্ষুদ্র পয়েন্ট ব্যতীত" এর মতো কিছু। উদাহরণস্বরূপ, ফাঁস রিলুতে x = 0 তে কোনও গ্রেডিয়েন্ট নির্ধারিত নেই।
হিউ পারকিনস
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.