অন্যান্য অ্যাক্টিভেশন ফাংশনগুলির তুলনায় রিলু কেন ভাল


17

এখানে উত্তরটি বিলুপ্ত হওয়া এবং বিস্ফোরিত গ্রেডিয়েন্টকে বোঝায় যেগুলি অ- sigmoidসক্রিয় ক্রিয়াকলাপে ছিল তবে আমার ধারণা, Reluএর একটি অসুবিধা রয়েছে এবং এটি তার প্রত্যাশিত মান। আউটপুটটির জন্য কোনও সীমাবদ্ধতা নেই Reluএবং সুতরাং এর প্রত্যাশিত মানটি শূন্য নয়। আমি সময় মনে রাখবেন সামনে জনপ্রিয়তা Reluযে tanhসবচেয়ে জনপ্রিয় ছিল মধ্যে মেশিন বিশেষজ্ঞদের শেখার বদলে sigmoid। কারণটি ছিল যে এর প্রত্যাশিত মানটি tanhশূন্যের সমান এবং এটি নিউরাল জালে আরও গভীর হতে গভীর স্তরগুলিতে শিখতে সহায়তা করে। Reluএর বৈশিষ্ট্যটি নেই, তবে আমরা যদি এর ব্যয়কর সুবিধাটি একপাশে রাখি তবে এটি কেন এত ভাল কাজ করছে। তদুপরি, আমি অনুমান করি যে ডেরাইভেটিভও প্রভাবিত হতে পারে। কারণ অ্যাক্টিভেশন (আউটপুটRelu) আপডেটের বিধি গণনা করার জন্য জড়িত।


কিছুটা নরমালাইজেশন (যেমন ব্যাচ নরমালাইজেশন, লেয়ার নরমালাইজেশন) রিলু সাথে একত্রে রাখা সাধারণ। এটি আউটপুট পরিসীমা সামঞ্জস্য করে।
ncasas

@ কনসাস তবে সাধারণভাবে সাধারণের CNNআউটপুটটি reluসাধারণ হয় না? কমপক্ষে আমি এটি কখনও দেখিনি।
মিডিয়া

আপনি ঠিক বলেছেন, খুব গভীর সিএনএন-তে নয় ব্যাচের সাধারণীকরণ না করাই স্বাভাবিক। আপনি কি ওজনের প্রাথমিক মানগুলির ভূমিকা বিবেচনা করেছেন? (যেমন তিনি আরম্ভ)
এনকাসাস

হ্যাঁ, প্রকৃতপক্ষে এগুলি কোনওরকভাবে নিখোঁজ হওয়া / বিস্ফোরিত গ্রেডিয়েন্টগুলি রোধ করার জন্য রয়েছে, কিছু পুনরাবৃত্তির পরে ফলাফলগুলি বড় হয় বলে আমার ধারণা।
মিডিয়া

উত্তর:


21

রিলুর সর্বাধিক সুবিধা হ'ল এর গ্রেডিয়েন্টের অ-স্যাচুরেশন হ'ল, যা সিগময়েড / তানহ ফাংশনের তুলনায় স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত অভিমুখে তীব্রতর করে (ক্রাইভেস্কি এট আলের কাগজ )।

তবে এটি একমাত্র সুবিধা নয়। এখানে রিলু অ্যাক্টিভেশন এবং প্ররোচিত নিয়মিতকরণের স্পারসিটি প্রভাবগুলির আলোচনা রয়েছে। আর একটি দুর্দান্ত সম্পত্তি হ'ল তান / সিগময়েড নিউরনগুলির সাথে তুলনামূলকভাবে ব্যয়বহুল ক্রিয়াকলাপগুলি (এক্সপেনশনালস ইত্যাদি) জড়িত, রিলু কেবলমাত্র শূন্যের উপর একটি ক্রিয়াকলাপের ম্যাট্রিক্সকে প্রসারিত করে প্রয়োগ করা যেতে পারে।

কিন্তু আমি বিশ্বাস করছি না যে আধুনিক নিউরাল নেটওয়ার্ক মহান সাফল্য ReLu কারণে একা । নতুন আরম্ভের কৌশল যেমন জাভিয়ের ইনিশিয়ালাইজেশন, ড্রপআউট এবং (পরবর্তী) ব্যাচনরম খুব গুরুত্বপূর্ণ ভূমিকা পালন করেছিল played উদাহরণস্বরূপ, বিখ্যাত অ্যালেক্সনেট রিলু এবং ড্রপআউট ব্যবহার করেছিলেন ।

সুতরাং আপনার প্রশ্নের জবাব দিতে: রিলুতে খুব সুন্দর বৈশিষ্ট্য রয়েছে, যদিও এটি আদর্শ নয় । তবে অন্যান্য দুর্দান্ত কৌশলগুলির সাথে একত্র হয়ে গেলে এটি সত্যই নিজেকে প্রমাণ করে, যা আপনি উল্লিখিত নন-শূন্য-কেন্দ্র সমস্যার সমাধান করে।

ইউপিডি: রিলু আউটপুট প্রকৃতপক্ষে শূন্য কেন্দ্রিক নয় এবং এটি এনএন এর কার্যকারিতা ক্ষতি করে। তবে এই নির্দিষ্ট সমস্যাটিকে অন্যান্য নিয়মিতকরণ কৌশলগুলি দ্বারা সমাধান করা যেতে পারে, যেমন: ব্যাচনরম, যা সক্রিয়করণের আগে সংকেতকে সাধারণ করে তোলে :

আমরা বিএন nonlinearity সামনে অবিলম্বে রুপান্তর যোগ করুন, স্বাভাবিক দ্বারা । ... এটি স্বাভাবিককরণ সম্ভবত স্থিতিশীল বিতরণ সহ অ্যাক্টিভেশন উত্পাদন করতে পারে।এক্স=ওয়াটতোমার দর্শন লগ করা+ +


1
আমার এই অংশটি জোর দেওয়া উচিত ছিল: আমি বলার চেষ্টা করছিলাম যে রেলু একাই এই সমস্যাটির সমাধান করে না। আপনি ঠিক বলেছেন যে রিলু আউটপুট শূন্য কেন্দ্রিক নয় এবং এটি এনএন কার্যকারিতা ক্ষতি করে, যদি না ওজনগুলি নিয়মিত করা হয়। তবে স্যাচুরেটেড গ্রেডিয়েন্টগুলি এনএনকে আরও বেশি আঘাত করে, সুতরাং অসুবিধা সত্ত্বেও রেলুকে ব্যাপকভাবে গ্রহণ করা এক ধাপ এগিয়ে ছিল।
ম্যাক্সিম

আপনি দয়া করে বলতে চান ওজন নিয়মিত করা মানে কী? উত্তরে এবং যে বিষয়টিতে আপনি জোর দিয়েছিলেন তাও।
মিডিয়া

এই নির্দিষ্ট সমস্যা সম্পর্কে কিছু বিবরণ সহ আমার উত্তর আপডেট করেছেন
ম্যাক্সিম

আমি কিছুটা বিভ্রান্তিকর কি মনে করি, কেন কেবল পরিচয় ফাংশনটি ব্যবহার করবেন না? নেগ্রহের মূল্যবোধের জন্য 0 এর সুবিধা কী?
অ্যালেক্স

@ অ্যালেক্স আইডি কোনও লিনিয়ারিটি নয়। এটি এনএন-তে কেবল লিনিয়ার স্তর থাকার সমতুল্য। এই প্রশ্নটি দেখুন - stackoverflow.com/q/46659525/712995
ম্যাক্সিম
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.