ডিপ নিউরাল নেটওয়ার্কগুলিতে সিগময়েড ফাংশনের চেয়ে আরএলইউর সুবিধা কী?


141

অ-লিনিয়ারিটি শিল্পের স্টেটটি হ'ল গভীর নিউরাল নেটওয়ার্কে সিগময়েড ফাংশনের পরিবর্তে রেক্টিফাইড লিনিয়ার ইউনিট (আরএলইউ) ব্যবহার করা। সুবিধা কি?

আমি জানি যে যখনইএলইউ ব্যবহার করা হয় তখন কোনও নেটওয়ার্ক প্রশিক্ষণ দ্রুততর হয় এবং এটি আরও জৈবিক অনুপ্রাণিত হয়, অন্যান্য সুবিধাগুলি কী কী? (অর্থাৎ সিগময়েড ব্যবহারের কোনও অসুবিধা)?


আমি এই ছাপে ছিলাম যে আপনার নেটওয়ার্কে অ-লৈখিকতা মঞ্জুরি দেওয়া সুবিধা ছিল। তবে আমি নীচের কোনও উত্তরে এটি দেখতে পাচ্ছি না ...
মনিকা হেডডনেক

2
@ মনিকা হেইডনেক আরএলইউ এবং সিগময়েড উভয়ই ননলাইনার ...
এন্টোইন

উত্তর:


130

= ডাব্লু এক্স + বি=সর্বোচ্চ(0,একটি)একটি=ওয়াটএক্স+ +B ইংরেজী বর্ণমালার দ্বিতীয় অক্ষর

একটি বড় সুবিধা হ'ল গ্রেডিয়েন্টের বিলুপ্ত হওয়ার সম্ভাবনা হ্রাস। এই দেখা দেয় যখন । এই শাসন ব্যবস্থায় গ্রেডিয়েন্টের একটি ধ্রুবক মান থাকে। বিপরীতে, সিগময়েডগুলির গ্রেডিয়েন্ট এক্সের নিরঙ্কুশ মান বাড়ার সাথে সাথে ক্রমশ ছোট হয়ে যায়। আরএলইউগুলির ধ্রুবক গ্রেডিয়েন্ট দ্রুত শিখতে ফলাফল দেয়।একটি>0

আরএলইউগুলির অন্য সুবিধা হ'ল স্বল্পতা। স্পারসিটি দেখা দেয় যখন । এই ধরনের ইউনিটগুলি যে কোনও স্তরে বিদ্যমান রয়েছে ফলাফলের প্রতিনিধিত্বকে তত বেশি ছড়িয়ে যায়। অন্যদিকে সিগময়েডগুলি সর্বদা ঘন প্রতিনিধিত্বের ফলে কিছু শূন্য-মান নির্ধারণ করে। বিরল উপস্থাপনাগুলি ঘন উপস্থাপনার চেয়ে বেশি উপকারী বলে মনে হয়।একটি0


2
যখন আপনি গ্রেডিয়েন্ট বলবেন, আপনি ওজন বা ইনপুট x এর সাথে শ্রদ্ধার সাথে বোঝাচ্ছেন? @ ডেমনমেকার
এমএএস

4
ওজন সম্মানের সাথে। গ্রেডিয়েন্ট-ভিত্তিক লার্নিং অ্যালগরিদম সর্বদা শিক্ষার্থীর প্যারামিটারের প্রতি সম্মান সহকারে গ্রেডিয়েন্ট গ্রহণ করে, যেমন একটি এনএন-এর ওজন এবং বায়াসেস।
ডিমনমেকার

2
"ঘন" এবং "বিরল" "উপস্থাপনা" বলতে কী বোঝ? গুগল "স্পার্স উপস্থাপনা স্নায়ু নেটওয়ার্ক" এর ক্যোয়ারী প্রাসঙ্গিক কিছু নিয়ে আসে বলে মনে হচ্ছে না।
হাই-এঞ্জেল

6
"বিরল উপস্থাপনাগুলি ঘন উপস্থাপনার চেয়ে বেশি উপকারী বলে মনে হয়।" আপনি একটি উত্স বা ব্যাখ্যা প্রদান করতে পারেন?
রোহান সাক্সেনা

1
আমি বুঝতে পারছি না যে এই উত্তরটি মোটেও সঠিক। "ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধিরে যায়। যথেষ্ট ছোট জন্য রিলু হ'ল শূন্য । শেখার সময়, গ্রেডিয়েন্টগুলি আপনি যখন এই শাসনকালে থাকবেন তখন নির্দিষ্ট নিউরনের জন্য নিখোঁজ হবেন। আসলে, এটি স্পষ্টত অনিবার্য, কারণ অন্যথায় আপনার নেটওয়ার্ক লিনিয়ার হবে। ব্যাচের সাধারণকরণ এটি বেশিরভাগ ক্ষেত্রেই সমাধান করে। এটি এমনকি সর্বাধিক গুরুত্বপূর্ণ কারণটিরও উল্লেখ করে না: রিলু এবং তাদের গ্রেডিয়েন্টস। সিগময়েডের সাথে তুলনা করা অত্যন্ত গতিযুক্ত। এক্স
অ্যালেক্স আর

65

সুবিধা:

  • সিগময়েড: অ্যাক্টিভেশন উড়িয়ে দিচ্ছে না
  • রেলু: গ্রেডিয়েন্ট বিলুপ্ত হচ্ছে না
  • রেলু: সিগময়েডের চেয়ে ফাংশনগুলির মতো গণনা করার জন্য আরও বেশি গণনামূলক দক্ষ, যেহেতু রেলুকে কেবল সর্বোচ্চ (0, ) বাছাই করতে হবে এবং সিগময়েডের মতো ব্যয়বহুল ক্রিয়াকলাপ পরিচালনা করতে হবে নাএক্স
  • রেলু: অনুশীলনে, রিলু সহ নেটওয়ার্কগুলি সিগময়েডের চেয়ে ভাল কনভার্জেন্স পারফরম্যান্স দেখায়। ( ক্রিজেভস্কি এট আল। )

অসুবিধা:

  • একটিএকটিএস'(একটি)=এস(একটি)(1-এস(একটি))একটিএস'(একটি)=এস(একটি)(1-এস(একটি))=1×(1-1)=0

  • একটি

  • রিলু: মৃত রেলে সমস্যা - যদি খুব বেশি ক্রিয়াকলাপ শূন্যের নিচে পান তবে রেলুর সাথে নেটওয়ার্কের বেশিরভাগ ইউনিট (নিউরন) কেবল শূন্যের আউটপুট দেয়, অন্য কথায়, মারা যায় এবং এর ফলে পড়াশোনা নিষিদ্ধ হয় ((এটি কিছুটা হলেও হ্যান্ডেল করা যায়, পরিবর্তে Leaky-Relu ব্যবহার করে))

7
$x$এক্স

Relu(একটিএক্স+ +B ইংরেজী বর্ণমালার দ্বিতীয় অক্ষর)=0এক্স<-B ইংরেজী বর্ণমালার দ্বিতীয় অক্ষর/একটি

40

অন্য উত্তরগুলির পরিপূরক:

বিলুপ্তি গ্রেডিয়েন্টস

অন্যান্য উত্তরগুলি সঠিকভাবে নির্দেশ করতে পারে যে সিগময়েড ফাংশনের গ্রেডিয়েন্টটি যত বড় ইনপুট (পরম মানের ক্ষেত্রে) তত ছোট। তবে, সম্ভবত আরও গুরুত্বপূর্ণ প্রভাবটি হ'ল সিগময়েড ফাংশনের ডেরাইভেটিভ সবসময় একের চেয়ে ছোট । আসলে এটি সবচেয়ে বেশি 0.25!

এর নীচের দিকটি হ'ল আপনার যদি অনেক স্তর থাকে তবে আপনি এই গ্রেডিয়েন্টগুলি গুন করবেন এবং 1 টিরও বেশি মানের মানের খুব দ্রুত শূন্যে চলে যাবে।

যেহেতু ডিপ লার্নিংয়ের শিল্পের অবস্থাটি দেখিয়েছে যে আরও স্তরগুলি অনেক বেশি সাহায্য করে তাই সিগময়েড ফাংশনের এই অসুবিধাটি একটি গেম কিলার। আপনি কেবল সিগময়েডের সাথে ডিপ লার্নিং করতে পারবেন না।

0একটি<01একটি>0


10
এই উত্তরটি আমি খুঁজছিলাম। লোকেরা যখন "অদৃশ্য গ্রেডিয়েন্টস" সম্পর্কে কথা বলছে তখন কেউই ভাবতে বাধা দিতে পারে না "রেলুর গ্রেডিয়েন্ট তার পরিসরের অর্ধেকের জন্য ঠিক 0। এটি কি 'বিলুপ্ত হচ্ছে না"? গ্রেডিয়েন্টগুলি অনেক স্তরের উপরে বহুগুণ হয় তা আমাদের স্মরণ করিয়ে দিয়ে আপনি যেভাবে সমস্যার বর্ণনা করছেন তা অনেক স্পষ্টতা নিয়ে আসে।
বরিস গোরালিক

3
@ গিলহেরেম-দে-লাজারী শেষ লাইনে সংশোধন করার পরামর্শ দিয়েছেন - রিলুর মান a> 0 এর জন্য তবে আপনি গ্রেডিয়েন্টের কথা বলছেন যা a> 0 এর জন্য 1
সৌরভ

4
যদি এটিই মূল কারণ ছিল, তবে আমরা কেবল সিগময়েডকে 1 / (1 + এক্সপ্রেস (-4x) তে পুনরুদ্ধার করতে পারি না? তারপরে ডেরিভেটিভটি সর্বাধিক 1 টি (বা আরও পুনরুদ্ধার করুন, আমাদের উপরে 1 এবং নীচে বিকল্পগুলি দিতে)। আমি সন্দেহ করি এটি আরও খারাপ সম্পাদন করবে, কারণ উদ্ধারও সেই ক্ষেত্রকে হ্রাস করে যেখানে ডেরাইভেটিভ 0 থেকে আলাদা করা যায় তবে আমি নিশ্চিত নই যে এই উত্তরটি পুরো গল্পটি বলেছে।
পিটার

5
1/(1+ +মেপুঃ(-একটিএক্স))একটি

7
এছাড়াও আপনি সিগময়েডগুলি সহ গভীর শিখতে পারেন, আপনাকে কেবল ইনপুটগুলি স্বাভাবিক করতে হবে, উদাহরণস্বরূপ ব্যাচ নরমালাইজেশনের মাধ্যমে। সিগময়েডকে সম্পৃক্ত করা এড়াতে এটি আপনার ইনপুটকে কেন্দ্রিয় করে তুলবে। ব্যাচ সাধারণকরণের মূল গবেষণাপত্রে সিগময়েড অ্যাক্টিভেশন নিউরাল নেটওয়ার্ক প্রায় রেলাসের সাথে সমানভাবে কাজ করে: arxiv.org/pdf/1502.03167.pdf
অ্যালেক্স আর

7

বিলুপ্ত গ্রেডিয়েন্টগুলির সমস্যা এড়ানো ছাড়া আর রিলিউর জন্য একটি সুবিধা হ'ল এটির চালানোর সময় অনেক কম। কোনও সিগময়েড ফাংশন (উদাহরণস্বরূপ = 1 / (1 + e ^ (- a)) এর চেয়ে লজিস্টিক ফাংশনটির চেয়ে সর্বোচ্চ (0, ক) খুব দ্রুত গতিতে চালিত হয় যা ঘন ঘন যখন করা হয় তখন গণনামূলক ধীর হয়। এটি আরএলইউর গ্রেডিয়েন্ট হিসাবে ফিড ফরোয়ার্ড এবং পিছনের উভয় প্রসারের ক্ষেত্রেই সত্য (যদি একটি <0, = 0 অন্য = 1) সিগময়েডের তুলনায় গণনা করাও খুব সহজ (লজিস্টিক কার্ভ = ই ^ এ / ((1 + ই এর জন্য) ^ ক) ^ 2))।

যদিও আরএলইউতে মারা যাওয়ার কোষগুলির অসুবিধা রয়েছে যা নেটওয়ার্কের ক্ষমতা সীমাবদ্ধ করে। এটিকে কাটিয়ে উঠতে কেবল উপরে বর্ণিত সমস্যাটি লক্ষ্য করলেই কেবল রিলিউর যেমন বৈদ্যুতিন রিলু, ইএলইউ ইত্যাদি ব্যবহার করুন।


1
+1 টি। এটি এখানে একমাত্র সঠিক উত্তর। আপনি মৃত নিউরনের বিরুদ্ধে লড়াইয়ের জন্য ইনপুটগুলিকে কেন্দ্রীভূত করতে ব্যাচের সাধারণকরণও ব্যবহার করতে পারেন।
অ্যালেক্স আর

2

স্পার্স বনাম ঘন পারফরম্যান্স বিতর্কে সম্পূর্ণ করার জন্য একটি অতিরিক্ত উত্তর ।

এনএন সম্পর্কে আর ভাববেন না, কেবল লিনিয়ার বীজগণিত এবং ম্যাট্রিক্স অপারেশন সম্পর্কে ভাবেন, কারণ এগিয়ে এবং পিছিয়ে প্রচারগুলি ম্যাট্রিক্স অপারেশনের একটি সিরিজ।

এখন মনে রাখবেন যে স্পার্স ম্যাট্রিক্সের জন্য প্রয়োগ করতে প্রচুর পরিমাণে অপ্টিমাইজড অপারেটর রয়েছে এবং তাই আমাদের নেটওয়ার্কে সেই অপারেশনগুলিকে অনুকূলিতকরণ নাটকীয়ভাবে অ্যালগরিদমের কার্যকারিতা উন্নত করতে পারে।

আমি আশা করি এটি আপনার কয়েকজনকে সহায়তা করতে পারে ...


1

মূল উপকারটি হ'ল রেলুটির ডেরাইভেটিভ হয় 0 বা 1 হয়, সুতরাং এটির দ্বারা সংখ্যা বৃদ্ধি পাওয়ার ফলে ক্ষতির ক্রিয়াকলাপের শেষের ফলাফল থেকে দূরে থাকা ওজনগুলি বিলুপ্ত গ্রেডিয়েন্ট সমস্যা থেকে ভোগ করতে পারে না:

এখানে চিত্র বর্ণনা লিখুন

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.