নিউরাল নেটওয়ার্কগুলিতে "ডাইং রিলু" সমস্যাটি কী?


118

ভিজ্যুয়াল স্বীকৃতির জন্য কনভলিউশনাল নিউরাল নেটওয়ার্কগুলিতে স্ট্যানফোর্ড কোর্সের নোটগুলি উল্লেখ করে একটি অনুচ্ছেদ বলে:

"দুর্ভাগ্যক্রমে, প্রশিক্ষণ চলাকালীন রিলু ইউনিটগুলি ভঙ্গুর হতে পারে এবং" মরা "হতে পারে For উদাহরণস্বরূপ, আরএলইউ নিউরনের মধ্য দিয়ে প্রবাহিত একটি বৃহত্তর গ্রেডিয়েন্ট ওজনকে এমনভাবে আপডেট করতে পারে যে নিউরনটি আর কোনও ডেটাপয়েন্টে আবার সক্রিয় না হয় If যদি এটি হয় ঘটবে, তারপরে ইউনিট দিয়ে প্রবাহিত গ্রেডিয়েন্টটি সেই বিন্দু থেকে চিরতরে শূন্য হয়ে যাবে That অর্থাৎ, আরএলইউ ইউনিটগুলি প্রশিক্ষণের সময় অপরিবর্তনীয়ভাবে মারা যেতে পারে যেহেতু তারা ডেটা বহুগুণ ছিটকে যেতে পারে example উদাহরণস্বরূপ, আপনি দেখতে পাবেন যে 40 এরও বেশি যদি আপনার শিক্ষার হার খুব বেশি সেট করা হয় তবে আপনার নেটওয়ার্কের% "ডেড" (অর্থাত্ নিউরনগুলি পুরো প্রশিক্ষণ ডেটাसेट জুড়ে কখনই সক্রিয় হয় না) হতে পারে the শিখার হারের যথাযথ সেটিংয়ের সাথে এটি খুব কমই সমস্যা হয় ""

এখানে নিউরন মারা যাওয়ার অর্থ কী?

আপনি দয়া করে সহজ পদে একটি স্বজ্ঞাত ব্যাখ্যা প্রদান করতে পারেন।


2
কেউ কি "মৃত নিউরন" সম্পর্কে কিছু বৈজ্ঞানিক নিবন্ধের উল্লেখ খুঁজে পেতে পারেন? গুগলের প্রচেষ্টায় এটি প্রথম ফলাফল হিসাবে, যদি এই প্রশ্নটি কোনও রেফারেন্স সহ সম্পাদনা করা হয় তবে দুর্দান্ত হবে।
মারেক Žদেখ

এই সমস্যাটি সমাধান করার জন্য আমরা কি নিয়মিতকরণের মাধ্যমে পক্ষপাত প্রতিরোধ করতে পারি?
লেন

3
বন্ধুরা আমি ওজনের জন্য প্রতিটি পর্বে নতুন এলোমেলো (স্বাভাবিক বিতরণ) মান প্রদান করে মৃত রিলু নিউরনগুলিকে পুনরুজ্জীবিত করতে পরিচালিত করেছি <= 0. প্রশিক্ষণ উচ্চতর যুগের অব্যাহত থাকায় আমি কেবল এই পদ্ধতিটি একত্রে বিভিন্ন গভীরতায় জমাটবদ্ধ ওজন সহ ব্যবহার করি I আমি নিশ্চিত না যে এটাকে আমরা ফেজ ট্রানজিশন বলে থাকি কি না) এখন উচ্চতর শিক্ষার হার ব্যবহার করতে পারে, সামগ্রিক যথাযথ নির্ভুলতা পাওয়া যায় (কেবলমাত্র লিনিয়ার রিগ্রেশন পরীক্ষিত)। এটি বাস্তবায়ন করা সত্যিই সহজ।
বলি

1
@ বলি, আপনি কি এখানে বাস্তবায়ন ভাগ করে নিতে পারেন?
আনু

উত্তর:


120

একটি "মৃত" আরএলইউ সর্বদা একই ইনপুটটির জন্য একই মান (যা হয় শূন্য, তবে এটি গুরুত্বপূর্ণ নয়)। সম্ভবত এটি এর ওজন জন্য একটি বড় নেতিবাচক পক্ষপাত শব্দ শিখে এসে পৌঁছেছে।

পরিবর্তে, এর অর্থ এটি ইনপুটগুলির মধ্যে বৈষম্যের ক্ষেত্রে কোনও ভূমিকা নেয় না। শ্রেণিবিন্যাসের জন্য, আপনি এটি সম্ভাব্য সমস্ত ইনপুট ডেটার বাইরে সিদ্ধান্ত বিমান হিসাবে কল্পনা করতে পারেন ।

এই রাজ্যে একবার রিলু শেষ হয়ে গেলে, এটি পুনরুদ্ধার সম্ভাবনা নেই, কারণ 0 এ ফাংশন গ্রেডিয়েন্টটি 0 হয়, সুতরাং গ্রেডিয়েন্ট বংশোদ্ভূত শেখা ওজনকে পরিবর্তন করতে পারে না। নেতিবাচক ইনপুটগুলির জন্য একটি ছোট ধনাত্মক গ্রেডিয়েন্ট সহ "ফাঁস" রিলিজগুলি ( y=0.01xযখন x <0 বলুন) এই সমস্যাটিকে সম্বোধন করার এবং পুনরুদ্ধারের সুযোগ দেওয়ার এক প্রচেষ্টা।

সিগময়েড এবং তানহ নিউরনগুলি তাদের মানগুলি পরিপূর্ণ হওয়ার সাথে সাথে একই সমস্যায় ভুগতে পারে তবে কমপক্ষে সর্বদা একটি ছোট গ্রেডিয়েন্ট থাকে যা তাদের দীর্ঘমেয়াদে পুনরুদ্ধার করতে দেয়।


7
ভাল মন্তব্য এবং এটি এক্সপোনেনশিয়াল লিনিয়ার ইউনিটগুলির (ইএলইউ) উল্লেখ করাও ভাল যা এই ইস্যুটিকে আরও ভালভাবে সংবিধানে সহায়তা করতে পারে: arxiv.org/abs/1511.07289
পদুরা

14
@ অ্যালেক্স: কারণ পক্ষপাত সঠিকতার জন্য খুব গুরুত্বপূর্ণ। পক্ষপাতদুষ্টতা থেকে মুক্তি পাওয়ার পক্ষে সিদ্ধান্ত গ্রহণের সিদ্ধান্ত গ্রহণের সিদ্ধান্ত নেওয়া সমান same কিছু ব্যতিক্রম বাদে এটি একটি খারাপ পছন্দ। আসলে নিউরাল নেটওয়ার্ক বা সম্পর্কিত মডেলগুলিতে পক্ষপাতের শর্তগুলি থেকে মুক্তি পাওয়ার (যেমন লিনিয়ার রিগ্রেশন বা লজিস্টিক রিগ্রেশন) সাধারণত আপনার মডেল পক্ষপাতদুষ্টে ভুগবে তার অর্থ! এটি এমন কয়েকটি উপায়ের মধ্যে একটি যা আপনি একই সাথে একটি মডেলটির সাথে সমাপ্ত হতে পারেন যা উভয় ক্ষেত্রে একই সাথে পরাশক্তি এবং অতিরিক্ত পোশাক,,,
নীল স্লেটার

1
@ অ্যালেক্স: আমি মনে করি রিলএইউগুলিতে একটি সামান্য ধনাত্মক পক্ষপাতিত্ব যুক্ত করা সাধারণ। আমি জানি না যে এটি "ডিলু রিলু সমস্যাটি মরে যাওয়ার" সাথে সহায়তা করে - সম্ভবত গ্রেডিয়েন্ট মানগুলি খুব বেশি সংখ্যায় পরিবর্তিত হবে না (কারণ গ্রেডিয়েন্টটি আরএলইউর জন্য 1 বা 0 হয়, এবং এটি যখন 1 হয় এটি ওভারশুট করতে পারে, একটি ছোট ছোট পক্ষপাত খুব সামান্য পার্থক্য করতে উপস্থিত হবে)। বেশিরভাগই আমি মনে করি প্রাথমিক শিক্ষায় সামান্য উত্সাহ যোগ করা কেবল একটি কৌশল but তবে এটি আরও ভালভাবে শুরু করার মাধ্যমে এবং সাধারণভাবে শীঘ্রই কম গ্রেডিয়েন্টগুলি অর্জনের মাধ্যমে সহায়তা করতে পারে।
নিল স্লেটার

1
@ ম্যাক্স: আপনি আমার উত্তরের "কোনও ইনপুট" হারিয়েছেন। কোন গ্রেডিয়েন্ট একটি ফিড এগিয়ে নেটওয়ার্কের মধ্যে "মৃত" স্নায়ুর সাথে সংশ্লিষ্ট কোনো ওজন প্রবাহিত হবে, কারণ যারা ওজন সব পাথ হয় কাটা - সেখানে কোন বিকল্প পথ গ্রেডিয়েন্ট ওজন খাওয়ানোর যে ReLU ইউনিট উপসেট প্রবাহিত করার জন্য হয়। আপনি কোনও রিলু দেখতে পারেন যেমন সিএনএন বা ভাগের ওজন ভাগ করে নেওয়া যাতে বৈশিষ্ট্যের মানচিত্রে সমস্ত অবস্থান একবারে শূন্যের প্রয়োজন হয়। তবে, আমি এটিকে "যে কোনও ইনপুট" এর অন্য একটি উদাহরণ হিসাবে দেখতে চাই।
নীল স্লেটার

1
@ আনু: গ্রেডিয়েন্ট বংশোদ্ভূত দ্বারা। একটি বৃহত ধনাত্মক গ্রেডিয়েন্ট, একটি বৃহত ত্রুটির মান দ্বারা সৃষ্ট, পরিবর্তে পক্ষপাত পদটির একক পদক্ষেপ যথেষ্ট পরিমাণে বড় হতে পারে যা এটি নিউরনকে "মেরে ফেলে", যাতে এটি একটি অবস্থানে পৌঁছায় (ওজন এবং পক্ষপাতের জন্য) ভবিষ্যতের ইনপুটগুলি রিলু ফাংশনে কখনই 0 এর উপরে উঠতে পারে না
নিল স্লেটার

102

আসুন পর্যালোচনা করা যাক কীভাবে ReLU (সংশোধিত লিনিয়ার ইউনিট) দেখাচ্ছে:

কিছু ইনপুট জন্য সংশোধনকারী ইনপুট হয় ওজন জন্য এবং পূর্ববর্তী স্তর থেকে সক্রিয়করণব্যবস্থা সেই নির্দিষ্ট ইনপুট জন্য । সংশোধনকারী নিউরন ফাংশনটি হ'লxn

zn=i=0kwiain
wiainxnReLU=max(0,zn)

খুব সাধারণ ত্রুটি পরিমাপ ধরে নিচ্ছি

error=ReLUy

সংশোধনকারীটির ব্যাকপ্রসারণ অ্যালগরিদমের ডেল্টাসের জন্য কেবল 2 সম্ভাব্য গ্রেডিয়েন্ট মান রয়েছে: (যদি আমরা একটি সঠিক ত্রুটি পরিমাপ ব্যবহার করি তবে 1 টি অন্য কিছু হয়ে যাবে, তবে 0 টি একই থাকবে) এবং তাই নির্দিষ্ট ওজনের জন্য :

errorzn=δn={1zn00zn<0
wj
error=errorwj=errorzn×znwj=δn×ajn={ajnzn00zn<0

একটি প্রশ্ন যা মনে মনে আসে তা হল আসলে কীভাবে রেলু বাম পাশের গ্রেডিয়েন্ট 0 দিয়ে "একেবারে" কাজ করে । কি হবে যদি, ইনপুট জন্য , বর্তমান ওজন ReLU বাম ফ্ল্যাট পাশ করা যখন এটি সন্তোষজনক ভাবে এই বিশেষ ইনপুট জন্য ডান দিকে হওয়া উচিত? গ্রেডিয়েন্ট 0 এবং সুতরাং ওজন আপডেট করা হবে না, এমনকি সামান্য বিটও হবে না, তবে এই ক্ষেত্রে "শেখা" কোথায়?এক্স এন=xn

উত্তরের সারমর্মটি এই সত্যে নিহিত যে স্টোচাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত কেবলমাত্র একটি ইনপুট বিবেচনা করবে না , তবে তাদের মধ্যে অনেকগুলিই আশাবাদী এবং আশাবাদী যে সমস্ত ইনপুটগুলি ফ্ল্যাট দিকে আরএলইউ রাখবে না, সুতরাং গ্রেডিয়েন্টটি অযোগ্য হবে কিছু ইনপুটগুলির জন্য জাজো (এটি + ve বা যদিও-হতে পারে)। যদি কমপক্ষে একটি ইনপুট এর খাড়া দিকে আমাদের আরএলইউ থাকে, তবে রিলু এখনও বেঁচে আছে কারণ এখনও শিখতে হচ্ছে এবং এই নিউরনের জন্য ওজন আপডেট হচ্ছে। যদি সমস্ত ইনপুটগুলি ফ্ল্যাট দিকে আরএলইউ রাখে, এমন কোনও আশা নেই যে ওজনগুলি একেবারে পরিবর্তিত হবে এবং নিউরন মারা গেছেx xnx

কোনও ইনপুট ব্যাচ ওজনকে ছোট মানগুলিতে চালিত করার জন্য গ্রেডিয়েন্ট পদক্ষেপের কারণে একটি রিলু বেচে থাকতে পারে তবে সমস্ত ইনপুটের জন্য তৈরি করে। একটি বৃহত শিক্ষার হার এই সমস্যাটিকে প্রশস্ত করে।zn<0

@ নীল স্লেটার যেমন উল্লেখ করেছেন, একটি স্থির ক্ষেত্রটি একটি ছোট গ্রেডিয়েন্টের জন্য সমতল দিকটি সংশোধন করা হয়, যাতে এটি নীচের মতো হয়ে যায়, যাকে বলা হয় লেকিরিলু e ReLU=max(0.1x,x)এখানে চিত্র বর্ণনা লিখুন


আপনি কি সংশোধনকারীকে ইনপুট দেওয়ার সূত্রে পক্ষপাতিত্ব শব্দটি ভুলে যাচ্ছেন না?
টম হেল

আমি মনে করি যে আমি কয়েকটি পাঠ্যপুস্তকের স্বরলিপি অনুসরণ করেছি যা ধরে নিয়েছে যে সমস্ত স্তরগুলির জন্য a_0 = 1 এবং ডাব্লু টাইমটি পক্ষপাতিত্ব। পক্ষপাতটি গুরুত্বপূর্ণ নয় তাই এটিকে যাইহোক বাদ দেওয়া আরও ভাল
মুহাম্মাদজেজ

@ মোহামেজেজ, আমি আপনার বক্তব্যটি বুঝতে পারি নি What if, for the input 𝑥𝑛, the current weights put the ReLU on the left flat side while it optimally should be on the right side for this particular input ?, যদি ইনপুটটি নেতিবাচক হয় তবে গ্রেডিয়েন্ট 0 হবে? এই ক্ষেত্রে অনুকূল কি? আপনি এটা বুঝতে সাহায্য করতে পারেন?
আনু

1
সর্বোত্তমভাবে আমি বোঝাতে চেয়েছিলাম যে, যদি নেটওয়ার্কটি এই ইনপুটটির জন্য আরও ভাল পূর্বাভাস দেয় তবে ওজনগুলি সামঞ্জস্য করা দরকার যাতে রেলু একটি ধনাত্মক মান দেয়, এটি 0 গ্রেডিয়েন্টের কারণে এটি এই সমন্বয় করতে সক্ষম হবে না সমতল দিকে।
মোহাম্মদজেজ

আশ্চর্যজনক উত্তর। ধন্যবাদ
ডেভিড রেফেলি

13

রিলু নিউরনের আউটপুট শূন্য এবং সমস্ত নেতিবাচক ইনপুটগুলির জন্য শূন্য ডেরিভেটিভস রয়েছে। সুতরাং, যদি আপনার নেটওয়ার্কের ওজন সর্বদা একটি রিলিউ নিউরনে নেতিবাচক ইনপুটগুলিতে নিয়ে যায়, তবে নিউরনটি কার্যকরভাবে নেটওয়ার্কটির প্রশিক্ষণে অবদান রাখছে না। গাণিতিকভাবে, সেই নিউরন থেকে আসা ওজন আপডেটের ক্ষেত্রে গ্রেডিয়েন্ট অবদান সর্বদা শূন্য (কিছু বিশদের জন্য গাণিতিক পরিশিষ্ট দেখুন)।

আপনার ওজন একটি প্রদত্ত নিউরনে সমস্ত ইনপুটগুলির জন্য নেতিবাচক সংখ্যার উত্পাদন শেষ করবে এমন কী সম্ভাবনা রয়েছে ? এটির সাধারণভাবে উত্তর দেওয়া শক্ত, তবে আপনি যখন ওজনকে খুব বেশি আপডেট করেন তবে এটির একটি উপায় এটি হতে পারে। মনে রাখবেন যে নিউরাল নেটওয়ার্কগুলি সাধারণত গ্রেডিয়েন্ট ডেসেন্ট ব্যবহার করে ওজনকে সম্মতি দিয়ে ক্ষতির ফাংশন হ্রাস করে প্রশিক্ষণ দেওয়া হয় । অর্থাৎ একটি স্নায়ুর নেটওয়ার্ক এর ওজন ফাংশন "ভেরিয়েবল" হয় (ক্ষতি ডেটা সেটটি উপর নির্ভর করে, কিন্তু শুধুমাত্র পরোক্ষভাবে: এটা সাধারণত প্রতিটি প্রশিক্ষণ উদাহরণস্বরূপ উপর সমষ্টি, এবং প্রতিটি উদাহরণ কার্যকরভাবে একটি ধ্রুবক)। যেহেতু যে কোনও ফাংশনের গ্রেডিয়েন্ট সর্বদা খাড়া বর্ধনের দিকে নির্দেশ করে, আমাদের কেবলমাত্র এর গ্রেডিয়েন্ট গণনা করতে হবেএল এল ডাব্লু এলL(W)LLওজনের সাথে এবং বিপরীত দিকে কিছুটা এগিয়ে যান, তারপরে ধুয়ে ফেলুন এবং পুনরাবৃত্তি করুন। এইভাবে, আমরা একটি (স্থানীয়) সর্বনিম্ন এ শেষ করি । সুতরাং, যদি আপনার ইনপুটগুলি প্রায় একই স্কেলে থাকে তবে গ্রেডিয়েন্টের দিকের দিকে একটি বড় পদক্ষেপ আপনাকে এমন ওজন দিয়ে যেতে পারে যা একই ধরণের ইনপুট দেয় যা নেতিবাচক হতে পারে।WL

সাধারণভাবে, কী ঘটে তা নির্ভর করে কীভাবে নেটওয়ার্কের মাধ্যমে তথ্য প্রবাহিত হয়। আপনি কল্পনা করতে পারেন যে প্রশিক্ষণ চলার সাথে সাথে নিউরনের উত্পাদিত মানগুলি চারদিকে ঘুরে বেড়াতে পারে এবং এর কিছুটির মধ্য দিয়ে ওজনকে সমস্ত ডেটা প্রবাহকে মেরে ফেলা সম্ভব করে তোলে। (কখনও কখনও, তারা নেটওয়ার্কের ওজন আপডেটের কারণে এই প্রতিকূল কনফিগারেশনগুলি ছেড়ে যেতে পারে, যদিও!)। আমি ওজন সূচনা সম্পর্কে ব্লগ পোস্টে এই ধারণাটি অন্বেষণ করেছি - যা এই সমস্যাতেও ভূমিকা রাখতে পারে - এবং এর সাথে ডেটা প্রবাহের সম্পর্ক। আমি মনে করি এখানে আমার বক্তব্যটি সেই নিবন্ধের একটি চক্রান্ত দ্বারা চিত্রিত করা যেতে পারে:

বিভিন্ন সূচনা কৌশল সহ একটি রিলু এমএলপিতে ক্রিয়াকলাপ

প্লটটি বিভিন্ন সূচনা কৌশল সহ নেটওয়ার্কের মধ্য দিয়ে পাসের পরে রেএলইউ অ্যাক্টিভেশনগুলির সাথে 5 লেয়ার মাল্টি-লেয়ার পারসেপ্ট্রনগুলিতে সক্রিয়করণগুলি প্রদর্শন করে। আপনি দেখতে পাচ্ছেন যে ওজন কনফিগারেশনের উপর নির্ভর করে আপনার নেটওয়ার্কের আউটপুটগুলি বন্ধ হয়ে যেতে পারে।

গাণিতিক পরিশিষ্ট

গাণিতিকভাবে যদি আপনার নেটওয়ার্কের ক্ষতির ফাংশন হয়, -th স্তরের -th নিউরনের আউটপুট , হ'ল রিলু নিউরন এবং হ'ল -st স্তরটির মধ্যে রৈখিক ইনপুট , তারপরে শৃঙ্খলা নিয়মে এবং সাথে সংযুক্ত একটি ওজনের ক্ষেত্রে লোকসানের অনুপাত - সেন্ট স্তর হয়x ( i ) j j i f ( s ) = সর্বাধিকLxj(i)jif(s)=max(0,s)sj(i)(i+1)i(i+1)

Lwjk(i)=Lxk(i+1)xk(i+1)wjk(i).

ডানদিকে প্রথম শব্দটি পুনরাবৃত্তির সাথে গণনা করা যেতে পারে। ডানদিকে দ্বিতীয় শব্দটি হ'ল একমাত্র স্থান যেখানে সরাসরি ওজন যুক্ত থাকে এবং এটি ভেঙে যেতে পারেwjk(i)

xk(i+1)wjk(i)=f(sj(i))sj(i)sj(i)wjk(i)=f(sj(i))xj(i).

এ থেকে আপনি দেখতে পাচ্ছেন যে যদি ফলাফলগুলি সর্বদা নেতিবাচক থাকে তবে নিউরনের দিকে যাওয়ার ওজনগুলি আপডেট হয় না এবং নিউরনটি শেখার ক্ষেত্রে অবদান রাখে না।


মহান ব্যাখ্যা !, আপনি কি আমাকে বুঝতে সাহায্য করতে পারে Therefore, if your inputs are on roughly the same scale, a large step in the direction of the gradient can leave you with weights that give similar inputs which can end up being negative.কিভাবে ওজন নেতিবাচক পাচ্ছেন যদি ইনপুট সাধারণ আছেন?
আনু

@ আনু ওজন আপডেট ডাব্লু সিডট ম্যাথর্ম ডিডাব্লু , সুতরাং আপনি যদি একটি বড় পদক্ষেপ গ্রহণ করেন তবে এই ক্ষেত্রে একটি বড় নির্বাচন করা এবং যদি ইতিবাচক হয় তবে আপনি দেখতে পারেন যে হতে পারে নেতিবাচক. এটি বিশেষত খারাপ যদি আমরা পক্ষপাতিত্বটি একটি বড় নেতিবাচক মান হিসাবে আপডেট করি। wλdwλdww
জনসন

@ জনসনজিয়া, দুর্দান্ত, আমি এটি পেয়েছি :), আরও একটি ব্যাখ্যা দরকার, ওজনের তুলনায় পক্ষপাতের ক্ষেত্রে কেন এটি বিশেষত খারাপ কারণ যেহেতু নেতিবাচক অবদান ওজন ও পক্ষপাত উভয় ক্ষেত্রেই হতে পারে, আমি ভুল হলে আমাকে সংশোধন করব? "
আনু

কারণ পক্ষপাতটি ইনপুট দ্বারা সংশোধিত হয় না: , তাই যদি খুব নেতিবাচক হয় তবে সমস্ত মানের জন্য নেতিবাচক থাকতে পারে । z=wx+bbzx
জনসন

5

ভাষায় আরও সুনির্দিষ্ট হওয়ার জন্য, যখন রেইলইউর স্থানীয় গ্রেডিয়েন্ট (যা ) পিছনের প্রসারের কারণে প্রবাহিত গ্রেডিয়েন্টকে বহুগুণ করে, আপডেট গ্রেডিয়েন্টের ফলাফলটি একটি বড় নেতিবাচক সংখ্যা হতে পারে (যদি গ্রেডিয়েন্টটি প্রবাহিত হয়- পিছনে একটি বড় নেতিবাচক সংখ্যা)।1

এ জাতীয় বৃহত্তর নেতিবাচক আপডেট গ্রেডিয়েন্ট একটি বড় নেতিবাচক উত্পাদন করে যখন শেখার হার তুলনামূলকভাবে বড় হয়, সুতরাং এই নিউরনে ঘটে যাওয়া আপডেটগুলি দমন করবে, যেহেতু বড় বড় নেতিবাচক সংখ্যাকে অফসেট করার জন্য একটি বড় ধনাত্মক সংখ্যা স্থাপন করা প্রায় অসম্ভব " ভাঙ্গা " ।wiwi


4

"ডাইং রিএলইউ" বলতে নিউরনকে বোঝায় যা প্রশিক্ষণের ক্ষেত্রে আপনার ডেটার জন্য 0 আউটপুট দেয়। এই ঘটনা কারণ এর সমষ্টি ওজন * ইনপুট একটি স্নায়ুর (এছাড়াও নামক অ্যাক্টিভেশন ) সমস্ত ইনপুট নিদর্শনের জন্য হয়ে <= 0। এটি রিলুকে 0 আউটপুট এনে দেয়।যেহেতু এই ক্ষেত্রে আরএলইউ এর ডেরাইভেটিভ 0 হয়, কোনও ওজন আপডেট হয় না এবং নিউরন 0 আউটপুট এ আটকে থাকে।

বিষয়গুলি নোট করুন:

  1. রিলু মারা যাওয়ার অর্থ এই নয় যে পরীক্ষার সময় নিউরনের আউটপুটও শূন্য থাকবে। বিতরণ পার্থক্যের উপর নির্ভর করে এটি হতে পারে বা নাও হতে পারে।
  2. রিলু মারা যাওয়া স্থায়ী মৃত নয়। আপনি যদি নতুন প্রশিক্ষণের ডেটা যুক্ত করেন বা নতুন প্রশিক্ষণের জন্য প্রাক প্রশিক্ষিত মডেল ব্যবহার করেন তবে এই নিউরনগুলি পিছনে ফিরে আসতে পারে !
  3. প্রযুক্তিগতভাবে ডিলিং রিলুকে সমস্ত প্রশিক্ষণের ডেটার জন্য 0 আউটপুট দিতে হবে না। এটি ঘটতে পারে যে এটি কিছু ডেটার জন্য আউটপুট অ-শূন্য করে তবে ইওপাক্সের সংখ্যা ওজনকে উল্লেখযোগ্যভাবে স্থানান্তর করতে যথেষ্ট নয়।
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.