রিলু নিউরনের আউটপুট শূন্য এবং সমস্ত নেতিবাচক ইনপুটগুলির জন্য শূন্য ডেরিভেটিভস রয়েছে। সুতরাং, যদি আপনার নেটওয়ার্কের ওজন সর্বদা একটি রিলিউ নিউরনে নেতিবাচক ইনপুটগুলিতে নিয়ে যায়, তবে নিউরনটি কার্যকরভাবে নেটওয়ার্কটির প্রশিক্ষণে অবদান রাখছে না। গাণিতিকভাবে, সেই নিউরন থেকে আসা ওজন আপডেটের ক্ষেত্রে গ্রেডিয়েন্ট অবদান সর্বদা শূন্য (কিছু বিশদের জন্য গাণিতিক পরিশিষ্ট দেখুন)।
আপনার ওজন একটি প্রদত্ত নিউরনে সমস্ত ইনপুটগুলির জন্য নেতিবাচক সংখ্যার উত্পাদন শেষ করবে এমন কী সম্ভাবনা রয়েছে ? এটির সাধারণভাবে উত্তর দেওয়া শক্ত, তবে আপনি যখন ওজনকে খুব বেশি আপডেট করেন তবে এটির একটি উপায় এটি হতে পারে। মনে রাখবেন যে নিউরাল নেটওয়ার্কগুলি সাধারণত গ্রেডিয়েন্ট ডেসেন্ট ব্যবহার করে ওজনকে সম্মতি দিয়ে ক্ষতির ফাংশন হ্রাস করে প্রশিক্ষণ দেওয়া হয় । অর্থাৎ একটি স্নায়ুর নেটওয়ার্ক এর ওজন ফাংশন "ভেরিয়েবল" হয় (ক্ষতি ডেটা সেটটি উপর নির্ভর করে, কিন্তু শুধুমাত্র পরোক্ষভাবে: এটা সাধারণত প্রতিটি প্রশিক্ষণ উদাহরণস্বরূপ উপর সমষ্টি, এবং প্রতিটি উদাহরণ কার্যকরভাবে একটি ধ্রুবক)। যেহেতু যে কোনও ফাংশনের গ্রেডিয়েন্ট সর্বদা খাড়া বর্ধনের দিকে নির্দেশ করে, আমাদের কেবলমাত্র এর গ্রেডিয়েন্ট গণনা করতে হবেএল এল ডাব্লু এলL(W)LLওজনের সাথে এবং বিপরীত দিকে কিছুটা এগিয়ে যান, তারপরে ধুয়ে ফেলুন এবং পুনরাবৃত্তি করুন। এইভাবে, আমরা একটি (স্থানীয়) সর্বনিম্ন এ শেষ করি । সুতরাং, যদি আপনার ইনপুটগুলি প্রায় একই স্কেলে থাকে তবে গ্রেডিয়েন্টের দিকের দিকে একটি বড় পদক্ষেপ আপনাকে এমন ওজন দিয়ে যেতে পারে যা একই ধরণের ইনপুট দেয় যা নেতিবাচক হতে পারে।WL
সাধারণভাবে, কী ঘটে তা নির্ভর করে কীভাবে নেটওয়ার্কের মাধ্যমে তথ্য প্রবাহিত হয়। আপনি কল্পনা করতে পারেন যে প্রশিক্ষণ চলার সাথে সাথে নিউরনের উত্পাদিত মানগুলি চারদিকে ঘুরে বেড়াতে পারে এবং এর কিছুটির মধ্য দিয়ে ওজনকে সমস্ত ডেটা প্রবাহকে মেরে ফেলা সম্ভব করে তোলে। (কখনও কখনও, তারা নেটওয়ার্কের ওজন আপডেটের কারণে এই প্রতিকূল কনফিগারেশনগুলি ছেড়ে যেতে পারে, যদিও!)। আমি ওজন সূচনা সম্পর্কে ব্লগ পোস্টে এই ধারণাটি অন্বেষণ করেছি - যা এই সমস্যাতেও ভূমিকা রাখতে পারে - এবং এর সাথে ডেটা প্রবাহের সম্পর্ক। আমি মনে করি এখানে আমার বক্তব্যটি সেই নিবন্ধের একটি চক্রান্ত দ্বারা চিত্রিত করা যেতে পারে:
প্লটটি বিভিন্ন সূচনা কৌশল সহ নেটওয়ার্কের মধ্য দিয়ে পাসের পরে রেএলইউ অ্যাক্টিভেশনগুলির সাথে 5 লেয়ার মাল্টি-লেয়ার পারসেপ্ট্রনগুলিতে সক্রিয়করণগুলি প্রদর্শন করে। আপনি দেখতে পাচ্ছেন যে ওজন কনফিগারেশনের উপর নির্ভর করে আপনার নেটওয়ার্কের আউটপুটগুলি বন্ধ হয়ে যেতে পারে।
গাণিতিক পরিশিষ্ট
গাণিতিকভাবে যদি আপনার নেটওয়ার্কের ক্ষতির ফাংশন হয়, -th স্তরের -th নিউরনের আউটপুট , হ'ল রিলু নিউরন এবং হ'ল -st স্তরটির মধ্যে রৈখিক ইনপুট , তারপরে শৃঙ্খলা নিয়মে এবং সাথে সংযুক্ত একটি ওজনের ক্ষেত্রে লোকসানের অনুপাত - সেন্ট স্তর হয়x ( i ) j j i f ( s ) = সর্বাধিকLx(i)jjif(s)=max(0,s)s(i)j(i+1)i(i+1)
∂L∂w(i)jk=∂L∂x(i+1)k∂x(i+1)k∂w(i)jk.
ডানদিকে প্রথম শব্দটি পুনরাবৃত্তির সাথে গণনা করা যেতে পারে। ডানদিকে দ্বিতীয় শব্দটি হ'ল একমাত্র স্থান যেখানে সরাসরি ওজন যুক্ত থাকে এবং এটি ভেঙে যেতে পারেw(i)jk
∂x(i+1)k∂w(i)jk=∂f(s(i)j)∂s(i)j∂s(i)j∂w(i)jk=f′(s(i)j)x(i)j.
এ থেকে আপনি দেখতে পাচ্ছেন যে যদি ফলাফলগুলি সর্বদা নেতিবাচক থাকে তবে নিউরনের দিকে যাওয়ার ওজনগুলি আপডেট হয় না এবং নিউরনটি শেখার ক্ষেত্রে অবদান রাখে না।