রেকটাইনার অ্যাক্টিভেশন ফাংশন কীভাবে নিউরাল নেটওয়ার্কগুলিতে বিলুপ্ত গ্রেডিয়েন্ট সমস্যা সমাধান করে?

40

নিউরাল নেটওয়ার্কগুলির জন্য বিলুপ্ত গ্রেডিয়েন্ট সমস্যার সমাধান হিসাবে আমি বেশ কয়েকটি স্থানে প্রশংসিত লিনিয়ার ইউনিট (আরএলইউ) পেয়েছি । এটি, সক্রিয়করণ ফাংশন হিসাবে এক সর্বোচ্চ (0, x) ব্যবহার করে। যখন অ্যাক্টিভেশনটি ইতিবাচক হয়, তবে স্পষ্টতই বলা যায় যে এটি সিগময়েড অ্যাক্টিভেশন ফাংশনটির চেয়ে ভাল, যেহেতু এর এক্সেরিভিশনটি সর্বদা বড় এক্স এর জন্য নির্বিচারে ছোট মানের পরিবর্তে 1 হয়। অন্যদিকে, x 0 এর চেয়ে ছোট হলে ডাইরিভেশনটি ঠিক 0 হয় যখন সবচেয়ে খারাপ ক্ষেত্রে, যখন কোনও ইউনিট কখনই সক্রিয় হয় না, তখন এই ইউনিটের ওজনও আর কখনও পরিবর্তন করতে পারে না, এবং ইউনিটটি চিরকালের জন্য অকেজো হবে - যা মনে হয় এমনকি বিন্যাসযোগ্য ছোট গ্রেডিয়েন্টের চেয়েও খারাপ। তারা যখন এলএলইউ ব্যবহার করে তখন কীভাবে অ্যালগরিদমগুলি শিখতে হবে?

— হ্যান্স-পিটার স্টার
সূত্র

2

আপনি যেটিকে সবচেয়ে খারাপ হিসাবে বর্ণনা করেন তাকে ডাইং রিলু

— মার্টিন থোমা

আমি মনে করি ধারণাটি একটি লজিস্টিক ফাংশনের জন্য, যেহেতু গ্রেডিয়েন্টটি নির্বিচারে ছোট হয়ে যেতে পারে, আপনি বেশ কয়েকটি "তুচ্ছ" লজিস্টিক রচনা করে সংখ্যাসূচকভাবে বিলুপ্ত গ্রেডিয়েন্ট পেতে পারেন (সমস্যাটি তখন আরও গভীর স্থাপত্যের জন্য আরও খারাপ হবে)। র‌্যাম্প ফাংশনের জন্য, গ্রেডিয়েন্টটি টুকরোচক ধ্রুবক হিসাবে,

— নিখরচায়

(যদিও এটি "চিরকালের জন্য" কিনা তা আমি নিশ্চিত নই? আরও প্রশিক্ষণের পরেও কি এটি শূন্য হতে পারে না? অন্যান্য নোড এবং / অথবা বর্তমান ডেটা-মিনি-ব্যাচের উপর নির্ভরশীলতা থেকে? (স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত জন্য))

— জিওম্যাটট২২

33

এখানে একটি কাগজ এই সমস্যাটি ব্যাখ্যা করে। বিষয়টি পরিষ্কার করার জন্য আমি এর কিছু অংশ উদ্ধৃত করছি।

সংশোধনকারী অ্যাক্টিভেশন ফাংশনটি কোনও নেটওয়ার্ককে সহজেই বিছিন্নভাবে উপস্থাপনা গ্রহণ করতে দেয়। উদাহরণস্বরূপ, ওজনের অভিন্ন সূচনা হওয়ার পরে, প্রায় 50% লুকানো ইউনিট অবিচ্ছিন্ন আউটপুট মানগুলি আসল শূন্য, এবং এই ভগ্নাংশটি স্পারসিটি-প্ররোচিত নিয়মিতকরণের সাথে সহজেই বৃদ্ধি পেতে পারে।

সুতরাং রেকটিফায়ার অ্যাক্টিভেশন ফাংশন নেটওয়ার্কে স্পারসিটি এফেক্টের পরিচয় দেয়। এখানে একই কাগজ থেকে স্পারসিটির কিছু সুবিধা রয়েছে;

তথ্য বিভ্রান্ত । গভীর শেখার অ্যালগরিদমগুলির দাবি করা উদ্দেশ্যগুলির মধ্যে একটি (বেনজিও, ২০০৯) হ'ল ডেটার বিভিন্নতা ব্যাখ্যা করার কারণগুলি ছড়িয়ে দেওয়া। একটি ঘন প্রতিনিধিত্ব অত্যন্ত জড়িয়ে থাকে কারণ ইনপুটটির প্রায় কোনও পরিবর্তন প্রতিনিধিত্বমূলক ভেক্টরের বেশিরভাগ এন্ট্রিগুলিকে পরিবর্তন করে। পরিবর্তে, যদি কোনও উপস্থাপনা উভয়ই অপ্রয়োজনীয় এবং ছোট ইনপুট পরিবর্তনগুলিতে দৃust় হয় তবে নন-শূন্য বৈশিষ্ট্যের সেটটি প্রায়শই সর্বদা মোটামুটিভাবে ইনপুটটির ছোট পরিবর্তনগুলি দ্বারা সুরক্ষিত থাকে।

দক্ষ পরিবর্তনশীল-আকারের উপস্থাপনা । বিভিন্ন ইনপুটগুলিতে বিভিন্ন ধরণের তথ্য থাকতে পারে এবং ভেরিয়েবল-আকারের ডেটা-কাঠামো ব্যবহার করে আরও স্বাচ্ছন্দ্যের সাথে উপস্থাপিত হতে পারে যা তথ্যগুলির কম্পিউটার উপস্থাপনে সাধারণ। সক্রিয় নিউরনের সংখ্যার বৈচিত্র্য একটি মডেলকে প্রদত্ত ইনপুট এবং প্রয়োজনীয় নির্ভুলতার জন্য উপস্থাপনের কার্যকর মাত্রিকতা নিয়ন্ত্রণ করতে দেয়।

লিনিয়ার বিচ্ছিন্নতা । বিচ্ছিন্ন উপস্থাপনাগুলি লিনিয়ারালি পৃথকীকরণ, বা কম অ-রৈখিক যন্ত্রপাতি দিয়ে আরও সহজে বিভাজ্য হওয়ার সম্ভাবনা বেশি থাকে, কারণ তথ্যগুলি একটি উচ্চ-মাত্রিক স্থানে প্রতিনিধিত্ব করা হয়। তদতিরিক্ত, এটি মূল ডেটা ফর্ম্যাটটিকে প্রতিবিম্বিত করতে পারে। উদাহরণস্বরূপ পাঠ্য-সম্পর্কিত অ্যাপ্লিকেশনগুলিতে, মূল কাঁচা ডেটা ইতিমধ্যে খুব বিরল।

বিতরণ করা হলেও বিরল । খাঁটি বিতরণ উপস্থাপনা হ'ল ধনী উপস্থাপনা, যা বিশুদ্ধভাবে স্থানীয় জনগণের চেয়ে তাত্পর্যপূর্ণভাবে আরও দক্ষ হয়ে উঠেছে (বেনজিও, ২০০৯)। বিচ্ছিন্ন উপস্থাপনার দক্ষতা এখনও তাত্পর্যপূর্ণভাবে বৃহত্তর, ঘোরের শক্তি শূন্য নয় এমন বৈশিষ্ট্যের সংখ্যা। তারা উপরের মানদণ্ডের সাথে সম্মতভাবে একটি ভাল বাণিজ্য-উপস্থাপিত হতে পারে।

এটি আপনার জিজ্ঞাসিত প্রশ্নেরও উত্তর দেয়:

$\text{softplus}(x) = \log(1 + e^x)$ (দুগাস এট আল।, 2001), সংশোধনকারী অ-রৈখিকতার একটি মসৃণ সংস্করণ। আমরা সঠিক স্পারসিটি হারাতে পারি, তবে আরও সহজ প্রশিক্ষণ পাওয়ার আশা করতে পারি। তবে পরীক্ষামূলক ফলাফলগুলি সেই হাইপোথিসিসের সাথে বৈপরীত্য পোষণ করে, যা পরামর্শ দেয় যে কঠোর শূন্যরা আসলে তদারকি প্রশিক্ষণে সহায়তা করতে পারে। আমরা অনুমান করেছি যে কঠোর অ-রেখাগুলি এতক্ষণ আঘাত করে না যতক্ষণ গ্রেডিয়েন্ট কিছু পাথ বরাবর প্রচার করতে পারে, অর্থাত, প্রতিটি স্তরের কিছু গোপন ইউনিট শূন্য নয়, বিতরণ করার পরিবর্তে এই অন ইউনিটগুলিতে নির্ধারিত ক্রেডিট এবং দোষের সাথে আরও সমানভাবে, আমরা অনুমান করি যে অপ্টিমাইজেশন সহজ।

আপনি আরও বিশদ জন্য কাগজ পড়তে পারেন ।

— yasin.yazici
সূত্র

18

এ কারণেই সম্ভবত PReLU, ELU, বা অন্যান্য ফাঁস হওয়া রিলু-জাতীয় অ্যাক্টিভেশনগুলি ব্যবহার করা আরও ভাল ধারণা যা কেবল 0 এ মারা যায় না, তবে এক্স শিখতে অক্ষম হয়ে গেলে 0.1 * x এর মতো কিছুতে পড়ে। দীর্ঘদিন ধরে আমার কাছে মনে হয়েছিল যে রিলিজগুলি হ'ল সিগময়েডের মতো ইতিহাস, যদিও কোনও কারণে লোকেরা এখনও এগুলি সহ কাগজপত্র প্রকাশ করে। কেন? আমি জানি না।

ডাইমিট্রো মিশকিন এবং অন্যান্য ছেলেরা প্রচুর পরিমাণে বিভিন্ন অ্যাক্টিভেশন প্রকারের সাথে একটি নেটওয়ার্ক পরীক্ষা করেছে, আপনার বিভিন্ন সক্রিয়করণ ফাংশন এবং অন্যান্য স্টাফের পারফরম্যান্স সম্পর্কে তাদের অনুসন্ধানগুলি দেখা উচিত। এক্সওআর-এর মতো কিছু ফাংশন, সরল আরএলইউ দিয়ে আরও ভালভাবে শিখেছে। মস্তিষ্কের শর্তে কোনও নিউরাল স্টাফ নিয়ে ভাবেন না, কারণ নিউরাল নেট খুব বেশি কাজ চলছে। Inশিক সত্য বলার জন্য পৃথিবীতে কেউই তাদের এত ভালভাবে জানে এবং বুঝতে পারে না। কেউ। জিনিসগুলি চেষ্টা করে দেখুন, নিজের আবিষ্কার করুন। মনে রাখবেন যে নিজেই রিলু ব্যবহার করা খুব সাম্প্রতিক বিকাশ এবং কয়েক দশক ধরে ক্ষেত্রের সমস্ত পিএইচডি ছেলেরা অতি-জটিল অ্যাক্টিভেশন ফাংশন ব্যবহার করেছে যা আমরা এখন কেবল হাসিতে পারি। খুব ঘন ঘন "জেনে রাখা" আপনার খারাপ ফলাফল পেতে পারে। এটি বুঝতে গুরুত্বপূর্ণ যে নিউরাল নেটওয়ার্কগুলি একটি সঠিক বিজ্ঞান নয়। গণিতে কিছুই বলে না যে নিউরাল নেটওয়ার্কগুলি আসলে তাদের মতো কাজ করবে। এটি হিউরিস্টিক। এবং তাই এটি খুব মাতাল।

FYI এমনকি পরম-মান সক্রিয়করণ কিছু সমস্যার ক্ষেত্রে ভাল ফলাফল পায়, উদাহরণস্বরূপ XOR- এর মতো সমস্যা। বিভিন্ন অ্যাক্টিভেশন ফাংশন বিভিন্ন উদ্দেশ্যে আরও উপযুক্ত। আমি সিফার -10 এ্যাবস () দিয়ে চেষ্টা করেছি এবং দেখে মনে হচ্ছে এটি আরও খারাপ হয়। যদিও, আমি এটি বলতে পারি না যে "এটি ভিজ্যুয়াল স্বীকৃতির জন্য আরও খারাপ অ্যাক্টিভেশন ফাংশন", কারণ আমি নিশ্চিত নই, উদাহরণস্বরূপ, যদি আমার প্রাক-প্রারম্ভিককরণটি এটির জন্য অনুকূল ছিল, ইত্যাদি। এটি সত্যই তুলনামূলকভাবে শিখছিল ভাল আমাকে অবাক।

এছাড়াও, বাস্তব জীবনে আপনি যে "ডেরিভেটিভস" ব্যাকপ্রপকে দিয়েছিলেন তা অবশ্যই গাণিতিক ডেরিভেটিভের সাথে মেলে না।

এমনকি আমি যতদূর বলতে পারি যে তাদের "ডেরাইভেটিভস" বলা নিষিদ্ধ করা উচিত এবং তাদের অন্য কিছু বলা শুরু করা উচিত, উদাহরণস্বরূপ, error activation functionsতাদের সাথে ঝুঁকির সম্ভাবনার দিকে আমাদের মনকে বন্ধ না করা। আপনি আসলে, উদাহরণস্বরূপ, আরএলইউ অ্যাক্টিভেশন ব্যবহার করতে পারেন তবে এক্স <0 এর জন্য ডেরিভেটিভ হিসাবে 0 এর পরিবর্তে একটি 0.1 বা কিছু সরবরাহ করতে পারেন। একটি উপায়ে, আপনার তখন একটি সরল আরএলইউ রয়েছে, তবে নিউরনগুলি "অভিযোজিততার কারণে মরে যেতে" সক্ষম হয় না। আমি এটিকে NecroRelu বলি, কারণ এটি একটি রিলু যা মারা যায় না। এবং কিছু ক্ষেত্রে (স্পষ্টভাবে বেশিরভাগ ক্ষেত্রে নয়) এটি প্লেইন LeakyReLU এর চেয়ে ভাল কাজ করে, যা আসলে x <0 এ 0.1 ডেরিভেটিভ এবং স্বাভাবিক রেলু থেকে ভাল। আমি মনে করি না যে আরও অনেকে এই জাতীয় ফাংশনটি তদন্ত করেছেন, যদিও এটি, বা এই জাতীয় কিছু সম্ভবত একটি শীতল অ্যাক্টিভেশন ফাংশন হতে পারে যা তারা গণিতে খুব বেশি কেন্দ্রীভূত হওয়ার কারণে কেউই বিবেচনা করে না।

ট্যানএইচ (এক্স) অ্যাক্টিভেশন ফাংশনটির জন্য সাধারণত যা ব্যবহৃত হয় তা হিসাবে জিনিসগুলি দ্রুত গণনা করার জন্য ডেরিভেটিভ হিসাবে 1 - ট্যানএইচ (এক্স) এর পরিবর্তে 1 - x² পাস করা স্বাভাবিক জিনিস।

এছাড়াও, মনে রাখবেন যে, আরএলইউ সমস্ত "স্পষ্টতই ভাল" এর চেয়ে বেশি নয়, উদাহরণস্বরূপ, ট্যানএইচ। তানহহ কিছু ক্ষেত্রে সম্ভবত আরও ভাল হতে পারে। ঠিক তাই, মনে হচ্ছে ভিজ্যুয়াল স্বীকৃতিতে নয়। যদিও, উদাহরণস্বরূপ, ইএলইউতে কিছুটা সিগময়েড স্নিগ্ধতা রয়েছে এবং এটি এই মুহুর্তে ভিজ্যুয়াল স্বীকৃতির জন্য সর্বাধিক পরিচিত সক্রিয়করণ ফাংশনগুলির মধ্যে একটি। আমি সত্যিই চেষ্টা করি নি, তবে আমি বাজি ধরেছি যে কেউ একই স্তর স্তরে বিভিন্ন অ্যাক্টিভেশন ফাংশন সহ বেশ কয়েকটি গ্রুপ সেট করতে পারে একটি সুবিধার জন্য। কারণ, বিভিন্ন অ্যাক্টিভেশন ফাংশন সহ বিভিন্ন যুক্তি আরও ভালভাবে বর্ণনা করা হয়। এবং কখনও কখনও আপনার সম্ভবত বিভিন্ন ধরণের মূল্যায়ন প্রয়োজন।

মনে রাখবেন যে আপনার অ্যাক্টিভেশন ক্রিয়াকলাপের ধরণের সাথে মিলে একটি অন্তর্বর্তীকরণ থাকা গুরুত্বপূর্ণ। ফুসকুড়ি রিলিজগুলির জন্য অন্য ডিআইআই প্রয়োজন যা সাধারণ রিলু, উদাহরণস্বরূপ।

সম্পাদনা: প্রকৃতপক্ষে, স্ট্যান্ডার্ড আরএলইউ আধুনিক স্থাপত্যগুলির সাথে বনাম ফাঁসযুক্ত ওভারফিটিংয়ের প্রবণতা কম বলে মনে হচ্ছে। কমপক্ষে চিত্র স্বীকৃতিতে। দেখে মনে হচ্ছে আপনি যদি প্রচুর পরিমাণে পরামিতিগুলির সাথে খুব উচ্চ নির্ভুলতার জন্য যাচ্ছেন তবে প্লেইন রিলু বনাম ফাঁস বিকল্পগুলির সাথে লেগে থাকা ভাল। তবে অবশ্যই এগুলি নিজের দ্বারা পরীক্ষা করুন। আরও নিয়মিতকরণ দেওয়া হলে কিছু ফুটো জিনিস আরও ভাল কাজ করবে।

— Orhor Mé
সূত্র

আমি আপনার NecroReLU এ আগ্রহী, কিন্তু আপনি কী লিখেছেন তা থেকে পাওয়া যায় না এটি কীভাবে LeakyReLU থেকে আলাদা। আপনি কি স্পষ্ট করতে পারেন?

— টম হালে

সক্রিয়করণটি আরএলইউর থেকে আলাদা, তবে ডেরিভেটিভ হ'ল এলআরইলু

— é

@ OrhorMé, যেমনটি আপনি আপনার পোস্টে initialization that corresponds to a type of activation function one is usingএকটি সম্পর্কে উল্লেখ করেছেন, আপনি NOTEকি একই পরামর্শে এই পরামর্শগুলি দিতে পারেন, আমি পুরোপুরি নিশ্চিত নই যে সিগময়েড / ট্যানএইচ-এর মাধ্যমে রেলু অ্যাক্টিভেশনগুলি ব্যবহার করা বিলুপ্ত / বিস্ফোরিত গ্রেডিয়েন্ট সমস্যার সমাধান is ।

— আনু

16

এখানে একটি তাত্ত্বিক ব্যাখ্যা:

ব্যাকপ্রপের প্রতিটি গ্রেডিয়েন্ট আপডেটে বহু গুণক উপাদান থাকে।
আপনি নেটওয়ার্কের শুরুতে যত এগিয়ে যাবেন, গ্রেডিয়েন্ট আপডেট পেতে এই কারণগুলির আরও বেশি একসাথে গুণিত হয়।
এই কারণগুলির মধ্যে অনেকগুলি নিউরনের সক্রিয়করণ কার্যের ডেরাইভেটিভস - বাকিগুলি ওজন, বায়াসেস ইত্যাদি ases
এই কারণগুলির মধ্যে, যেগুলি স্বজ্ঞাতভাবে বিবেচনা করে সেগুলি হল ওজন, বায়াসেস ইত্যাদি The সক্রিয়করণ ফাংশন ডেরাইভেটিভগুলি এক ধরণের টিউনিং প্যারামিটার যা সঠিক ধরণের গতিবেগে গ্রেডিয়েন্ট বংশোদ্ভূতকে সঠিক দিকে যেতে designed
আপনি যদি 1 টিরও কম শর্তগুলির একগুচ্ছ গুন করেন, তবে আপনার কাছে আরও শর্তাবলীর শূন্য দিকে ঝুঁকবেন। সুতরাং আপনার যদি অ্যাক্টিভেশন ফাংশন থাকে যাতে opeাল <1 থাকে তবে আউটপুট স্তর থেকে আরও বাড়ার সাথে সাথে গ্রেডিয়েন্ট অদৃশ্য হয়ে যায়।
আপনি যদি 1 এর চেয়ে বেশি পদগুলির একগুচ্ছ গুন করেন, তবে আপনার কাছে অনন্তের দিকে ঝুঁকবেন, অতএব youাল> 1 থাকা অ্যাক্টিভেশন ফাংশনগুলি থাকলে আউটপুট স্তরটি থেকে আপনি আরও এগিয়ে যাবেন grad
কীভাবে আমরা কীভাবে, যেকোন উপায়ে, যাদুকরভাবে, এই পদগুলি সক্রিয়করণ কার্যগুলির ডেরাইভেটিভ দ্বারা অবদান পেতে পারি This এর স্বজ্ঞাততার অর্থ হ'ল গ্রেডিয়েন্ট আপডেটগুলিতে সমস্ত অবদানগুলি সমস্যা এবং মডেলের ইনপুট থেকে আসে - ওজনগুলি, ইনপুটস, বায়াসেস - অ্যাক্টিভেশন ফাংশনটির কিছু আর্টফ্যাক্টের চেয়ে বেছে নেওয়া হয়েছে।
RELU এর গ্রেডিয়েন্ট 1 যখন আউটপুট> 0 এবং অন্যথায় শূন্য থাকে।
অতএব ব্যাকপ্রপ সমীকরণগুলিতে একসাথে আরএলইউ ডেরিভেটিভগুলি একসাথে গুন করার ক্ষেত্রে 1 বা শূন্য হয় এমন দুর্দান্ত সম্পত্তি রয়েছে - আপডেটটি হয় কিছুই নয়, বা অন্যান্য ওজন এবং বায়াসগুলি থেকে সম্পূর্ণ অবদান গ্রহণ করে।

আপনি হয়ত ভাবতে পারেন যে x <0 এর তুলনায় চাটুকারের চেয়ে লিনিয়ার ফাংশন করা ভাল here এখানে ধারণাটি হ'ল রেলু অপেক্ষাকৃত কম সংখ্যক দরকারী লিঙ্কযুক্ত স্পার নেটওয়ার্ক তৈরি করে, যার জৈবিক প্রশস্ততা রয়েছে, তাই এর ক্ষতি একগুচ্ছ ওজন আসলে সহায়ক। এছাড়াও, স্নায়বিক জালগুলির সাথে আকর্ষণীয় ফাংশনগুলির সিমুলেশন কেবল অ্যাক্টিভেশন ফাংশনে কিছু অরেণ্যতার সাথেই সম্ভব। লিনিয়ার অ্যাক্টিভেশন ফাংশনটির ফলে লিনিয়ার আউটপুট আসে যা মোটেও আকর্ষণীয় নয়।

— টম ওয়াকার
সূত্র

দুর্দান্ত ব্যাখ্যা, আপনি 6th ষ্ঠ দফায় আরও বিশদ বর্ণনা করতে পারেন, আপনি একই লাইনগুলিতে এর জন্য আপনার পরামর্শগুলি সরবরাহ করতে পারেন , আমি সম্পূর্ণরূপে নিশ্চিত নই যে সিগময়েড / ট্যানএইচ-র মাধ্যমে রিলু অ্যাক্টিভেশনগুলি ব্যবহার করা বিলুপ্ত / বিস্ফোরিত গ্রেডিয়েন্ট সমস্যার সমাধান।

— আনু

1

সংবেদনশীল ওজন সূচনাও গুরুত্বপূর্ণ; অ্যাক্টিভেশন ফাংশন পছন্দ কিন্তু। একটি তুচ্ছ উদাহরণ হিসাবে, যদি আপনার সমস্ত ওজন ডিফল্ট শূন্য হয় এবং আপনি RELU ব্যবহার করেন তবে আপনার নিউরোন থেকে সমস্ত আউটপুট শূন্য হবে এবং শূন্য থাকবে ... একা RELU বা আদ্যক্ষর কৌশলগুলি একাই সম্পূর্ণরূপে বিলুপ্ত / বিস্ফোরিত গ্রেডিয়েন্ট সমাধান করে না, তবে তারা উভয়ই সহায়তা করে। নিশ্চিত নয় যে আপনি on দফায় পুনরায় বিস্তৃততার অর্থ কী, অস্পষ্ট?

— টম ওয়াকার

1

আসুন মূল পুনরাবৃত্তির সম্পর্কটি বিবেচনা করুন যা ত্রুটি সংকেতের পিছনে প্রচারকে সংজ্ঞায়িত করে।

${W_i}$ ${b_i}$ $\text{i}$ ${f}$

${h_i}$ ${i}$

${s_i} = {W_i}({h_{i-1}}) + {b_i}$

${h_i} = {f(s_i)}$

$\delta$ ${i}$

${\delta_{i}} = {W_{i+1}({\delta_{i+1}}}\odot{f^{'}({s_i})})$

$\odot$

${f}$ ${f^{'}({s_i})}=(1-h_i^2)$ $h_i$

${f}=Relu=max(0,x)$ ${f^{'}}$ ${f^{'}} = \text{numpy.where}(h_i>0, 1, 0)$

এই সমীকরণটি রিল্টিভ অ্যাক্টিভেশন - মৃত নিউরনগুলির অন্যান্য সমস্যাটির বৈশিষ্ট্যও প্রদর্শন করে: যদি কোনও প্রদত্ত নিউরন এমনভাবে শুরু হয় যা কোনও ইনপুট (তার সক্রিয়করণ শূন্য হয়) এর জন্য আগুন না দেয় তবে এর গ্রেডিয়েন্টটিও শূন্য হবে এবং অতএব এটি কখনও সক্রিয় হবে না।

— user1767774
সূত্র