আমি এখানে নিম্নলিখিত পড়ুন:
- সিগময়েড আউটপুটগুলি শূন্য-কেন্দ্রিক নয় । এটি অনাকাঙ্ক্ষিত যেহেতু নিউরালনগুলি পরে নিউরাল নেটওয়ার্কে প্রসেসিংয়ের পরবর্তী স্তরগুলিতে (খুব শীঘ্রই এটি সম্পর্কে আরও) ডেটা প্রাপ্ত হবে যা শূন্য-কেন্দ্রিক নয়। এই গ্রেডিয়েন্ট বংশদ্ভুত সময় গতিবিদ্যা উপর বিষয় রয়েছে সবসময় ইতিবাচক হলে ডেটা একটি স্নায়ুর উদ্ভেদ যদি কারণ (যেমন elementwise মধ্যে )), তারপর ওজন উপর গ্রেডিয়েন্ট backpropagation সময় ইচ্ছা পারেন পরিণত সমস্ত ধনাত্মক, বা সমস্ত নেতিবাচক (সম্পূর্ণ এক্সপ্রেশন গ্রেডিয়েন্ট উপর নির্ভর করে )। এটি ওজনের জন্য গ্রেডিয়েন্ট আপডেটগুলিতে অযাচিত জিগ-জাগিং গতিশীলতার পরিচয় দিতে পারে। তবে খেয়াল করুন যে একবার এই গ্রেডিয়েন্টগুলি উপাত্তের একটি ব্যাচ জুড়ে যুক্ত করা গেলে ওজনের চূড়ান্ত আপডেটে ভেরিয়েবল চিহ্ন থাকতে পারে, কিছুটা এই সমস্যাটিকে প্রশমিত করে। অতএব, এটি একটি অসুবিধা হলেও উপরের স্যাচুরেটেড অ্যাক্টিভেশন সমস্যার তুলনায় এর কম গুরুতর পরিণতি হয়েছে।
কেন সব থাকার করবে (elementwise) অল-ইতিবাচক বা সব-নেগেটিভ গ্রেডিয়েন্ট সীসা ?
2
CS231n ভিডিও দেখার ক্ষেত্রেও আমার একই প্রশ্ন ছিল।
—
subwaymatch