গণিত একটি ফাংশন রৈখিক বিবেচনা করা হয় যখনই কোন fucntion যদি প্রত্যেক জন্য এক্স এবং ওয়াই ডোমেইনে একটি নিম্নলিখিত সম্পত্তি রয়েছে: চ ( এক্স ) + + চ ( Y ) = চ ( এক্স + + Y ) । সংজ্ঞা অনুযায়ী ReLU হয় মি একটি এক্স ( 0 , এক্স ) । অতএব, যদি আমরা ( - ∞ , 0 ] বা [ থেকে ডোমেনটি বিভক্ত করিচ: এ → বিএক্সYএকজনচ( x ) + চ( y)) = চ( x + y))আমি একটি এক্স ( 0 , এক্স )( - ∞ , 0 ]। সুতরাং সংজ্ঞা অনুসারে ReLU রৈখিক নয়। তাহলে ফাংশনটি রৈখিক। তবে, এটি সহজেই দেখতে পাওয়া যায় যে f ( - 1 ) + f ( 1 ) ≠ f ( 0 )[ 0 , ∞ )চ( - 1 ) + চ( 1 ) ≠ চ( 0 )
তবুও, আরএলইউ লিনিয়ারের এত কাছাকাছি যে এটি প্রায়শই মানুষকে বিভ্রান্ত করে এবং আশ্চর্য করে যে কীভাবে এটি সর্বজনীন আনুমানিক হিসাবে ব্যবহার করা যেতে পারে। আমার অভিজ্ঞতায় এগুলি সম্পর্কে ভাবার সবচেয়ে ভাল উপায় হ'ল রিমন অঙ্কের মতো। আপনি প্রচুর সামান্য আয়তক্ষেত্রের সাথে কোনও ধ্রুবক ক্রিয়াকলাপ আনুমানিক করতে পারেন। রিলু সক্রিয়করণগুলি প্রচুর পরিমাণে আয়তক্ষেত্র তৈরি করতে পারে। প্রকৃতপক্ষে, অনুশীলনে, আরএলইউ বরং জটিল আকার এবং আনুমানিক অনেক জটিল ডোমেন তৈরি করতে পারে।
আমি অন্য একটি বিষয় পরিষ্কার করার মত বোধ করি। পূর্বের উত্তরের দ্বারা নির্দেশিত হিসাবে, নিউরন সিগময়েডে মারা যায় না, বরং বিলুপ্ত হয়। এর কারণ হ'ল সিগময়েড ফাংশনের সর্বাধিক ডেরাইভেটিভ .25। অতএব, এতগুলি স্তরের পরে আপনি এই গ্রেডিয়েন্টগুলি গুন করে শেষ করেন এবং 1 এর চেয়ে কম সংখ্যার খুব কম সংখ্যার পণ্য খুব দ্রুত শূন্যে যাওয়ার প্রবণতা দেখায়।
তাই আপনি যদি অনেক স্তর সহ একটি গভীর শিক্ষার নেটওয়ার্ক তৈরি করে থাকেন তবে আপনার সিগময়েড ফাংশনগুলি মূলত বরং দ্রুত স্থির হয়ে যাবে এবং আরও বা কম অকেজো হয়ে যাবে।
মূল কথাটি হ'ল বিলুপ্ত হওয়াটি গ্রেডিয়েন্টগুলি নিজেরাই গ্রেডিয়েন্টগুলি নয় বরং গ্রেডিয়েন্টগুলি গুণানো থেকে আসে।