আরএনএনগুলি (এবং, বিশেষত, এলএসটিএম ইউনিট সহ) কীভাবে কাজ করে সে সম্পর্কে আমার একটি প্রাথমিক জ্ঞান রয়েছে। আমার কাছে একটি এলএসটিএম ইউনিটের আর্কিটেকচারের সচিত্র চিত্র রয়েছে, এটি একটি ঘর এবং কয়েকটি গেট, যা মানগুলির প্রবাহকে নিয়ন্ত্রণ করে।
যাইহোক, আপাতদৃষ্টিতে, আমি সম্পূর্ণরূপে বুঝতে পারি নি যে এলএসটিএম কীভাবে "নিখোঁজ এবং বিস্ফোরিত গ্রেডিয়েন্টস" সমস্যাটি সমাধান করে, যা প্রশিক্ষণের সময় ঘটে, সময়ের মাধ্যমে পিছনে প্রসারণ ব্যবহার করে, একটি প্রচলিত আরএনএন। গণিতটি পুরোপুরি বোঝার জন্য আমার কাছে কাগজপত্র পড়ার সুযোগ হয়নি।
এই উত্তরটি এলএসটিএম ইউনিটগুলির সাথে আরএনএন কীভাবে "অদৃশ্য গ্রেডিয়েন্টস" সমস্যার সমাধান করে তার সংক্ষিপ্ত ব্যাখ্যা দেয়। গাণিতিকভাবে, কারণটি মনে হয় কোনও ডেরিভেটিভের অস্তিত্ব যা অদৃশ্য হয় না, অর্থাত শূন্য হয় না। ফলস্বরূপ, লেখক বলেছেন, "কমপক্ষে একটি পথ রয়েছে যেখানে গ্রেডিয়েন্ট বিলুপ্ত হয় না"। আইএমএইচও, এই ব্যাখ্যাটি কিছুটা অস্পষ্ট।
এদিকে, আমি নিউরাল নেটওয়ার্কস (ইলিয়া সুটস্কিভার, ওরিওল ভিনিয়ালস, কোক ভি। লে) দ্বারা সিকোয়েন্স টু সিকোয়েন্স লার্নিং পেপারটি পড়ছিলাম এবং, সেই কাগজে "৩.৪ প্রশিক্ষণের বিবরণ" বিভাগে বলা হয়েছে
যদিও এলএসটিএমগুলি বিলুপ্ত গ্রেডিয়েন্ট সমস্যায় ভুগছে না, তাদের বিস্ফোরিত গ্রেডিয়েন্ট থাকতে পারে।
আমি সবসময়ই ভেবেছি যে এলএসটিএম ইউনিটগুলির সাথে আরএনএনগুলি "নিখোঁজ" এবং "বিস্ফোরক গ্রেডিয়েন্ট" উভয়ই সমস্যার সমাধান করে তবে স্পষ্টতই, এলএসটিএম ইউনিটগুলির সাথে আরএনএনগুলিও "বিস্ফোরক গ্রেডিয়েন্টস" এর শিকার হয়।
স্বজ্ঞাতভাবে, এটি কেন? গাণিতিকভাবে, এর কারণগুলি কী কী?