মনে হচ্ছে অ্যাডাপটিভ মুহুর্তের প্রাক্কলন (অ্যাডাম) অপ্টিমাইজারটি প্রায় সবসময় আরও ভাল কাজ করে (দ্রুত এবং আরও নির্ভরযোগ্যভাবে একটি সর্বনিম্ন সর্বনিম্নে পৌঁছায়) যখন প্রশিক্ষণে নিউরাল নেটগুলি ব্যয় করা হয় function
সব সময় আদমকে ব্যবহার করবেন না কেন? এমনকি আরএমএসপ্রপ বা গতিবেগ অপ্টিমাইজার ব্যবহার করে কেন বিরক্ত করবেন?