আমি iG) এসজিডি এবং ii) অ্যাডাম অপটিমাইজার ব্যবহার করে একটি নিউরাল নেটওয়ার্ক প্রশিক্ষণ দিচ্ছি। সাধারণ এসজিডি ব্যবহার করার সময়, আমি নীচে দেখানো হিসাবে পুনরুক্তি বক্রিয়া বনাম একটি মসৃণ প্রশিক্ষণ ক্ষতি পাই । যাইহোক, আমি যখন অ্যাডাম অপটিমাইজার ব্যবহার করেছি, প্রশিক্ষণ হ্রাস বক্ররেখা কিছু স্পাইক আছে। এই স্পাইকগুলির ব্যাখ্যা কী?
মডেল বিশদ:
14 ইনপুট নোড -> 2 লুকানো স্তর (100 -> 40 ইউনিট) -> 4 আউটপুট ইউনিট
আমি আদম জন্য ডিফল্ট পরামিতি ব্যবহার করছি beta_1 = 0.9
, beta_2 = 0.999
, epsilon = 1e-8
এবং batch_size = 32
।