হ্যাঁ, দুটি কৌশলই ব্যবহার করা খুব সাধারণ। তারা বিভিন্ন সমস্যা সমাধান করে এবং একসাথে ভালভাবে কাজ করতে পারে।
এটির বিষয়ে চিন্তা করার এক উপায় হ'ল ওজন ক্ষয়টি অনুকূলিত হয়ে যাওয়া ফাংশনটিকে পরিবর্তিত করে , যখন গতিবেগ আপনি সর্বোত্তম পথে নিয়ে যাওয়ার পথ পরিবর্তন করে ।
ওজন ক্ষয়, আপনার গুণাগুণকে শূন্যের দিকে সঙ্কুচিত করে নিশ্চিত করে যে আপনি ছোট-মাত্রার পরামিতি সহ একটি স্থানীয় সর্বোত্তম খুঁজে পাবেন। অতিরিক্ত চাপ এড়ানোর জন্য এটি সাধারণত গুরুত্বপূর্ণ (যদিও ওজনের অন্যান্য ধরণের বাধাও কাজ করতে পারে)। পার্শ্ব সুবিধা হিসাবে, এটি উদ্দেশ্যমূলক ফাংশনটিকে আরও উত্তল করে মডেলটিকে অনুকূলকরণ করতে আরও সহজ করতে পারে।
আপনার একবার উদ্দেশ্যমূলক ফাংশন হয়ে গেলে, আপনাকে কীভাবে এটির চারপাশে ঘোরাতে হবে তা সিদ্ধান্ত নিতে হবে। গ্রেডিয়েন্টের উপরে খাড়া বংশদ্ভুতটি সহজতম পদ্ধতি, তবে আপনি ঠিক বলেছেন যে ওঠানামা একটি বড় সমস্যা হতে পারে। গতি যুক্ত করা সমস্যাটি সমাধান করতে সহায়তা করে। আপনি যদি ব্যাচের আপডেট নিয়ে কাজ করছেন (যা সাধারণত নিউরাল নেটওয়ার্কগুলির সাথে খারাপ ধারণা হয়) নিউটন-ধরণের পদক্ষেপগুলি অন্য বিকল্প। নতুন "হট" পন্থাগুলি নেস্টারভের ত্বরণী গ্রেডিয়েন্ট এবং তথাকথিত "হেসিয়ান মুক্ত" অপ্টিমাইজেশানের উপর ভিত্তি করে।
তবে আপনি যে আপডেট আপডেটগুলি ব্যবহার করেন তা নির্বিশেষে (গতিবেগ, নিউটন ইত্যাদি), আপনি এখনও একই উদ্দেশ্যমূলক ফাংশন নিয়ে কাজ করছেন যা আপনার ত্রুটি ফাংশন (যেমন স্কোয়ার ত্রুটি) এবং অন্যান্য সীমাবদ্ধতা (যেমন ওজন ক্ষয়) দ্বারা নির্ধারিত হয় । এর মধ্যে কোনটি ব্যবহার করবেন তা সিদ্ধান্ত নেওয়ার সময় প্রধান প্রশ্নটি হ'ল আপনি কত দ্রুত ওজনের একটি ভাল সেট পাবেন।