কেন সবসময় অ্যাডাম অপটিমাইজেশন কৌশলটি ব্যবহার করবেন না?

13

মনে হচ্ছে অ্যাডাপটিভ মুহুর্তের প্রাক্কলন (অ্যাডাম) অপ্টিমাইজারটি প্রায় সবসময় আরও ভাল কাজ করে (দ্রুত এবং আরও নির্ভরযোগ্যভাবে একটি সর্বনিম্ন সর্বনিম্নে পৌঁছায়) যখন প্রশিক্ষণে নিউরাল নেটগুলি ব্যয় করা হয় function

সব সময় আদমকে ব্যবহার করবেন না কেন? এমনকি আরএমএসপ্রপ বা গতিবেগ অপ্টিমাইজার ব্যবহার করে কেন বিরক্ত করবেন?

neural-network optimization

— PyRsquared
সূত্র

1

আমি বিশ্বাস করি না যে কোনও বক্তব্যকে সমর্থন করার জন্য কোনও কঠোর, আনুষ্ঠানিক উপায় আছে। ত্রুটি পৃষ্ঠ অজানা হিসাবে এটি সমস্তই নিখুঁতভাবে অভিজ্ঞতাশীল। থাম্বের নিয়ম হিসাবে, এবং পুরোপুরি এম অভিজ্ঞতা থেকে, অ্যাডএএম ভাল করে যেখানে অন্যরা ব্যর্থ হয় (উদাহরণস্বরূপ বিভাজন), যদিও ত্রুটিগুলি ছাড়াই নয় (রূপান্তরটি একঘেয়ে নয়)

— অ্যালেক্স

2

অ্যাডাম একত্রিত করার জন্য দ্রুত। এসজিডি ধীর গতিতে তবে আরও উন্নত করে। সুতরাং শেষে এটি আপনার নির্দিষ্ট পরিস্থিতির উপর নির্ভর করে।

— আগকাল

13

এসজিডি দাবি করে একটি নিবন্ধ পর্যালোচনা করে একটি ব্লগ পোস্ট এখানে অ্যাডামের চেয়ে ভাল জেনারেলাইজড অ্যাডাপ্টার। https://shaoanlu.wordpress.com/2017/05/29/sgd-all-which-one-is-the-best-optimizer-dogs-vs-cats-toy-experiment/

একাধিক পদ্ধতি ব্যবহার করার জন্য প্রায়শই একটি মূল্য থাকে (একটি পোশাক), কারণ প্রতিটি পদ্ধতিতে একটি দুর্বলতা থাকে।

— ক্রিস্টোফার ক্লাউস
সূত্র

5

বিভিন্ন গ্রেডিয়েন্ট বংশোদ্ভূত অপ্টিমাইজারের তুলনা করে আপনার এই পোস্টটিও একবার দেখুন। আপনি নীচে দেখতে পাচ্ছেন যে অ্যাডাম স্পষ্টতই কিছু কাজের জন্য সেরা অপ্টিমাইজার নয় যতগুলি আরও ভাল রূপান্তরিত হয়।

কেবল রেকর্ডের জন্য: সংযুক্ত নিবন্ধে তারা অ্যাডামের কিছু ত্রুটিগুলি উল্লেখ করেছে এবং সমাধান হিসাবে এমএসগ্রাডকে উপস্থাপন করে। যাইহোক, তারা এই সিদ্ধান্তে পৌঁছেছে যে অনুশীলনে অ্যাএমএএমগ্র্যাডের অ্যাডামফর্মের চেয়ে দক্ষতা রয়েছে কিনা (লেখার সময়) এটি নির্বিঘ্ন।

— লস