আমি ডিপ লার্নিংয়ের জন্য অ্যাডাম অপটিমাইজার সম্পর্কে পড়ছিলাম এবং বেঙ্গিও, গুডফেলো এবং করভিলের ডিপ লার্নিংয়ের নতুন বইয়ের নীচের বাক্যটি পেলাম :
অ্যাডামকে সাধারণত হাইপার প্যারামিটারগুলির নির্বাচনের পক্ষে যথেষ্ট শক্তিশালী হিসাবে বিবেচনা করা হয়, যদিও শিক্ষার হারটি মাঝে মাঝে প্রস্তাবিত ডিফল্ট থেকে পরিবর্তন করা প্রয়োজন।
যদি এটি সত্য হয় তবে এটি একটি বড় বিষয় কারণ হাইপার প্যারামিটার অনুসন্ধানটি গভীর শিখন পদ্ধতির পরিসংখ্যানগত পারফরম্যান্সে (কমপক্ষে আমার অভিজ্ঞতায়) গুরুত্বপূর্ণ হতে পারে। সুতরাং, আমার প্রশ্ন হ'ল কেন অ্যাডাম রবস্ট এত গুরুত্বপূর্ণ পরামিতিগুলিতে? বিশেষ এবং β 2 ?
আমি অ্যাডাম কাগজটি পড়েছি এবং এটি কেন এই পরামিতিগুলির সাথে কাজ করে বা এর মজবুত তা নিয়ে কোনও ব্যাখ্যা দেয় না। তারা অন্য কোথাও এটিকে ন্যায্যতা দেয়?
এছাড়াও, আমি কাগজ পড়া, মনে হচ্ছে যে অধি পরামিতি সংখ্যা তারা চেষ্টা যেখানে খুব ছোট, জন্য শুধুমাত্র 2 এবং জন্য β 2 শুধুমাত্র 3. কিভাবে এই একটি পুঙ্খানুপুঙ্খ গবেষণামূলক অধ্যয়ন হতে পারে এটি শুধুমাত্র 2x3 অধি পরামিতি উপর কাজ করে ?