আরএমএসপ্রপ এবং অ্যাডাম বনাম এসজিডি


12

আমি আরএমএসপ্রপ, অ্যাডাম এবং এসজিডি নেটওয়ার্ক ব্যবহার করে ইএমএনআইএসটি যাচাইকরণ সেটটিতে পরীক্ষা নিরীক্ষা করছি am আমি এসজিডি (0.1 এর শিক্ষার হার) এবং ড্রপআউট (0.1 ড্রপ আউট প্রোব) পাশাপাশি এল 2 নিয়মিতকরণ (1e-05 জরিমানা) এর সাথে 87% নির্ভুলতা অর্জন করছি। আরএমএসপ্রপ এবং আদম এবং একই সাথে 0.001 এর প্রাথমিক শিক্ষার হারের সাথে একই সঠিক কনফিগারেশন পরীক্ষা করার সময়, আমি 85% যথার্থতা এবং একটি উল্লেখযোগ্যভাবে কম মসৃণ প্রশিক্ষণের বক্ররেখা অর্জন করছি। এই আচরণটি কীভাবে ব্যাখ্যা করতে হয় তা আমি জানি না। প্রশিক্ষণের বক্ররেখা স্বাচ্ছন্দ্যের অভাব এবং নিম্ন নির্ভুলতা এবং উচ্চতর ত্রুটির হার অর্জনের পিছনে কারণ কী হতে পারে?


এটি নেটওয়ার্কের উপর নির্ভর করে। আপনি আমাদের নেটওয়ার্ক সম্পর্কে বিশদ প্রদর্শন করতে পারেন? এছাড়াও আপনি শেখার বক্ররেখা প্রদান করতে পারেন?
স্মরণে

এটি 5 স্তর (প্রতিটি স্তরে ড্রপআউট, আফাইন, ইএলইউ) সহ একটি নেটওয়ার্ক যা নীচে সেট আপ করা হয়েছে: 150 লুকানো মাত্রা, ইএলইউ অ্যাক্টিভেশন ফাংশন ব্যবহৃত হয়, এসজিডির জন্য 0.1 শিক্ষার হার, আরএমএস এবং অ্যাডামের জন্য 0.001 শিক্ষার হার, 1e দিয়ে এল 2 নিয়মিতকরণ -05 জরিমানা, 0.1 বর্জন সম্ভাবনা সহ ড্রপআউট।
অ্যালক

এবং যখন আপনি "সঠিক একই কনফিগারেশন ... 0.001 এর প্রাথমিক শিক্ষার হার" বলছেন কি আপনি কী বোঝাতে চেয়েছেন যে আপনি আলাদা শিক্ষার হার ব্যবহার করেছেন বা আপনি দুটি পরীক্ষা করেছেন: একই শিক্ষার হারের সাথে একটি এবং একটি আলাদা একটি? কোন পরামিতি কোনটি ডিফল্ট হিসাবে আপনি ব্যবহার করছেন তা প্রকৃত সফ্টওয়্যারটির উপর নির্ভর করে।
ওয়েইন

সুতরাং আমি এসজিডি এর জন্য 0.1 এবং অ্যাডাম এবং আরএমএসপ্রপ উভয়ের জন্য 0.001 ব্যবহার করেছি। এটি কারণ যখন আমি 0.1 শিক্ষার হার দিয়ে আদম এবং আরএমএসপ্রপ চালিয়েছিলাম তখন তারা উভয়ই 60% এর যথার্থতার সাথে খারাপভাবে পারফর্ম করেছিল। এছাড়াও, অ্যাডামের কাগজে 0.001 হ'ল প্রস্তাবিত মান।
অ্যালক

আপনার পড়াশোনার কার্ভগুলি পোস্ট করা উচিত এবং আপনি পরীক্ষা বা প্রশিক্ষণের ডেটাতে ত্রুটি পরিমাপ করেন কিনা।
জাকুব বার্টকজুক

উত্তর:


4

অনলাইনে কয়েকটি নিবন্ধ এবং কেরাস ডকুমেন্টেশন গবেষণা করার পরে পরামর্শ দেওয়া হয় যে পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলির জন্য আরএমএসপ্রপ অপ্টিমাইজারের প্রস্তাব দেওয়া হচ্ছে। https://github.com/keras-team/keras/blob/master/keras/optimizers.py#L209

আমার ক্ষেত্রে ক্ষতির ফাংশন সম্পর্কিত তথ্যের উপর ভিত্তি করে মডেলটির ওজনকে অনুকূলকরণ করতে স্ট্যাচাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত প্রতিটি ব্যাচের মধ্যে তার শিক্ষার হার এবং গতির সুযোগ নিয়েছে বলে মনে হচ্ছে 'শ্রেণিবদ্ধ_ক্রোসেন্ট্রপি'।

অপ্টিমাইজেশন অ্যালগরিদম সম্পর্কে অতিরিক্ত তথ্যের জন্য আমি http://ruder.io/optimizing-gradient-descent/index.html পরামর্শ দিচ্ছি ।


আমি "আরএমএসপ্রপ অপ্টিমাইজারটি পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলির জন্য প্রস্তাবিত" বলতে আপনার অর্থ কী তা নিশ্চিত am আপনার দেওয়া লিঙ্কটি এখন ভেঙে গেছে এবং এটি প্রস্তাবিত বলে উল্লেখ করা হয়নি।
হর্ষাল প্যারেক
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.