স্নায়ু নেটওয়ার্ক প্রশিক্ষণের জন্য একটি অপ্টিমাইজার নির্বাচন করার জন্য নির্দেশিকা


18

আমি কিছুক্ষণের জন্য নিউরাল নেটওয়ার্ক ব্যবহার করে আসছি। তবে, একটি বিষয় যা আমি ক্রমাগত লড়াই করে তা হ'ল নেটওয়ার্ক প্রশিক্ষণের জন্য একটি অপ্টিমাইজার নির্বাচন করা (ব্যাকপ্রপ ব্যবহার করে)। আমি সাধারণত যা করি তা হ'ল একটি (যেমন স্ট্যান্ডার্ড এসজিডি) দিয়ে শুরু করা এবং তারপরে অন্যকে অন্যরকম চেষ্টা করুন try আমি ভাবছিলাম একটি ভাল অপ্টিমাইজার সন্ধানের জন্য আরও ভাল (এবং কম এলোমেলো) উপায় আছে কিনা, যেমন এই তালিকা থেকে:

  • এসজিডি (গতির সাথে বা ছাড়াই)
  • AdaDelta
  • AdaGrad
  • RMSProp
  • আদম

বিশেষত, আমি আগ্রহী যদি ট্রেনিং ডেটার কিছু সম্পত্তি থাকে যেমন একে অপরের উপর তুলে ধরার জন্য কিছু তাত্ত্বিক ন্যায়সঙ্গততা থাকে তবে এটি খুব কমই থাকে। আমি আরও কল্পনা করব যে কিছু অপ্টিমাইজার নির্দিষ্ট ডোমেইনের ক্ষেত্রে অন্যদের চেয়ে ভাল কাজ করে, যেমন যখন কনভোলশনাল নেটওয়ার্ক বনাম ফিড-ফরোয়ার্ড নেটওয়ার্কগুলি বা শ্রেণিবিন্যাস বনাম রিগ্রেশন প্রশিক্ষণ দেওয়া হয়।

আপনি যদি অপ্টিমাইজারগুলি কীভাবে বেছে নেন সে সম্পর্কে যদি আপনার কোনও কৌশল এবং / বা স্বজ্ঞাততা বিকাশ করে থাকে তবে আমি এটি শুনতে আগ্রহী। তদ্ব্যতীত, যদি এমন কিছু কাজ থাকে যা একে অপরের উপরে বাছাইয়ের জন্য তাত্ত্বিক ন্যায়সঙ্গততা সরবরাহ করে তবে এটি আরও ভাল।

উত্তর:


3

1) অ্যাডগ্রাড প্যারামিটারগুলির জন্য ঘন ঘন শিক্ষার হারকে কঠোরভাবে শাস্তি দেয় যা ঘন ঘন আপডেট হয় না এমন প্যারামিটারগুলিকে আরও শিখার হার দেয়। বেশিরভাগ সমস্যায় প্রায়শই অত্যন্ত সমালোচনামূলক তথ্য উপাত্তে উপস্থিত হয় যা ঘন ঘন তবে বিরল নয়। সুতরাং সমস্যাটি যদি আপনি টিফ-আইডিএফ ইত্যাদির মতো স্পার্স ডেটা নিয়ে কাজ করে থাকেন। অ্যাডগ্র্যাড দরকারী হতে পারে।

2) অ্যাডাডেল্টা, আরএমএসপ্রপ প্রায় একই রকম লাইনগুলিতে অ্যাডাদেলটার একমাত্র পার্থক্যের সাথে কাজ করে আপনার সাথে শুরু করার জন্য প্রাথমিক শিক্ষার হারের ধ্রুবকের প্রয়োজন হবে না।

3) অ্যাডাম অ্যাডাডেলটা এবং আরএমএসপ্রপ এর ভাল বৈশিষ্ট্যগুলিকে একত্রিত করে এবং তাই বেশিরভাগ সমস্যার জন্য আরও ভাল করার ঝোঁক।

4) স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত খুব বেসিক এবং এখন খুব কমই ব্যবহৃত হয়। একটি সমস্যা বৈশ্বিক শিক্ষার হারের সাথে সম্পর্কিত learning সুতরাং প্যারামিটারগুলি যখন বিভিন্ন স্কেলে থাকে তখন এটি ভাল কাজ করে না যেহেতু একটি কম শিক্ষার হার শিখাকে ধীর করে দেবে যখন একটি বড় শিক্ষার হার দোলাতে পারে। এছাড়াও স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত সাধারণত স্যাডল পয়েন্টগুলি থেকে বেরিয়ে আসতে বেশ কঠিন সময় দেয়। অ্যাডগ্র্যাড, অ্যাডাডেল্টা, আরএমএসপ্রপ এবং এডিএএম সাধারণত স্যাডল পয়েন্টগুলি আরও ভালভাবে পরিচালনা করে। গতির সাথে এসজিডি অপ্টিমাইজেশনে কিছু গতি সরবরাহ করে এবং স্থানীয় মিনিমা আরও ভালভাবে পালাতে সহায়তা করে।


2

আমার ব্যক্তিগত দৃষ্টিভঙ্গিটি হল সর্বোত্তম (যেটি সর্বশেষতম প্রকাশিত-ইন-পিয়ার-পর্যালোচিত-জার্নাল) সর্বোত্তম pick আমি যখন ক্যাফে ব্যবহার করি উদাহরণস্বরূপ, আমি সর্বদা অ্যাডাম ব্যবহার করি ( http://arxiv.org/abs/1412.6980 )।


0
Nadam(lr=0.002, beta_1=0.9, beta_2=0.999, epsilon=None, schedule_decay=0.004)

অনেকটা Adamমূলত RMSpropগতি সহকারে, নেস্টেরভের গতির সাথে Nadamঅ্যাডাম RMSprop

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.