অ্যাডাম পেপার বলেছে, "... অনেকগুলি উদ্দেশ্যমূলক ফাংশন ডেটা বিভিন্ন সাবমোলে মূল্যায়নের সাব-ফাংশনগুলির সমন্বয়ে গঠিত; এক্ষেত্রে স্বতন্ত্র সাব-ফাংশনগুলি যথাযথ পদক্ষেপ গ্রহণের মাধ্যমে অপ্টিমাইজেশনকে আরও দক্ষ করা যায় ..." এখানে, তারা কেবল এর অর্থ হ'ল উদ্দেশ্যমূলক ফাংশনটি প্রশিক্ষণের উদাহরণগুলির তুলনায় ত্রুটিগুলির যোগফল এবং পৃথক উদাহরণ বা মিনিবিচে প্রশিক্ষণ দেওয়া যেতে পারে। এটি স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত (এসজিডি) এর মতোই, যা ব্যাচের প্রশিক্ষণের চেয়ে বৃহত আকারের সমস্যার জন্য আরও কার্যকর কারণ প্যারামিটার আপডেটগুলি আরও ঘন ঘন হয়।
অ্যাডাম কেন কাজ করে তা হিসাবে এটি কয়েকটি কৌশল ব্যবহার করে।
এই কৌশলগুলির মধ্যে একটি গতিময় যা দ্রুত রূপান্তর করতে পারে। এমন একটি উদ্দেশ্যমূলক ফাংশনটি কল্পনা করুন যা একটি দীর্ঘ, সরু গিরিখাতের মতো আকারযুক্ত যা ধীরে ধীরে সর্বনিম্নের দিকে opালু। বলুন আমরা গ্রেডিয়েন্ট বংশদ্ভুত ব্যবহার করে এই ফাংশনটি হ্রাস করতে চাই। আমরা যদি উপত্যকার প্রাচীরের কোনও জায়গা থেকে শুরু করি তবে নেতিবাচক গ্রেডিয়েন্টটি খাড়া বংশোদ্ভূত দিকে, অর্থাৎ বেশিরভাগটি গিরিখাতটির দিকে নির্দেশ করবে। এটি কারণ গিরিখাতটি প্রাচীরগুলি ন্যূনতম দিকে গিরিটির ধীরে ধীরে opeালের চেয়ে অনেক বেশি খাড়া। যদি শেখার হার (অর্থাত্ পদক্ষেপের আকার) ছোট হয়, আমরা গিরিখাতটিতে নেমে যেতে পারি, তবে এটি সর্বনিম্নের দিকে অনুসরণ করুন। তবে, অগ্রগতি ধীর হবে। আমরা শিখার হার বাড়িয়ে দিতে পারি, তবে এটি পদক্ষেপগুলির দিক পরিবর্তন করবে না। এই ক্ষেত্রে, আমরা গিরিখাতটি মেঝেতে ছড়িয়ে দিয়ে বিপরীত প্রাচীরের কাছে এসে দাঁড়াতে চাই। আমরা সর্বনিম্নের দিকে ধীরে ধীরে অগ্রগতি করার সময় প্রাচীর থেকে দেওয়ালে দোলায়মান হয়ে এই প্যাটার্নটির পুনরাবৃত্তি করব। মুহুর্ত এই পরিস্থিতিতে সাহায্য করতে পারে।
মোমেন্টামটি সহজভাবে বোঝায় যে পূর্ববর্তী আপডেটের কিছু ভগ্নাংশ বর্তমান আপডেটে যুক্ত করা হয়েছে, যাতে নির্দিষ্ট দিকের সংমিশ্রণে বারবার আপডেট হয়; আমরা গতি বাড়িয়ে তুলি, সেই দিকে দ্রুত এবং দ্রুত গতিতে চলেছি। উপত্যকার ক্ষেত্রে আমরা সর্বনিম্নের দিকে গতি বাড়িয়ে তুলব, যেহেতু সমস্ত আপডেটের সেই দিকটিতে একটি উপাদান রয়েছে। বিপরীতে, গিরিখাত প্রাচীর পেরিয়ে পিছনে অগ্রসর হওয়া ক্রমাগত বিপরীত দিকে জড়িত, সুতরাং গতিবেগ সেই দিকগুলিতে দোলকে স্যাঁতসেঁতে সহায়তা করবে।
অ্যাডাম যে অন্য কৌশল ব্যবহার করে তা হ'ল প্রতিটি প্যারামিটারের জন্য একটি পৃথক শিক্ষার হারকে অভিযোজিতভাবে বেছে নেওয়া। সাধারনত ছোট বা কম ঘন ঘন আপডেটগুলি প্রাপ্ত প্যারামিটারগুলি অ্যাডামের সাথে বৃহত্তর আপডেটগুলি গ্রহণ করে (বিপরীতটিও সত্য)। পরামিতিগুলির ক্ষেত্রে উপযুক্ত শিক্ষার হারগুলি পরিবর্তিত হয় এমন ক্ষেত্রে শিখার গতি এটি। উদাহরণস্বরূপ, গভীর নেটওয়ার্কগুলিতে, প্রাথমিক স্তরগুলিতে গ্রেডিয়েন্টগুলি ছোট হয়ে উঠতে পারে এবং সংশ্লিষ্ট পরামিতিগুলির জন্য শিক্ষার হার বাড়ানো বুদ্ধিমান। এই পদ্ধতির আরেকটি সুবিধা হ'ল, কারণ শেখার হারগুলি স্বয়ংক্রিয়ভাবে সামঞ্জস্য হয়, ম্যানুয়াল টিউনিং কম গুরুত্বপূর্ণ হয়ে ওঠে। স্ট্যান্ডার্ড এসজিডির শেখার হারগুলির যত্নবান টিউনিং (এবং সম্ভবত অনলাইন অ্যাডজাস্টমেন্ট) প্রয়োজন, তবে এটি অ্যাডাম এবং সম্পর্কিত পদ্ধতির সাথে কম সত্য। হাইপারপ্যারামিটারগুলি নির্বাচন করার জন্য এটি এখনও প্রয়োজনীয়,
সম্পর্কিত পদ্ধতি :
মোমেন্টাম প্রায়শই স্ট্যান্ডার্ড এসজিডি ব্যবহার করা হয়। উন্নত সংস্করণটিকে নেস্টেরভ গতিবেগ বা নেস্টারভ ত্বরণী গ্রেডিয়েন্ট বলা হয়। অন্যান্য প্যারামিটারের জন্য স্বয়ংক্রিয়ভাবে সুরযুক্ত শিক্ষার হারগুলি ব্যবহার করার পদ্ধতিগুলির মধ্যে রয়েছে: অ্যাডাগ্রেড, আরএমএসপ্রপ এবং অ্যাডাল্টা। আরএমএসপ্রপ এবং অ্যাডাডেল্টা অ্যাডাগ্রেডের সাথে এমন একটি সমস্যার সমাধান করে যা শিখন বন্ধ করে দিতে পারে। গতিবেগের সাথে আদম আরএমএসপ্রপের অনুরূপ। নাদাম শাস্ত্রীয় গতির পরিবর্তে নেস্টেরভ গতিবেগ ব্যবহার করতে আদমকে পরিবর্তন করেছিলেন if
তথ্যসূত্র :
কিংমা এবং বা (2014) । অ্যাডাম: স্টোকাস্টিক অপটিমাইজেশনের একটি পদ্ধতি।
গুডফেলো এট আল। (2016) । গভীর শিক্ষা, অধ্যায় 8।
জিওফ হিন্টন কোর্স থেকে স্লাইড
দোযাত (২০১ 2016) । অ্যাডামে নেস্টারভ মোমেন্টামকে অন্তর্ভুক্ত করা।