স্টোকাস্টিক গ্রেডিয়েন্ট বংশদ্ভুতের আদম পদ্ধতি কীভাবে কাজ করে?


45

নিউরাল নেটওয়ার্ক প্রশিক্ষণের জন্য আমি বেসিক গ্রেডিয়েন্ট বংশদ্ভুত অ্যালগরিদমগুলির সাথে পরিচিত। আমি অ্যাডামের প্রস্তাব দেওয়ার কাগজটি পড়েছি: অ্যাডাম: স্টকস্টিক অপ্টিমাইজেশনের একটি পদ্ধতি

আমি অবশ্যই কিছু অন্তর্দৃষ্টি পেয়েছি (কমপক্ষে), কাগজটি সামগ্রিকভাবে আমার কাছে খুব উচ্চ স্তরের বলে মনে হচ্ছে। উদাহরণস্বরূপ, একটি ব্যয় ফাংশন প্রায়শই বিভিন্ন বিভিন্ন ফাংশনের সমষ্টি, অতএব এর মানটি অনুকূল করতে একটি বিশাল পরিমাণ গণনা করতে হয়; স্টোকাস্টিক গ্রেডিয়েন্ট অবতরন - যতক্ষণ আমি বিষয়টি বুঝতে পারি - কেবলমাত্র এই কার্যগুলির একটি উপসেটের জন্য অপ্টিমাইজেশান গণনা করুন। আমার কাছে এটি অস্পষ্ট, অ্যাডাম কীভাবে এটি করে এবং কেন এটি পুরো প্রশিক্ষণের ত্রুটি হ্রাস পেয়েছে ।J(θ)J(θ)

আমি মনে করি অ্যাডাম আগের গ্রেডিয়েন্টটি বিবেচনায় নিয়ে তার গ্রেডিয়েন্ট আপডেট করে। তারা এটিকে গতিবেগকে কাজে লাগানোর মতো কিছু বলে? এই গতি ঠিক কি? কাগজের দুটি পৃষ্ঠায় অ্যালগরিদম অনুসারে, এটি "নিয়মিত" গ্রেডিয়েন্টের প্রথম এবং দ্বিতীয় মুহুর্তের কিছু অনুমানের মতো কোনও ধরণের চলমান গড়?

ব্যবহারিকভাবে, আমি সন্দেহ করব যে অ্যাডাম গ্রেডিয়েন্ট হ্রাস করার জন্য বৃহত্তর কার্যকর ধাপের মাপ ব্যবহার করতে সক্ষম করে এবং তাই স্টোকাস্টিক আনুমানিকতার সাথে সংমিশ্রণে প্রশিক্ষণের ত্রুটি। সুতরাং, ফলস্বরূপ আপডেট ভেক্টরটি স্থানিক মাত্রায় আরও প্রায় "লাফিয়ে" ফেলা উচিত, বরং কিছু কিছু বক্ররেখার বিবরণ যেমন সাধারণ গ্রেডিয়েন্ট বংশোদ্ভূত আলগোরিদিমগুলি করতে পারে।

অ্যাডাম কীভাবে কাজ করে কেউ ডি-মিস্টিফাই করতে পারে? বিশেষত এটি কীভাবে রূপান্তরিত হয়, বিশেষত অ্যাডামের পদ্ধতিটি কেন কাজ করে এবং ঠিক কী উপকার হয়?


1
আপনার প্রশ্নের জন্য আপনার আরও ভাল শিরোনাম দেওয়া উচিত। আদম সম্পর্কে আপনি ঠিক কী জিজ্ঞাসা করতে চান? এমনকি যদি এটি সাধারণভাবে হয় তবে এটি আরও কিছুটা অনুসন্ধানযোগ্য করার চেষ্টা করুন।
চার্লি পার্কার

উত্তর:


40

অ্যাডাম পেপার বলেছে, "... অনেকগুলি উদ্দেশ্যমূলক ফাংশন ডেটা বিভিন্ন সাবমোলে মূল্যায়নের সাব-ফাংশনগুলির সমন্বয়ে গঠিত; এক্ষেত্রে স্বতন্ত্র সাব-ফাংশনগুলি যথাযথ পদক্ষেপ গ্রহণের মাধ্যমে অপ্টিমাইজেশনকে আরও দক্ষ করা যায় ..." এখানে, তারা কেবল এর অর্থ হ'ল উদ্দেশ্যমূলক ফাংশনটি প্রশিক্ষণের উদাহরণগুলির তুলনায় ত্রুটিগুলির যোগফল এবং পৃথক উদাহরণ বা মিনিবিচে প্রশিক্ষণ দেওয়া যেতে পারে। এটি স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত (এসজিডি) এর মতোই, যা ব্যাচের প্রশিক্ষণের চেয়ে বৃহত আকারের সমস্যার জন্য আরও কার্যকর কারণ প্যারামিটার আপডেটগুলি আরও ঘন ঘন হয়।

অ্যাডাম কেন কাজ করে তা হিসাবে এটি কয়েকটি কৌশল ব্যবহার করে।

এই কৌশলগুলির মধ্যে একটি গতিময় যা দ্রুত রূপান্তর করতে পারে। এমন একটি উদ্দেশ্যমূলক ফাংশনটি কল্পনা করুন যা একটি দীর্ঘ, সরু গিরিখাতের মতো আকারযুক্ত যা ধীরে ধীরে সর্বনিম্নের দিকে opালু। বলুন আমরা গ্রেডিয়েন্ট বংশদ্ভুত ব্যবহার করে এই ফাংশনটি হ্রাস করতে চাই। আমরা যদি উপত্যকার প্রাচীরের কোনও জায়গা থেকে শুরু করি তবে নেতিবাচক গ্রেডিয়েন্টটি খাড়া বংশোদ্ভূত দিকে, অর্থাৎ বেশিরভাগটি গিরিখাতটির দিকে নির্দেশ করবে। এটি কারণ গিরিখাতটি প্রাচীরগুলি ন্যূনতম দিকে গিরিটির ধীরে ধীরে opeালের চেয়ে অনেক বেশি খাড়া। যদি শেখার হার (অর্থাত্ পদক্ষেপের আকার) ছোট হয়, আমরা গিরিখাতটিতে নেমে যেতে পারি, তবে এটি সর্বনিম্নের দিকে অনুসরণ করুন। তবে, অগ্রগতি ধীর হবে। আমরা শিখার হার বাড়িয়ে দিতে পারি, তবে এটি পদক্ষেপগুলির দিক পরিবর্তন করবে না। এই ক্ষেত্রে, আমরা গিরিখাতটি মেঝেতে ছড়িয়ে দিয়ে বিপরীত প্রাচীরের কাছে এসে দাঁড়াতে চাই। আমরা সর্বনিম্নের দিকে ধীরে ধীরে অগ্রগতি করার সময় প্রাচীর থেকে দেওয়ালে দোলায়মান হয়ে এই প্যাটার্নটির পুনরাবৃত্তি করব। মুহুর্ত এই পরিস্থিতিতে সাহায্য করতে পারে।

মোমেন্টামটি সহজভাবে বোঝায় যে পূর্ববর্তী আপডেটের কিছু ভগ্নাংশ বর্তমান আপডেটে যুক্ত করা হয়েছে, যাতে নির্দিষ্ট দিকের সংমিশ্রণে বারবার আপডেট হয়; আমরা গতি বাড়িয়ে তুলি, সেই দিকে দ্রুত এবং দ্রুত গতিতে চলেছি। উপত্যকার ক্ষেত্রে আমরা সর্বনিম্নের দিকে গতি বাড়িয়ে তুলব, যেহেতু সমস্ত আপডেটের সেই দিকটিতে একটি উপাদান রয়েছে। বিপরীতে, গিরিখাত প্রাচীর পেরিয়ে পিছনে অগ্রসর হওয়া ক্রমাগত বিপরীত দিকে জড়িত, সুতরাং গতিবেগ সেই দিকগুলিতে দোলকে স্যাঁতসেঁতে সহায়তা করবে।

অ্যাডাম যে অন্য কৌশল ব্যবহার করে তা হ'ল প্রতিটি প্যারামিটারের জন্য একটি পৃথক শিক্ষার হারকে অভিযোজিতভাবে বেছে নেওয়া। সাধারনত ছোট বা কম ঘন ঘন আপডেটগুলি প্রাপ্ত প্যারামিটারগুলি অ্যাডামের সাথে বৃহত্তর আপডেটগুলি গ্রহণ করে (বিপরীতটিও সত্য)। পরামিতিগুলির ক্ষেত্রে উপযুক্ত শিক্ষার হারগুলি পরিবর্তিত হয় এমন ক্ষেত্রে শিখার গতি এটি। উদাহরণস্বরূপ, গভীর নেটওয়ার্কগুলিতে, প্রাথমিক স্তরগুলিতে গ্রেডিয়েন্টগুলি ছোট হয়ে উঠতে পারে এবং সংশ্লিষ্ট পরামিতিগুলির জন্য শিক্ষার হার বাড়ানো বুদ্ধিমান। এই পদ্ধতির আরেকটি সুবিধা হ'ল, কারণ শেখার হারগুলি স্বয়ংক্রিয়ভাবে সামঞ্জস্য হয়, ম্যানুয়াল টিউনিং কম গুরুত্বপূর্ণ হয়ে ওঠে। স্ট্যান্ডার্ড এসজিডির শেখার হারগুলির যত্নবান টিউনিং (এবং সম্ভবত অনলাইন অ্যাডজাস্টমেন্ট) প্রয়োজন, তবে এটি অ্যাডাম এবং সম্পর্কিত পদ্ধতির সাথে কম সত্য। হাইপারপ্যারামিটারগুলি নির্বাচন করার জন্য এটি এখনও প্রয়োজনীয়,

সম্পর্কিত পদ্ধতি :

মোমেন্টাম প্রায়শই স্ট্যান্ডার্ড এসজিডি ব্যবহার করা হয়। উন্নত সংস্করণটিকে নেস্টেরভ গতিবেগ বা নেস্টারভ ত্বরণী গ্রেডিয়েন্ট বলা হয়। অন্যান্য প্যারামিটারের জন্য স্বয়ংক্রিয়ভাবে সুরযুক্ত শিক্ষার হারগুলি ব্যবহার করার পদ্ধতিগুলির মধ্যে রয়েছে: অ্যাডাগ্রেড, আরএমএসপ্রপ এবং অ্যাডাল্টা। আরএমএসপ্রপ এবং অ্যাডাডেল্টা অ্যাডাগ্রেডের সাথে এমন একটি সমস্যার সমাধান করে যা শিখন বন্ধ করে দিতে পারে। গতিবেগের সাথে আদম আরএমএসপ্রপের অনুরূপ। নাদাম শাস্ত্রীয় গতির পরিবর্তে নেস্টেরভ গতিবেগ ব্যবহার করতে আদমকে পরিবর্তন করেছিলেন if

তথ্যসূত্র :

কিংমা এবং বা (2014) । অ্যাডাম: স্টোকাস্টিক অপটিমাইজেশনের একটি পদ্ধতি।

গুডফেলো এট আল। (2016) । গভীর শিক্ষা, অধ্যায় 8।

জিওফ হিন্টন কোর্স থেকে স্লাইড

দোযাত (২০১ 2016) । অ্যাডামে নেস্টারভ মোমেন্টামকে অন্তর্ভুক্ত করা।


2
(+1) আপনি যদি অ্যাডামের একত্রিত হওয়ার প্রমাণ এবং তাদের সংশোধনগুলির বিষয়ে আরও তথ্য অন্তর্ভুক্ত করতে উত্তরটি আপডেট করতে পারেন তবে "অ্যাডামের রূপান্তর এবং অ্যাডাম এর বাইরে" ওপেনরভিউ.net.ফোম?id=ryQu7f- আরজেড
মনিকা

2
ধন্যবাদ @ সাইকোরাক্স, আমি কিছুটা সময় পেলে আপডেট করার চেষ্টা করব
user20160

1
আইআইইউসি, অ্যাডাম গতির অনুরূপ কিছু ব্যবহার করেছে, তবে আলাদা। যেমনটি আপনি লিখেছেন, গতিশীল পদ্ধতিটি পূর্ববর্তী আপডেটের একটি (বড়) ভগ্নাংশে বর্তমান আপডেটটি যুক্ত করে। বিপরীতে, অ্যাডাম সর্বশেষ গ্রেডিয়েন্টগুলির দ্রুত ক্ষয়কারী গড় ব্যবহার করে যেখানে বেশিরভাগ এসজিডি পদ্ধতি বর্তমান গ্রেডিয়েন্ট ব্যবহার করে। অর্থাত প্রতিটি পদক্ষেপ অ্যাডাম বর্তমান গ্রেডিয়েন্টের কেবল একটি ছোট ভগ্নাংশ গ্রহণ করে। সুতরাং গতিবেগ জমে থাকা একটি সাধারণ বলের বিপরীতে, অ্যাডাম ঘর্ষণ সহ একটি ভারী বলের মতো আচরণ করে, যেমন একটি স্থানীয় ন্যাশ ভারসাম্যকে টু টাইম-স্কেল আপডেট রুল কনভার্জ দ্বারা প্রশিক্ষিত জিএএনএস-এ ব্যাখ্যা করা হয়েছে । w
ওরে মিলম্যান

আমার শেষ মন্তব্যটি অব্যাহত রেখে, এই উত্তরটি গতিবেগের সাথে আদম এবং আরএমএসপ্রপের মধ্যে পার্থক্য সম্পর্কে ব্যাখ্যা করেছে, যখন অ্যাডামের গতিবেগের মতো আচরণ কীভাবে সাধারণ গতির মতো আচরণ থেকে পৃথক হয় on (এই উত্তরে বিভিন্ন পদ্ধতিগুলি কীভাবে আচরণ করে তা
চিত্রিত
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.