গভীর শক্তিবৃদ্ধি শেখা কেন অস্থির?


13

গভীর শক্তিবৃদ্ধি শেখার বিষয়ে ডিপমাইন্ডের ২০১৫ সালের গবেষণাপত্রে এটি উল্লেখ করেছে যে "অস্থির শিক্ষার কারণে আরআরএলকে নিউরাল নেটওয়ার্কগুলির সাথে একত্রিত করার আগের প্রচেষ্টাগুলি ব্যর্থ হয়েছিল"। কাগজটি পর্যবেক্ষণ জুড়ে পারস্পরিক সম্পর্কের ভিত্তিতে এর কয়েকটি কারণ তালিকাভুক্ত করে।

দয়া করে কেউ কি এর অর্থ ব্যাখ্যা করতে পারেন? এটি কি ওভারফিটিংয়ের একটি রূপ, যেখানে নিউরাল নেটওয়ার্ক এমন কিছু কাঠামো শিখেছে যা প্রশিক্ষণে উপস্থিত রয়েছে, তবে পরীক্ষায় উপস্থিত হতে পারে না? নাকি এর অর্থ অন্য কিছু?


কাগজটি পাওয়া যাবে: http://www.nature.com / প্রকৃতি / জার্নাল / ভি 518 / n7540 / full / nature14236.html

এবং যে বিভাগটি আমি বোঝার চেষ্টা করছি তা হ'ল:

রিইনফোর্সমেন্ট লার্নিং অস্থির বা এমনকি ডাইভারেজ হিসাবে পরিচিত যখন নিউরালিয়াল ফাংশন যেমন নিউরাল নেটওয়ার্ক যেমন অ্যাকশন-ভ্যালু (যা Q হিসাবেও পরিচিত) ফাংশন উপস্থাপন করার জন্য ব্যবহৃত হয় তখন ডাইভারেজ হিসাবে পরিচিত। এই অস্থিরতার বেশ কয়েকটি কারণ রয়েছে: পর্যবেক্ষণের অনুক্রমের সাথে সম্পর্কিত পারস্পরিক সম্পর্ক, Q- এর ছোট আপডেটগুলি নীতিটি উল্লেখযোগ্যভাবে পরিবর্তন করতে পারে এবং তাই ডেটা বিতরণ এবং ক্রিয়া-মান এবং লক্ষ্য মানগুলির মধ্যে পারস্পরিক সম্পর্ককে পরিবর্তন করতে পারে।

আমরা এই অস্থিরতাগুলিকে কি-লার্নিংয়ের একটি অভিনব রূপ দিয়ে সম্বোধন করি, যা দুটি মূল ধারণা ব্যবহার করে। প্রথমত, আমরা একটি জৈবিকভাবে অনুপ্রাণিত মেকানিজমযুক্ত অভিজ্ঞতা বলেছিলাম যা ডেটাটিকে এলোমেলো করে তোলে, যার ফলে পর্যবেক্ষণের ক্রম সম্পর্কিত পারস্পরিক সম্পর্ক সরিয়ে দেয় এবং ডেটা বিতরণে পরিবর্তনের বিষয়ে স্মুথ থাকে। দ্বিতীয়ত, আমরা একটি পুনরাবৃত্তি আপডেট ব্যবহার করেছি যা লক্ষ্যমাত্রার সাথে ক্রমান-মানগুলি (কিউ) সামঞ্জস্য করে যা কেবল সময়ে পর্যায়ক্রমে আপডেট হয়, যার ফলে লক্ষ্যটির সাথে সম্পর্কগুলি হ্রাস হয়।


আপনি আপনার এজেন্টকে অসংলগ্ন ডেটাতে প্রশিক্ষণ দিচ্ছেন তা নিশ্চিত করার জন্য আপনাকে প্রতিটি পদক্ষেপে এজেন্ট মেমরিটি আপডেট করা উচিত নয়, ডেটাতে সজ্জিত করার জন্য একটি স্টোরিং পদক্ষেপ ঠিক করুন।
করমণি

উত্তর:


11

মূল সমস্যাটি হ'ল, অন্যান্য অনেক ক্ষেত্রে যেমন ডিএনএন প্রশিক্ষণ দেওয়া কঠিন হতে পারে। এখানে, একটি সমস্যা হ'ল ইনপুট ডেটার সাথে সম্পর্কিত: আপনি যদি কোনও ভিডিও গেম সম্পর্কে চিন্তা করেন (তারা আসলে তাদের অ্যালগোরিদমগুলি পরীক্ষা করতে ব্যবহার করেন), আপনি কল্পনা করতে পারেন যে একের পর এক পদক্ষেপ নেওয়া স্ক্রিনশটগুলি অত্যন্ত সংযুক্ত থাকে: গেমটি "ধারাবাহিকভাবে" বিকশিত হয়। এনএনএস-এর ক্ষেত্রে এটি সমস্যা হতে পারে: অনুরূপ এবং সম্পর্কিত সম্পর্কযুক্ত ইনপুটগুলিতে গ্রেডিয়েন্ট বংশোদ্ভূত অনেকগুলি পুনরাবৃত্তি করলে তাদের উপকার হতে পারে এবং / অথবা স্থানীয় সর্বনিম্নে পড়তে পারে। এ কারণেই তারা অভিজ্ঞতা পুনরায় খেলুন: তারা গেমের একটি "স্ন্যাপশট" সিরিজ সংরক্ষণ করে, তারপর এলোমেলো করে এবং প্রশিক্ষণ দেওয়ার জন্য তাদের পরে কিছু পদক্ষেপ নিয়ে যায়। এইভাবে, ডেটা আর সংযুক্ত করা হয় না। তারপরে, তারা লক্ষ্য করেন যে প্রশিক্ষণের সময় কী মানগুলি (এনএন দ্বারা পূর্বাভাস দেওয়া) চলমান নীতি কীভাবে পরিবর্তন করতে পারে,


"শিফলেড" ডেটা দ্বারা, আপনি কি এলোমেলোভাবে, মিনি-ব্যাচে নমুনাবিহীন অনুক্রমের অভিজ্ঞতা বলতে চান? এটি কীভাবে "ছাড়ের ভবিষ্যতের পুরষ্কারের" সাথে সামঞ্জস্যপূর্ণ, যা অনুক্রমের অভিজ্ঞতাগুলিকে বোঝায়?
আইসোব্রেটেল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.