গভীর শক্তিবৃদ্ধি শেখার বিষয়ে ডিপমাইন্ডের ২০১৫ সালের গবেষণাপত্রে এটি উল্লেখ করেছে যে "অস্থির শিক্ষার কারণে আরআরএলকে নিউরাল নেটওয়ার্কগুলির সাথে একত্রিত করার আগের প্রচেষ্টাগুলি ব্যর্থ হয়েছিল"। কাগজটি পর্যবেক্ষণ জুড়ে পারস্পরিক সম্পর্কের ভিত্তিতে এর কয়েকটি কারণ তালিকাভুক্ত করে।
দয়া করে কেউ কি এর অর্থ ব্যাখ্যা করতে পারেন? এটি কি ওভারফিটিংয়ের একটি রূপ, যেখানে নিউরাল নেটওয়ার্ক এমন কিছু কাঠামো শিখেছে যা প্রশিক্ষণে উপস্থিত রয়েছে, তবে পরীক্ষায় উপস্থিত হতে পারে না? নাকি এর অর্থ অন্য কিছু?
কাগজটি পাওয়া যাবে: http://www.nature.com / প্রকৃতি / জার্নাল / ভি 518 / n7540 / full / nature14236.html
এবং যে বিভাগটি আমি বোঝার চেষ্টা করছি তা হ'ল:
রিইনফোর্সমেন্ট লার্নিং অস্থির বা এমনকি ডাইভারেজ হিসাবে পরিচিত যখন নিউরালিয়াল ফাংশন যেমন নিউরাল নেটওয়ার্ক যেমন অ্যাকশন-ভ্যালু (যা Q হিসাবেও পরিচিত) ফাংশন উপস্থাপন করার জন্য ব্যবহৃত হয় তখন ডাইভারেজ হিসাবে পরিচিত। এই অস্থিরতার বেশ কয়েকটি কারণ রয়েছে: পর্যবেক্ষণের অনুক্রমের সাথে সম্পর্কিত পারস্পরিক সম্পর্ক, Q- এর ছোট আপডেটগুলি নীতিটি উল্লেখযোগ্যভাবে পরিবর্তন করতে পারে এবং তাই ডেটা বিতরণ এবং ক্রিয়া-মান এবং লক্ষ্য মানগুলির মধ্যে পারস্পরিক সম্পর্ককে পরিবর্তন করতে পারে।
আমরা এই অস্থিরতাগুলিকে কি-লার্নিংয়ের একটি অভিনব রূপ দিয়ে সম্বোধন করি, যা দুটি মূল ধারণা ব্যবহার করে। প্রথমত, আমরা একটি জৈবিকভাবে অনুপ্রাণিত মেকানিজমযুক্ত অভিজ্ঞতা বলেছিলাম যা ডেটাটিকে এলোমেলো করে তোলে, যার ফলে পর্যবেক্ষণের ক্রম সম্পর্কিত পারস্পরিক সম্পর্ক সরিয়ে দেয় এবং ডেটা বিতরণে পরিবর্তনের বিষয়ে স্মুথ থাকে। দ্বিতীয়ত, আমরা একটি পুনরাবৃত্তি আপডেট ব্যবহার করেছি যা লক্ষ্যমাত্রার সাথে ক্রমান-মানগুলি (কিউ) সামঞ্জস্য করে যা কেবল সময়ে পর্যায়ক্রমে আপডেট হয়, যার ফলে লক্ষ্যটির সাথে সম্পর্কগুলি হ্রাস হয়।