আটারি ভিডিও গেমসের জন্য ডিপ কিউ-লার্নিংয়ের ডিপমাইন্ডের গবেষণাপত্রে ( এখানে ), তারা প্রশিক্ষণের সময় অনুসন্ধানের জন্য একটি অ্যাপসিলন-লোভী পদ্ধতি ব্যবহার করে। এর অর্থ হ'ল প্রশিক্ষণে কোনও ক্রিয়া বাছাই করা হয়, এটি হয় হয় সর্বাধিক Q-মান, বা একটি এলোমেলো ক্রিয়া সহ ক্রিয়া হিসাবে বেছে নেওয়া হয়। এই দুটিয়ের মধ্যে নির্বাচন করা এলোমেলো এবং এপসিলনের মানের উপর ভিত্তি করে, এবং প্রশিক্ষণ চলাকালীন এপসিলনকে বর্ধিত করা হয় যে প্রাথমিকভাবে প্রচুর এলোমেলো পদক্ষেপ নেওয়া হয় (এক্সপ্লোরেশন), তবে প্রশিক্ষণের অগ্রগতির সাথে সাথে সর্বোচ্চ কিউ-মানগুলির সাথে প্রচুর ক্রিয়া নেওয়া হয় (শোষণ).
তারপরে, পরীক্ষার সময়, তারা এই এপসিলন-লোভী পদ্ধতিটিও ব্যবহার করে তবে এপসিলন সহ খুব কম মূল্যে, যেমন অন্বেষণের উপর শোষণের প্রতি দৃ strong় পক্ষপাত রয়েছে, এলোমেলো কর্মের চেয়ে সর্বোচ্চ Q-মান সহ ক্রিয়াটি বেছে নেওয়ার পক্ষে। যাইহোক, এলোমেলো ক্রিয়াগুলি এখনও মাঝে মধ্যে বেছে নেওয়া হয় (সময়ের 5%)।
আমার প্রশ্নগুলি: প্রশিক্ষণ ইতিমধ্যে সম্পন্ন হয়ে গিয়েছে কেন এই মুহুর্তে কোনও অন্বেষণ প্রয়োজন? যদি সিস্টেমটি সর্বোত্তম নীতি শিখে থাকে, তবে কেন ক্রিয়াকে সর্বদা সর্বোচ্চ Q- মানযুক্ত হিসাবে বেছে নেওয়া যায় না? শুধুমাত্র প্রশিক্ষণে অন্বেষণ করা উচিত নয় এবং তারপরে একবার সর্বোত্তম নীতি শিখলে এজেন্ট কেবল বারবার অনুকূল কর্ম বেছে নিতে পারে?
ধন্যবাদ!