পেপারে ডিকিউএন " ডিপ রেইনফোর্সমেন্ট লার্নিংয়ের সাথে আতারি বাজানো " প্রবর্তন করে , এতে উল্লেখ করা হয়েছে:
মনে রাখবেন যে অভিজ্ঞতা রিপ্লে দ্বারা শিখার সময়, অফ-পলিসি শিখতে হবে (কারণ আমাদের বর্তমান প্যারামিটারগুলি নমুনা উত্পন্ন করতে আলাদা হয়), যা কিউ-শেখার পছন্দকে অনুপ্রাণিত করে।
আমি এর মানে কি বেশ বুঝতে পারিনি। যদি আমরা SARSA ব্যবহার করি এবং আমাদের স্মৃতিতে a'
আমরা যে ক্রিয়াটি গ্রহণ করি তার জন্য ক্রিয়াটি স্মরণ করি s'
এবং তারপরে নমুনা ব্যাচগুলি এবং ডি কিউএন-এর মতো কিউ আপডেট করি? এবং, অভিনেতা-সমালোচক পদ্ধতিগুলি (এ 3 সি, নির্দিষ্টভাবে) অভিজ্ঞতা পুনরায় খেলতে পারবেন? তা না হলে কেন?
(s, a, r, s')
পড়ে এবং পুনরায় প্লে করার জন্য এই অভিজ্ঞতাটি আকর্ষণ করি; এখন অনুমান করা আমার বর্তমান নীতি বলেছে তুমি গ্রহণ করা উচিতa'
উপরs'
, তারপর আমি ছাপQ(s, a)
হওয়া উচিতr + Q(s', a')
এবং গ্রেডিয়েন্ট বংশদ্ভুত না। আমি মনে করি আমি অন-পলিসি রিপ্লে করার অভিজ্ঞতাটি করছি। প্রক্রিয়া নিয়ে কোন সমস্যা আছে?