কেন অভিজ্ঞতা পুনরায় খেলতে অফ-পলিসি অ্যালগরিদম প্রয়োজন?


12

পেপারে ডিকিউএন " ডিপ রেইনফোর্সমেন্ট লার্নিংয়ের সাথে আতারি বাজানো " প্রবর্তন করে , এতে উল্লেখ করা হয়েছে:

মনে রাখবেন যে অভিজ্ঞতা রিপ্লে দ্বারা শিখার সময়, অফ-পলিসি শিখতে হবে (কারণ আমাদের বর্তমান প্যারামিটারগুলি নমুনা উত্পন্ন করতে আলাদা হয়), যা কিউ-শেখার পছন্দকে অনুপ্রাণিত করে।

আমি এর মানে কি বেশ বুঝতে পারিনি। যদি আমরা SARSA ব্যবহার করি এবং আমাদের স্মৃতিতে a'আমরা যে ক্রিয়াটি গ্রহণ করি তার জন্য ক্রিয়াটি স্মরণ করি s'এবং তারপরে নমুনা ব্যাচগুলি এবং ডি কিউএন-এর মতো কিউ আপডেট করি? এবং, অভিনেতা-সমালোচক পদ্ধতিগুলি (এ 3 সি, নির্দিষ্টভাবে) অভিজ্ঞতা পুনরায় খেলতে পারবেন? তা না হলে কেন?

উত্তর:


2

সরসার মতো অন-নীতি পদ্ধতিগুলিও প্রত্যাশা করে যে প্রতি রাষ্ট্রের ক্রিয়াকলাপগুলি এজেন্টের বর্তমান নীতিমালার উপর ভিত্তি করে বেছে নেওয়া হয়েছে যা সাধারণত পুরষ্কারগুলি কাজে লাগায়।

এটি করার পরে, আমরা যখন আমাদের পুরষ্কারের ভিত্তিতে আমাদের নীতি আপডেট করি তখন নীতি আরও ভাল হয়। এখানে বিশেষত, তারা এনএন এর প্যারামিটারগুলি আপডেট করে যা একটি নির্দিষ্ট রাষ্ট্র / ক্রিয়াটির মান পূর্বাভাস দেয়)।

তবে, আমরা যদি অভিজ্ঞতা রিপ্লে-এর মতো সঞ্চিত ট্রানজিশনের উপর ভিত্তি করে আমাদের নীতি আপডেট করি তবে আমরা আসলে এমন নীতি থেকে ক্রিয়াকলাপের মূল্যায়ন করব যা এখনকার মতো নয়, যেহেতু এটি সময়ে সময়ে বিকশিত হয়েছিল, সুতরাং এটি নীতি-নীতি আর তৈরি করে না।

কিউ মানগুলি ভবিষ্যতের পুরষ্কারগুলির ভিত্তিতে মূল্যায়ন করা হয় যা আপনি বর্তমান এজেন্ট নীতি অনুসরণ করে কোনও রাজ্য থেকে পাবেন।

তবে, এখন আর এটি সত্য নয় যেহেতু আপনি এখন ভিন্ন নীতি অনুসরণ করছেন। সুতরাং তারা একটি সাধারণ অফ-পলিসি পদ্ধতি ব্যবহার করে যা কোনও অ্যাপসিলন-লোভী পদ্ধতির ভিত্তিতে অন্বেষণ করে।


আপনাকে ধন্যবাদ, তবে আমি এটি এখনও বুঝতে পারি না: যদি আমি টিডি (0) আপডেটের নিয়মটি ব্যবহার করি, একটি রূপান্তরের কথা মনে (s, a, r, s')পড়ে এবং পুনরায় প্লে করার জন্য এই অভিজ্ঞতাটি আকর্ষণ করি; এখন অনুমান করা আমার বর্তমান নীতি বলেছে তুমি গ্রহণ করা উচিত a'উপর s', তারপর আমি ছাপ Q(s, a)হওয়া উচিত r + Q(s', a')এবং গ্রেডিয়েন্ট বংশদ্ভুত না। আমি মনে করি আমি অন-পলিসি রিপ্লে করার অভিজ্ঞতাটি করছি। প্রক্রিয়া নিয়ে কোন সমস্যা আছে?
ডার্কজিরো

আমি বিশ্বাস করি যে সমস্যাটি হ'ল যেহেতু আপনি এখন আগের চেয়ে আলাদা নীতি ব্যবহার করছেন, এবং সেই পদক্ষেপটি পুরানো নীতি ব্যবহার করে বেছে নেওয়া হয়েছে, আপনি সত্যই বলতে পারবেন না যে এটি নীতিতে রয়েছে: কোনও পলিসির কিউ মানকে মূল্যায়ন করতে আপনার সেই একইটির সাথে অনেকগুলি ক্রিয়া করা উচিত। এখানে আপনি কোনও নীতিটি বেছে নিতে পারেনি এমন একটি ক্রিয়া ব্যবহার করে একটি বর্তমান নীতিমালা মূল্যায়ন করার চেষ্টা করছেন।
ড্যান্ট করুন

তাহলে আমি কি বলতে পারি যে আমি এখানে অফ-পলিসি করছি? তাত্ত্বিকভাবে এর ফলে কী হবে?
ডার্কজিরো

1
সুতরাং আমি যদি আপনার কাছে সঠিক হয়ে উঠি তবে একজনকে হয় কিউ-লার্নিংয়ের মতো অফ-পলিসি পদ্ধতি ব্যবহার করা উচিত, সর্বদা ভবিষ্যতের প্রত্যাশিত পুরষ্কার হিসাবে সর্বাধিক কিউ চয়ন করুন। বর্তমান ক্রিয়াটি কী তা বিবেচনাধীন নয়, কারণ এটি কিউ শেখার সম্পত্তি যে আপনি যদি সর্বদা ভবিষ্যতের জন্য সর্বাধিক কিউ বেছে নেন তবে কিউ সর্বোত্তম নীতিমালার অধীনে কিউতে রূপান্তরিত হবে; অথবা তার খোলামেলাভাবে একটি নীতি অনুসরণ করা উচিত, এই নীতিটির মাধ্যমে ভবিষ্যতের বিষয়গুলি সহ প্রতিটি পদক্ষেপ বেছে নেওয়া উচিত এবং অন-পলিসি আপডেট করা উচিত। এটা কি সঠিক?
ডার্কজিরো

1
এখনও অবধি, আমি কেন বুঝতে পারি না যে পলিসি পদ্ধতিগুলি কেন ভাল। অফ-পলিসি পদ্ধতিতে আরও বেশি স্বাধীনতা রয়েছে বলে মনে হয় এবং এটি নিজে থেকে সর্বোত্তম নীতিটি আবিষ্কার করতে পারে। আপনার কি স্ট্যাটাস.স্ট্যাকেক্সেঞ্জার.কম / সেকশনস / ২6565৫৩৫৪ / উত্তর দেওয়ার বিষয়ে আপত্তি আছে ? সমস্ত আলোচনার জন্য আপনাকে অনেক ধন্যবাদ।
ডার্কজিরো

1

ডেভিড সিলভার 46:10 এ এই ভিডিওটি বক্তৃতায় এই ধরনের পরিস্থিতির মোকাবেলা http://videolectures.net/rldm2015_silver_reinforcement_learning/ : অভিজ্ঞতা রিপ্লে বেছে থেকে নীতি সময়ে নিয়ন্ত্রক ব্যবহার করে, এবং এই এর সুবিধাগুলো এক - এটা প্রশ্ন ফাংশন পারবেন পূর্ববর্তী নীতিগুলি থেকে শিখতে হবে, যা সাম্প্রতিক রাজ্য এবং নীতিগুলির পারস্পরিক সম্পর্ককে ভেঙে দেয় এবং নির্দিষ্ট আচরণ মোডে নেটওয়ার্কটিকে "লকড" হতে বাধা দেয়।এসas

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.