এটি একটি সূক্ষ্ম ইস্যু।
আপনি যদি মূল কাগজে A3C অ্যালগরিদমটি দেখেন (সিউডো-কোডের জন্য p.4 এবং পরিশিষ্ট এস 3), তাদের অভিনেতা-সমালোচক অ্যালগোরিদম (উভয় এপিসোডিক এবং অব্যাহত সমস্যা উভয়ই) অভিনেতা সম্পর্কিত গামা একটি কারণ দ্বারা বন্ধ রয়েছে- সাটন এবং Barto বইয়ে অনিয়মিত সমস্যার জন্য সমালোচক সিউডো-কোড (জানুয়ারি 2019 সংস্করণের p.332 http://incompleteideas.net/book/the-book.html )। সাটন এবং বার্তো বইটিতে আপনার ছবিতে লেবেলযুক্ত অতিরিক্ত "প্রথম" গামা রয়েছে। সুতরাং, বই বা এ 3 সি পেপার হয় ভুল? আসলে তা না.
কী পি তে আছে। ১৯৯৯ সালে সাটন এবং বার্তো বইয়ের:
যদি ছাড় (গামা <1) থাকে তবে এটিকে সমাপ্তির একটি রূপ হিসাবে বিবেচনা করা উচিত, যা দ্বিতীয় মেয়াদে (9.2) এর একটি উপাদান যুক্ত করে কেবল করা যেতে পারে।
সূক্ষ্ম ইস্যুটি হ'ল ছাড় ফ্যাক্টর গামার দুটি ব্যাখ্যা রয়েছে:
- একটি গুণক কারণ যা দূরবর্তী ভবিষ্যতের পুরষ্কারগুলিতে কম ওজন রাখে।
- একটি সম্ভাবনা, 1 - গামা, যে কোনও সিমুলেটেড ট্র্যাজেক্টোরিটি যেকোন সময় পদক্ষেপে উত্সাহজনকভাবে শেষ করে। এই ব্যাখ্যাটি কেবল এপিসোডিক কেসগুলির জন্য, এবং অব্যাহত কেসগুলির জন্য অর্থবোধ করে না।
আক্ষরিক বাস্তবায়ন:
- ভবিষ্যতে কেবল গামার মাধ্যমে ভবিষ্যতের পুরষ্কার এবং সম্পর্কিত পরিমাণ (ভি বা কিউ) গুন করুন।
- কিছু ট্র্যাজিকোলজির সিমুলেট করুন এবং এগুলির প্রতিটি সময়ে পদক্ষেপে এলোমেলোভাবে (1 - গামা) সমাপ্ত করুন। বাতিল হওয়া ট্র্যাজেজরিগুলি তাত্ক্ষণিক বা ভবিষ্যতের পুরষ্কার দেয় না।
জি ∇ Lnπ( একটি | গুলি )
γ2জি ∇ Lnπ( একটি | গুলি )0.81 G ∇ lnπ( একটি | গুলি )
জি ∇ Lnπ( একটি | গুলি )জি
আপনি গামার যে কোনও ব্যাখ্যা বেছে নিতে পারেন, তবে আপনাকে অ্যালগরিদমের পরিণতি সম্পর্কে সচেতন থাকতে হবে। আমি ব্যক্তিগতভাবে কেবল ব্যাখ্যাটির সাথে লেগে থাকতে পছন্দ করি কারণ এটি সহজ। সুতরাং আমি এ 3 সি পেপারে অ্যালগরিদম ব্যবহার করেছি, সাটন এবং বার্টো বইয়ের নয়।
আপনার প্রশ্নটি রেইনফোরস অ্যালগরিদম সম্পর্কে ছিল, তবে আমি অভিনেতা-সমালোচক সম্পর্কে আলোচনা করছি। দুটি গামা ব্যাখ্যা এবং পুনরায় সংস্থায় অতিরিক্ত গামা সম্পর্কিত আপনার কাছে একই সমস্যা রয়েছে।