বিশ্বস্ত অঞ্চল নীতি অপ্টিমাইজেশন (টিআরপিও) এবং প্রক্সিমাল পলিসি অপটিমাইজেশন (পিপিও) হ'ল দুটি কাটিয়া প্রান্ত পলিসি গ্রেডিয়েন্ট অ্যালগরিদম।
একটি একক ক্রমাগত ক্রিয়া ব্যবহার করার সময়, সাধারণত, আপনি ক্ষতির জন্য কিছু সম্ভাবনা বন্টন (উদাহরণস্বরূপ, গাউসিয়ান) ব্যবহার করবেন। রুক্ষ সংস্করণটি হ'ল:
কোথায় পুরষ্কার সুবিধা, দ্বারা চিহ্নিত করা এবং এটি পেন্ডুলাম পরিবেশের মতো স্নায়বিক নেটওয়ার্ক থেকে বেরিয়ে আসে: https://github.com/leomzhong/DeepReinformentLearningCourse/blob/69e573cd88faec7e9cf900da8eeef08c57dec0f0/hw4/main.py ।
সমস্যাটি হ'ল আমি নীতি গ্রেডিয়েন্টগুলি ব্যবহার করে 2+ অবিচ্ছিন্ন ক্রিয়াকলাপগুলিতে কোনও কাগজ পাই না (কিউ-ফাংশন থেকে গ্রেডিয়েন্ট স্থানান্তরিত করে ভিন্ন পদ্ধতির ব্যবহারকারী অভিনেতা-সমালোচক পদ্ধতি নয়)।
লুনারল্যান্ডার পরিবেশে 2 টি ক্রমাগত ক্রিয়াকলাপের জন্য টিআরপিও ব্যবহার করে এটি কীভাবে করবেন তা আপনি জানেন ?
নীচের পদ্ধতির নীতি গ্রেডিয়েন্ট ক্ষতির জন্য সঠিক?