1
একাধিক ক্রমাগত ক্রিয়াকলাপের ক্ষেত্রে নীতি গ্রেডিয়েন্টগুলি কীভাবে প্রয়োগ করা যেতে পারে?
বিশ্বস্ত অঞ্চল নীতি অপ্টিমাইজেশন (টিআরপিও) এবং প্রক্সিমাল পলিসি অপটিমাইজেশন (পিপিও) হ'ল দুটি কাটিয়া প্রান্ত পলিসি গ্রেডিয়েন্ট অ্যালগরিদম। একটি একক ক্রমাগত ক্রিয়া ব্যবহার করার সময়, সাধারণত, আপনি ক্ষতির জন্য কিছু সম্ভাবনা বন্টন (উদাহরণস্বরূপ, গাউসিয়ান) ব্যবহার করবেন। রুক্ষ সংস্করণটি হ'ল: L ( θ ) = লগ( পি(একটি1) ) এ ,L(θ)=log(P(a1))A,L(\theta) = \log(P(a_1)) …