কৃত্রিম বুদ্ধিমত্তা trpo

একাধিক ক্রমাগত ক্রিয়াকলাপের ক্ষেত্রে নীতি গ্রেডিয়েন্টগুলি কীভাবে প্রয়োগ করা যেতে পারে?

বিশ্বস্ত অঞ্চল নীতি অপ্টিমাইজেশন (টিআরপিও) এবং প্রক্সিমাল পলিসি অপটিমাইজেশন (পিপিও) হ'ল দুটি কাটিয়া প্রান্ত পলিসি গ্রেডিয়েন্ট অ্যালগরিদম। একটি একক ক্রমাগত ক্রিয়া ব্যবহার করার সময়, সাধারণত, আপনি ক্ষতির জন্য কিছু সম্ভাবনা বন্টন (উদাহরণস্বরূপ, গাউসিয়ান) ব্যবহার করবেন। রুক্ষ সংস্করণটি হ'ল: L ( θ ) = লগ( পি(একটি1) ) এ ,L(θ)=log⁡(P(a1))A,L(\theta) = \log(P(a_1)) …

11 deep-learning reinforcement-learning trpo

প্রশ্ন ট্যাগ «trpo»