2
নীতি পুনরাবৃত্তির অ্যালগরিদম কেন সর্বোত্তম নীতি এবং মান ফাংশনে রূপান্তর করে?
আমি পুনর্বহাল শেখার বিষয়ে অ্যান্ড্রু এনগের বক্তৃতা নোটগুলি পড়ছিলাম এবং আমি কেন নীতির পুনরাবৃত্তিকে সর্বোত্তম মান ফাংশনে রূপান্তরিত করে তা বোঝার চেষ্টা করছিলামভী*V∗V^* এবং সর্বোত্তম নীতি π*π∗\pi^*। পুনরুদ্ধার নীতি পুনরাবৃত্তি হ'ল: Initialize π randomlyRepeat{Let V:=Vπ \for the current policy, solve bellman's eqn's and set that to the current VLet π(s):=argmaxa∈A∑s′Psa(s′)V(s′)}Initialize …