প্রশ্ন ট্যাগ «policy-iteration»

2
নীতি পুনরাবৃত্তির অ্যালগরিদম কেন সর্বোত্তম নীতি এবং মান ফাংশনে রূপান্তর করে?
আমি পুনর্বহাল শেখার বিষয়ে অ্যান্ড্রু এনগের বক্তৃতা নোটগুলি পড়ছিলাম এবং আমি কেন নীতির পুনরাবৃত্তিকে সর্বোত্তম মান ফাংশনে রূপান্তরিত করে তা বোঝার চেষ্টা করছিলামভী*V∗V^* এবং সর্বোত্তম নীতি π*π∗\pi^*। পুনরুদ্ধার নীতি পুনরাবৃত্তি হ'ল: Initialize π randomlyRepeat{Let V:=Vπ \for the current policy, solve bellman's eqn's and set that to the current VLet π(s):=argmaxa∈A∑s′Psa(s′)V(s′)}Initialize …
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.