3
কেন রেইনফোর্স অ্যালগরিদমে ছাড়ের হার দু'বার প্রদর্শিত হবে?
আমি রিইনফোর্সমেন্ট লার্নিং বইটি পড়ছিলাম : রিচার্ড এস সুতান এবং অ্যান্ড্রু জি বার্তোর একটি ভূমিকা (পুরো খসড়া, নভেম্বর 5, 2017)। পৃষ্ঠা 271 এ, এপিসোডিক মন্টে-কার্লো নীতি-গ্রেডিয়েন্ট পদ্ধতির সিউডো কোড উপস্থাপন করা হয়েছে। এই সিউডো কোডটি দেখে আমি বুঝতে পারছি না যে কেন ডিসকাউন্ট রেট 2 বার প্রদর্শিত হবে, একবার আপডেট …