প্রশ্ন ট্যাগ «rl-an-introduction»

3
কেন রেইনফোর্স অ্যালগরিদমে ছাড়ের হার দু'বার প্রদর্শিত হবে?
আমি রিইনফোর্সমেন্ট লার্নিং বইটি পড়ছিলাম : রিচার্ড এস সুতান এবং অ্যান্ড্রু জি বার্তোর একটি ভূমিকা (পুরো খসড়া, নভেম্বর 5, 2017)। পৃষ্ঠা 271 এ, এপিসোডিক মন্টে-কার্লো নীতি-গ্রেডিয়েন্ট পদ্ধতির সিউডো কোড উপস্থাপন করা হয়েছে। এই সিউডো কোডটি দেখে আমি বুঝতে পারছি না যে কেন ডিসকাউন্ট রেট 2 বার প্রদর্শিত হবে, একবার আপডেট …
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.