প্রশ্ন ট্যাগ «temporal-difference»

2
অস্থায়ী পার্থক্যের চেয়ে মন্টি কার্লো পদ্ধতিগুলি কখন পছন্দ করা হয়?
আমি ইদানীং রিইনফোর্সমেন্ট লার্নিং সম্পর্কে প্রচুর গবেষণা করে চলেছি। আমি সটন এবং বার্তোর পুনর্বহালকরণ শিক্ষণ অনুসরণ করেছি : এর বেশিরভাগের জন্য একটি ভূমিকা । আমি জানি যে মার্কোভ সিদ্ধান্ত প্রক্রিয়াগুলি কী এবং কীভাবে ডায়নামিক প্রোগ্রামিং (ডিপি), মন্টি কার্লো এবং টেম্পোরাল ডিফারেন্স (ডিপি) লার্নিংগুলি সেগুলি সমাধান করার জন্য ব্যবহার করা যেতে …
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.