পরিসংখ্যান এবং বড় তথ্য temporal-difference

অস্থায়ী পার্থক্যের চেয়ে মন্টি কার্লো পদ্ধতিগুলি কখন পছন্দ করা হয়?

আমি ইদানীং রিইনফোর্সমেন্ট লার্নিং সম্পর্কে প্রচুর গবেষণা করে চলেছি। আমি সটন এবং বার্তোর পুনর্বহালকরণ শিক্ষণ অনুসরণ করেছি : এর বেশিরভাগের জন্য একটি ভূমিকা । আমি জানি যে মার্কোভ সিদ্ধান্ত প্রক্রিয়াগুলি কী এবং কীভাবে ডায়নামিক প্রোগ্রামিং (ডিপি), মন্টি কার্লো এবং টেম্পোরাল ডিফারেন্স (ডিপি) লার্নিংগুলি সেগুলি সমাধান করার জন্য ব্যবহার করা যেতে …

12 monte-carlo reinforcement-learning temporal-difference

প্রশ্ন ট্যাগ «temporal-difference»