প্রশ্ন ট্যাগ «deep-rl»

4
কেন-লার্নিং পরীক্ষার সময় অ্যাপসিলন-লোভী ব্যবহার করে?
আটারি ভিডিও গেমসের জন্য ডিপ কিউ-লার্নিংয়ের ডিপমাইন্ডের গবেষণাপত্রে ( এখানে ), তারা প্রশিক্ষণের সময় অনুসন্ধানের জন্য একটি অ্যাপসিলন-লোভী পদ্ধতি ব্যবহার করে। এর অর্থ হ'ল প্রশিক্ষণে কোনও ক্রিয়া বাছাই করা হয়, এটি হয় হয় সর্বাধিক Q-মান, বা একটি এলোমেলো ক্রিয়া সহ ক্রিয়া হিসাবে বেছে নেওয়া হয়। এই দুটিয়ের মধ্যে নির্বাচন করা …
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.