প্রশ্ন ট্যাগ «q-learning»

1
কি-লার্নিং এবং নীতি গ্রেডিয়েন্ট পদ্ধতির মধ্যে কী সম্পর্ক?
যতদূর আমি বুঝতে পেরেছি, কি-লার্নিং এবং পলিসি গ্রেডিয়েন্টস (পিজি) হ'ল দুটি প্রধান পন্থা যা আরএল সমস্যাগুলি সমাধান করার জন্য ব্যবহৃত হয়। যদিও কি-লার্নিংয়ের উদ্দেশ্য একটি নির্দিষ্ট রাজ্যে গৃহীত কোনও নির্দিষ্ট পদক্ষেপের পুরষ্কারের পূর্বাভাস দেওয়া হয়, নীতি গ্রেডিয়েন্টগুলি সরাসরি ক্রিয়াটি নিজেই পূর্বাভাস দেয়। যাইহোক, উভয় পদ্ধতিই আমার কাছে অভিন্ন বলে মনে …

1
কেন DQN দুটি পৃথক নেটওয়ার্কের প্রয়োজন?
আমি ডিকিউএন এর এই বাস্তবায়নটি দিয়ে যাচ্ছিলাম এবং আমি দেখতে পাচ্ছি যে 124 এবং 125 লাইনে দুটি পৃথক কিউ নেটওয়ার্ক চালু করা হয়েছে। আমার বোধগম্যতা থেকে, আমি মনে করি একটি নেটওয়ার্ক উপযুক্ত ক্রিয়াটির পূর্বাভাস দেয় এবং দ্বিতীয় নেটওয়ার্কটি বেলম্যান ত্রুটি সন্ধানের জন্য লক্ষ্য Q এর মানগুলির পূর্বাভাস দেয়। কেন আমরা …

2
ফাংশন আনুমানিকতা ব্যবহার করার সময় কেন প্রশ্ন-শেখার একত্রিত হয় না?
সারণী কিউ-লার্নিং অ্যালগরিদম অনুকূল খুঁজে পাওয়ার গ্যারান্টিযুক্ত QQQ ফাংশন, Q∗Q∗Q^*, প্রদত্ত শিক্ষার হার সম্পর্কিত নিম্নলিখিত শর্তগুলি ( রব্বিনস-মনরো শর্তাবলী ) সন্তুষ্ট ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)&lt;∞∑tαt2(s,a)&lt;∞\sum_{t} \alpha_t^2(s, a) < \infty কোথায় αt(s,a)αt(s,a)\alpha_t(s, a) মানে আপডেট করার সময় ব্যবহৃত শিক্ষার হার QQQ রাষ্ট্রের সাথে সম্পর্কিত মান sss এবং কর্ম aaa …
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.