2
ফাংশন আনুমানিকতা ব্যবহার করার সময় কেন প্রশ্ন-শেখার একত্রিত হয় না?
সারণী কিউ-লার্নিং অ্যালগরিদম অনুকূল খুঁজে পাওয়ার গ্যারান্টিযুক্ত QQQ ফাংশন, Q∗Q∗Q^*, প্রদত্ত শিক্ষার হার সম্পর্কিত নিম্নলিখিত শর্তগুলি ( রব্বিনস-মনরো শর্তাবলী ) সন্তুষ্ট ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)<∞∑tαt2(s,a)<∞\sum_{t} \alpha_t^2(s, a) < \infty কোথায় αt(s,a)αt(s,a)\alpha_t(s, a) মানে আপডেট করার সময় ব্যবহৃত শিক্ষার হার QQQ রাষ্ট্রের সাথে সম্পর্কিত মান sss এবং কর্ম aaa …