সরসা এবং কিউ লার্নিং উভয়ই রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম যা একইভাবে কাজ করে। সর্বাধিক আকর্ষণীয় পার্থক্য হ'ল কিউ লার্নিং অফ পলিসি বন্ধ থাকাকালীন সরসা নীতিতে রয়েছে। আপডেটের নিয়মগুলি নিম্নরূপ:
প্রশ্ন লার্নিং:
SARSA:
যেখানে এবং সময় পদে পদে রাষ্ট্র, কর্ম ও পুরস্কার হয় এবং একটি ডিসকাউন্ট ফ্যাক্টর।
তারা বেশিরভাগই একই দেখায় যে ব্যতীত সারসায় আমরা প্রকৃত পদক্ষেপ নিই এবং কিউ লার্নিংয়ে আমরা সর্বাধিক পুরষ্কার সহকারে ব্যবস্থা গ্রহণ করি।
এমন কোন তাত্ত্বিক বা ব্যবহারিক সেটিংস রয়েছে যেখানে একে অপরকে পছন্দ করা উচিত? আমি দেখতে পাচ্ছি যে কিউ লার্নিংয়ে সর্বাধিক নেওয়া ব্যয়বহুল এবং আরও অনেক বেশি ক্রমাগত অ্যাকশন স্পেসে। তবে কি আর কিছু আছে?