উত্তর:
আরএল-এ বুটস্ট্র্যাপিং " একই ধরণের আনুমানিক মানের জন্য আপডেট ধাপে এক বা একাধিক অনুমান মান ব্যবহার করা" হিসাবে পড়া যায় ।
বেশিরভাগ টিডি আপডেট বিধিগুলিতে আপনি এই সারস (0) আপডেটের মতো কিছু দেখতে পাবেন:
মান সত্য মান একটি অনুমান , এবং এছাড়াও: TD লক্ষ্য বলা হয়। এটি একটি বুটস্ট্র্যাপ পদ্ধতি কারণ আমরা অন্য একটি Q মান আপডেট করার জন্য Q মানটি ব্যবহার করে চলেছি। সেখানে আকারে বাস্তব পর্যবেক্ষিত তথ্য একটি ছোট পরিমাণ , ধাপ জন্য তাৎক্ষণিক পুরস্কার, এবং এছাড়াও রাষ্ট্র রূপান্তর মধ্যে ।
সমতুল্য আপডেটের নিয়ম হতে পারে যেখানে মন্টি কার্লোর সাথে বিপরীতে:
কোথায় এ মোট ছাড় পুরস্কার ছিল , এই আপডেটে অভিমানী, যে এটি রাজ্যের শুরু , ব্যবস্থা গ্রহণের , তারপর পর্বের শেষ না হওয়া পর্যন্ত বর্তমান নীতি অনুসরণ করে। প্রযুক্তিগতভাবে, যেখানে টার্মিনাল পুরষ্কার এবং রাষ্ট্রের জন্য সময় পদক্ষেপ। উল্লেখযোগ্যভাবে, এই লক্ষ্য মানটি কোনও বিদ্যমান অনুমান (অন্য কিউ মানগুলি থেকে) মোটেই ব্যবহার করে না, এটি কেবল পরিবেশ থেকে পর্যবেক্ষণের একটি সেট (অর্থাত্ পুরষ্কার) ব্যবহার করে। যেমন, এটা হতে নিশ্চিত করা হয় পক্ষপাতিত্বহীন প্রকৃত মূল্যের হিসাব , যেমন টেকনিক্যালি একটি হল নমুনা এর ।
বুটস্ট্র্যাপিংয়ের প্রধান অসুবিধা হ'ল এটি আপনার (বা ) এর শুরু মানগুলি যাই হোক না কেন তার প্রতি পক্ষপাতদুষ্ট । এগুলি সম্ভবত ভুল, এবং অত্যধিক স্ব-রেফারেন্স এবং পর্যাপ্ত সত্যিকারের ডেটা না থাকার কারণে আপডেট সিস্টেম সামগ্রিকভাবে অস্থির হতে পারে - নিউরাল নেটওয়ার্কগুলি ব্যবহার করে অফ-পলিসি লার্নিংয়ের (যেমন কিউ-লার্নিং) সমস্যা এটি।
বুটস্ট্র্যাপিং ছাড়াই, দীর্ঘতর ট্র্যাজেক্টরিগুলি ব্যবহার না করে, পরিবর্তে প্রায়শই উচ্চতর বৈকল্পিকতা দেখা যায় , যা অনুশীলন হিসাবে বোঝায় যে অনুমানগুলি রূপান্তরিত হওয়ার আগে আপনার আরও নমুনার প্রয়োজন। সুতরাং, বুটস্ট্র্যাপিংয়ের সমস্যা থাকা সত্ত্বেও, যদি এটি কাজ করা যায় তবে এটি উল্লেখযোগ্যভাবে দ্রুত শিখতে পারে এবং মন্টি কার্লো পদ্ধতির চেয়ে প্রায়শই পছন্দ করা হয়।
আপনি মন্টি কার্লো নমুনা ভিত্তিক পদ্ধতি এবং একক-পদক্ষেপের টিডি পদ্ধতির মধ্যে আপস করতে পারেন যা বিভিন্ন দৈর্ঘ্যের ট্র্যাজেক্টরি থেকে ফলাফলের মিশ্রণ ব্যবহার করে বুটস্ট্র্যাপ করে। এটাকে বলা হয় : TD ( ) লার্নিং এবং এই ধরনের SARSA (যেমন নির্দিষ্ট বিভিন্ন পদ্ধতি আছে ) অথবা প্রশ্নঃ ( )।