টিডি শেখার এবং ডিপির প্রধান সমস্যাটি হ'ল তাদের ধাপের আপডেটগুলি শেখার পরামিতিগুলির প্রাথমিক অবস্থার উপর পক্ষপাতদুষ্ট । বুটস্ট্র্যাপিং প্রক্রিয়া সাধারণত পরবর্তী অনুমানগুলি যাই হোক না কেন ব্যবহার করে একটি উত্তরসূরি মান Q (s ', a') এর উপর একটি ক্রিয়াকলাপ বা অনুসন্ধান Q (গুলি, ক) আপডেট করে। স্পষ্টতই এই অনুমানগুলি শেখার একেবারে শুরুতে কোনও বাস্তব পুরষ্কার বা রাষ্ট্রীয় রূপান্তর থেকে কোনও তথ্য থাকে না।
যদি শেখা উদ্দেশ্য অনুযায়ী কাজ করে, তবে পক্ষপাতটি একাধিক পুনরাবৃত্তির তুলনায় তাত্পর্যপূর্ণভাবে হ্রাস পাবে। তবে, পক্ষপাতটি গুরুত্বপূর্ণ সমস্যাগুলি সৃষ্টি করতে পারে, বিশেষত অফ-পলিসি পদ্ধতিগুলির জন্য (যেমন কিউ লার্নিং) এবং ফাংশন আনুমানিক ব্যবহারের সময়। যে সমন্বয় মিলিত করতে ব্যর্থ যে এটা বলা হয়, যাতে সম্ভাবনা রয়েছে মারাত্মক ত্রয়ী মধ্যে সাটন & Barto ।
মন্টে কার্লো নিয়ন্ত্রণের পদ্ধতিগুলি এই পক্ষপাতদুষ্টতায় ভোগে না, কারণ প্রতিটি আপডেট কিউ (গুলি, ক) হওয়া উচিত তার সত্যিকারের নমুনা ব্যবহার করে তৈরি করা হয়। যাইহোক, মন্টি কার্লো পদ্ধতিগুলি উচ্চ বৈকল্পিকতায় ভুগতে পারে, যার অর্থ টিডির তুলনায় একই ডিগ্রি শেখার জন্য আরও বেশি নমুনার প্রয়োজন।
অনুশীলনে, টিডি লার্নিং আরও কার্যকরভাবে শিখতে পারে যদি মারাত্মক ট্রায়াডের সমস্যাগুলি কাটিয়ে উঠতে পারে। এক্সপ্লোরার রিপ্লে এবং মঞ্চস্থ "হিমশীতল" অনুলিপি ব্যবহার করে সাম্প্রতিক ফলাফলগুলি সমস্যাগুলি সমাধান করে এমন কাজের আশপাশ সরবরাহ করে - উদাহরণস্বরূপ, আতারি গেমসের জন্য কীভাবে ডিকিউএন লার্নার তৈরি করা হয়েছিল।
টিডি এবং মন্টি কার্লোর মধ্যে একটি মাঝারি স্থলও রয়েছে। একক-পদক্ষেপের টিডি থেকে মন্টি কার্লোতে পর্বের সম্পূর্ণ পর্বগুলি - এবং তাদের একত্রিত করে বিভিন্ন দৈর্ঘ্যের ট্র্যাজেক্টরিগুলিকে একত্রিত করে এমন একটি সাধারণ পদ্ধতি তৈরি করা সম্ভব। এই সবচেয়ে সাধারণ বৈকল্পিক: TD (হয় ) শেখার, যেখানে থেকে একটি প্যারামিটার (কার্যকরভাবে একক-ধাপ: TD লার্নিং) এর (কার্যকরভাবে মন্টে কার্লো লার্নিং, কিন্তু একটা চমৎকার বৈশিষ্ট্য সঙ্গে এটা ক্রমাগত ব্যবহার করা যেতে পারে যে সমস্যার)। সাধারণত, থেকে মধ্যে একটি মান সবচেয়ে দক্ষ লার্নিং এজেন্টকে তৈরি করে - যদিও অনেক হাইপারপ্যারামিটারের মতো, ব্যবহারের সেরা মানটি সমস্যার উপর নির্ভর করে।λλ0101
আপনি যদি মান-ভিত্তিক পদ্ধতি ব্যবহার করে থাকেন (নীতি-ভিত্তিক একের বিপরীতে), তবে সাধারণত টিডি শেখার ব্যবহার অনুশীলনে বেশি ব্যবহৃত হয়, বা একটি টিডি / এমসির সমন্বয় পদ্ধতি যেমন টিডি (combination) আরও ভাল হতে পারে।
এমসির জন্য "ব্যবহারিক সুবিধা" এর নিরিখে? মন্টে কার্লো লার্নিং ধারণাটি সহজ, দৃ rob় এবং বাস্তবায়নের পক্ষে সহজ, যদিও প্রায়শই টিডির চেয়ে ধীর হয়। আমি সাধারণত এটি একটি লার্নিং কন্ট্রোলার ইঞ্জিনের জন্য ব্যবহার করব না (যদি কোনও সাধারণ পরিবেশের জন্য কোনও বাস্তবায়নের তাড়াহুড়ো না করে) তবে উদাহরণস্বরূপ একাধিক এজেন্টের তুলনা করার জন্য নীতি মূল্যায়নের জন্য আমি গুরুত্ব সহকারে বিবেচনা করব - এটি কারণ হওয়ার কারণে নিরপেক্ষ পরিমাপ, যা পরীক্ষার জন্য গুরুত্বপূর্ণ।