এখানে একটি ভাল জরিপ কাগজ আছে ।
দ্রুত সংক্ষিপ্তসার হিসাবে, কিউ-শিখার পদ্ধতিগুলির অতিরিক্ত, নীতি-ভিত্তিক পদ্ধতিগুলির একটি শ্রেণি রয়েছে, যেখানে Q ফাংশনটি শিখার পরিবর্তে, আপনি সরাসরি সেরা নীতি শিখতে পারেন।π
এই পদ্ধতিগুলির মধ্যে জনপ্রিয় পুনরায় সংযুক্ত অ্যালগরিদম অন্তর্ভুক্ত রয়েছে, যা নীতি গ্রেডিয়েন্টস অ্যালগরিদম is টিআরপিও এবং জিএই অনুরূপ নীতি গ্রেডিয়েন্টস অ্যালগরিদম ms
পলিসি গ্রেডিয়েন্টগুলিতে অনেকগুলি অন্যান্য রূপ রয়েছে এবং এটি অভিনেতা-সমালোচক কাঠামোর মধ্যে কিউ-লার্নিংয়ের সাথে একত্রিত হতে পারে। A3C অ্যালগরিদম - অ্যাসিনক্রোনাস সুবিধে অভিনেতা-সমালোচক - হলেন এমনই একজন অভিনেতা-সমালোচক অ্যালগরিদম, এবং শক্তিবৃদ্ধি শেখার একটি খুব শক্তিশালী বেসলাইন।
আপনি সর্বোত্তম নীতি অ্যালগরিদম থেকে আউটপুটগুলি নকল করে সেরা নীতি- অনুসন্ধান করতে পারেন এবং এটাকে গাইডেড নীতি অনুসন্ধান বলে।π
কিউ-লার্নিং এবং নীতি গ্রেডিয়েন্টগুলি ছাড়াও, যা উভয়ই মডেল ফ্রি সেটিংসে প্রয়োগ করা হয় (উভয়ই অ্যালগোরিদম বিশ্বের একটি মডেল বজায় রাখে না), এমন একটি মডেল ভিত্তিক পদ্ধতিও রয়েছে যা বিশ্বের অবস্থা অনুমান করে। এই মডেলগুলি মূল্যবান কারণ এগুলি আরও বেশি নমুনা দক্ষ হতে পারে।
মডেল ভিত্তিক অ্যালগরিদমগুলি নীতি গ্রেডিয়েন্ট বা কি-লার্নিংয়ের সাথে একচেটিয়া নয়। একটি সাধারণ পদ্ধতি হ'ল রাষ্ট্রের অনুমান করা / ডায়নামিক্স মডেল শিখতে এবং তারপরে অনুমানের রাজ্যের শীর্ষে একটি নীতি প্রশিক্ষণ।
শ্রেণিবিন্যাস হিসাবে, একটি ভাঙ্গন হবে
- প্রশ্ন বা ভি ফাংশন শেখা
- নীতি ভিত্তিক পদ্ধতি
- মডেল ভিত্তিক
নীতি ভিত্তিক পদ্ধতিগুলিতে আরও বিভক্ত করা যেতে পারে
- নীতি গ্রেডিয়েন্টস
- অভিনেতা সমালোচক
- নীতি অনুসন্ধান