শক্তিবৃদ্ধি শেখার অ্যালগরিদমগুলি সম্পর্কে ওভারভিউ


9

আমি বর্তমানে রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম এবং তার মধ্যে একটি শ্রেণিবদ্ধকরণ সম্পর্কিত একটি ওভারভিউ খুঁজছি। তবে সরসা এবং কি-লার্নিং + ডিপ কিউ-লার্নিংয়ের পরে আমি সত্যিই কোনও জনপ্রিয় অ্যালগরিদম খুঁজে পাই না।

উইকিপিডিয়া আমাকে বিভিন্ন সাধারণ পুনর্বহালকরণ শেখার পদ্ধতিগুলির উপর একটি ওভারভিউ দেয় তবে এই পদ্ধতিগুলি প্রয়োগ করে বিভিন্ন অ্যালগরিদমের কোনও রেফারেন্স নেই।

তবে সম্ভবত আমি সাধারণ পদ্ধতির এবং অ্যালগরিদমগুলিকে বিভ্রান্ত করছি এবং মেশিন লার্নিংয়ের অন্যান্য ক্ষেত্রগুলির মতো এই ক্ষেত্রে কোনও বাস্তব শ্রেণিবিন্যাস নেই। কেউ হয়ত আমাকে একটি সংক্ষিপ্ত পরিচিতি বা কেবল একটি রেফারেন্স দিতে পারেন যেখানে আমি বিভিন্ন পদ্ধতির মধ্যে পড়া শুরু করতে পারি, তাদের মধ্যে পার্থক্য এবং উদাহরণ অ্যালগরিদম যা এই পদ্ধতির প্রয়োগ করে?


উত্তর:


14

এখানে একটি ভাল জরিপ কাগজ আছে

দ্রুত সংক্ষিপ্তসার হিসাবে, কিউ-শিখার পদ্ধতিগুলির অতিরিক্ত, নীতি-ভিত্তিক পদ্ধতিগুলির একটি শ্রেণি রয়েছে, যেখানে Q ফাংশনটি শিখার পরিবর্তে, আপনি সরাসরি সেরা নীতি শিখতে পারেন।π

এই পদ্ধতিগুলির মধ্যে জনপ্রিয় পুনরায় সংযুক্ত অ্যালগরিদম অন্তর্ভুক্ত রয়েছে, যা নীতি গ্রেডিয়েন্টস অ্যালগরিদম is টিআরপিও এবং জিএই অনুরূপ নীতি গ্রেডিয়েন্টস অ্যালগরিদম ms

পলিসি গ্রেডিয়েন্টগুলিতে অনেকগুলি অন্যান্য রূপ রয়েছে এবং এটি অভিনেতা-সমালোচক কাঠামোর মধ্যে কিউ-লার্নিংয়ের সাথে একত্রিত হতে পারে। A3C অ্যালগরিদম - অ্যাসিনক্রোনাস সুবিধে অভিনেতা-সমালোচক - হলেন এমনই একজন অভিনেতা-সমালোচক অ্যালগরিদম, এবং শক্তিবৃদ্ধি শেখার একটি খুব শক্তিশালী বেসলাইন।

আপনি সর্বোত্তম নীতি অ্যালগরিদম থেকে আউটপুটগুলি নকল করে সেরা নীতি- অনুসন্ধান করতে পারেন এবং এটাকে গাইডেড নীতি অনুসন্ধান বলে।π

কিউ-লার্নিং এবং নীতি গ্রেডিয়েন্টগুলি ছাড়াও, যা উভয়ই মডেল ফ্রি সেটিংসে প্রয়োগ করা হয় (উভয়ই অ্যালগোরিদম বিশ্বের একটি মডেল বজায় রাখে না), এমন একটি মডেল ভিত্তিক পদ্ধতিও রয়েছে যা বিশ্বের অবস্থা অনুমান করে। এই মডেলগুলি মূল্যবান কারণ এগুলি আরও বেশি নমুনা দক্ষ হতে পারে।

মডেল ভিত্তিক অ্যালগরিদমগুলি নীতি গ্রেডিয়েন্ট বা কি-লার্নিংয়ের সাথে একচেটিয়া নয়। একটি সাধারণ পদ্ধতি হ'ল রাষ্ট্রের অনুমান করা / ডায়নামিক্স মডেল শিখতে এবং তারপরে অনুমানের রাজ্যের শীর্ষে একটি নীতি প্রশিক্ষণ।

শ্রেণিবিন্যাস হিসাবে, একটি ভাঙ্গন হবে

  • প্রশ্ন বা ভি ফাংশন শেখা
  • নীতি ভিত্তিক পদ্ধতি
  • মডেল ভিত্তিক

নীতি ভিত্তিক পদ্ধতিগুলিতে আরও বিভক্ত করা যেতে পারে

  • নীতি গ্রেডিয়েন্টস
  • অভিনেতা সমালোচক
  • নীতি অনুসন্ধান
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.