কি-লার্নিং এবং নীতি গ্রেডিয়েন্ট পদ্ধতির মধ্যে কী সম্পর্ক?


21

যতদূর আমি বুঝতে পেরেছি, কি-লার্নিং এবং পলিসি গ্রেডিয়েন্টস (পিজি) হ'ল দুটি প্রধান পন্থা যা আরএল সমস্যাগুলি সমাধান করার জন্য ব্যবহৃত হয়। যদিও কি-লার্নিংয়ের উদ্দেশ্য একটি নির্দিষ্ট রাজ্যে গৃহীত কোনও নির্দিষ্ট পদক্ষেপের পুরষ্কারের পূর্বাভাস দেওয়া হয়, নীতি গ্রেডিয়েন্টগুলি সরাসরি ক্রিয়াটি নিজেই পূর্বাভাস দেয়।

যাইহোক, উভয় পদ্ধতিই আমার কাছে অভিন্ন বলে মনে হয়, অর্থাত্ কোনও ক্রিয়াকলাপের সর্বাধিক পুরষ্কারের (কিউ-লার্নিং) ভবিষ্যদ্বাণী করা সরাসরি পদক্ষেপ গ্রহণের সম্ভাবনা (পিজি) ভবিষ্যদ্বাণী করার সমতুল্য। ক্ষয়টি যেভাবে আবার প্রচারিত হয় তার মধ্যে পার্থক্য কি?

উত্তর:


20

তবে উভয় পন্থা আমার কাছে অভিন্ন বলে মনে হয় অর্থাৎ কোনও ক্রিয়াকলাপের সর্বাধিক পুরষ্কার (কিউ-লার্নিং) ভবিষ্যদ্বাণী করা সরাসরি পদক্ষেপ গ্রহণের সম্ভাবনা (পিজি) পূর্বাভাসের সমতুল্য।

উভয় পদ্ধতি তাত্ত্বিকভাবে মার্কভ সিদ্ধান্ত প্রক্রিয়া নির্মাণ দ্বারা চালিত হয় এবং ফলস্বরূপ অনুরূপ স্বরলিপি এবং ধারণা ব্যবহার করে। তদুপরি, সাধারণ দ্রবণীয় পরিবেশে আপনার উভয় পদ্ধতিই একই - বা কমপক্ষে সমতুল্য - অনুকূল নীতিগুলির ফলস্বরূপ আশা করা উচিত।

তবে এগুলি অভ্যন্তরীণভাবে আসলে আলাদা different পদ্ধতির মধ্যে সর্বাধিক মৌলিক পার্থক্য হ'ল তারা কীভাবে কর্ম নির্বাচনের নিকটবর্তী হয়, শেখা উভয়ই এবং আউটপুট হিসাবে (শিখেছি নীতি)। কিউ-লার্নিংয়ের ক্ষেত্রে লক্ষ্যটি সর্বাধিক মান সন্ধানের মাধ্যমে একটি পৃথক ক্রিয়াকলাপ থেকে একক প্রতিরোধমূলক পদক্ষেপ গ্রহণ করা। নীতি গ্রেডিয়েন্টস এবং অন্যান্য প্রত্যক্ষ নীতি অনুসন্ধানের সাহায্যে লক্ষ্যটি হ'ল রাজ্য থেকে ক্রিয়াকলাপের মানচিত্র শিখতে হবে, যা স্টোকাস্টিক হতে পারে এবং ক্রমাগত ক্রিয়া স্থানে কাজ করে।

ফলস্বরূপ, নীতি গ্রেডিয়েন্ট পদ্ধতিগুলি এমন সমস্যাগুলি সমাধান করতে পারে যা মান-ভিত্তিক পদ্ধতিগুলি:

  • বৃহত এবং ক্রমাগত ক্রিয়া স্থান। যাইহোক, মান-ভিত্তিক পদ্ধতিগুলির সাথে, এটি এখনও বিচক্ষণতার সাথে প্রায় অনুমান করা যায় - এবং এটি কোনও খারাপ পছন্দ নয়, যেহেতু নীতি গ্রেডিয়েন্টে ম্যাপিং ফাংশনটি অনুশীলনে এক ধরণের আনুমানিক হতে হবে।

  • স্টোকাস্টিক নীতি। একটি মান-ভিত্তিক পদ্ধতি এমন পরিবেশের সমাধান করতে পারে না যেখানে অনুকূল নীতিটি স্টোচাস্টিকের নির্দিষ্ট সম্ভাবনার প্রয়োজন হয় যেমন স্কিসার / পেপার / স্টোন। এটি কারণ যে কিউ-লার্নিংয়ের কোনও প্রশিক্ষণযোগ্য প্যারামিটার নেই যা ক্রিয়াকলাপের সম্ভাবনাগুলি নিয়ন্ত্রণ করে, টিডি শেখার ক্ষেত্রে সমস্যা গঠনের বিষয়টি ধরে নিয়েছে যে কোনও ডিস্ট্রিমেন্টিক এজেন্ট অনুকূল হতে পারে।

তবে, কিউ-লার্নিংয়ের মতো মান-ভিত্তিক পদ্ধতির কিছু সুবিধাও রয়েছে:

  • পি(একটি|গুলি,θ)θ

  • গতি. টিডি শেখার পদ্ধতিগুলি যে বুটস্ট্র্যাপগুলি প্রায়শই পদ্ধতির তুলনায় নীতি শিখতে অনেক দ্রুত হয় যা প্রগতি মূল্যায়নের জন্য পরিবেশ থেকে বিশুদ্ধভাবে নমুনা করা উচিত।

আপনি এক বা অন্য পদ্ধতির ব্যবহারে যত্ন নিতে পারেন এমন অন্যান্য কারণও রয়েছে:

  • এজেন্টের সাথে সম্পর্কিত অন্যান্য পরিকল্পনা প্রক্রিয়াগুলিতে সহায়তা করার জন্য প্রক্রিয়াটি চলমান অবস্থায় আপনি পূর্বাভাসিত রিটার্ন জানতে চাইতে পারেন।

  • সমস্যার রাষ্ট্রীয় উপস্থাপনা নিজেকে কোনও মান ফাংশন বা নীতি ফাংশনকে আরও সহজে leণ দেয়। একটি মান ফাংশন রাষ্ট্রের সাথে খুব সাধারণ সম্পর্ক এবং নীতি ফাংশনটি খুব জটিল এবং শেখার পক্ষে কঠিন বা তদ্বিপরীত হতে পারে

কিছু অত্যাধুনিক আরএল সল্ভার প্রকৃতপক্ষে অভিনেতা-সমালোচক হিসাবে উভয় পন্থা একসাথে ব্যবহার করে। এটি মান এবং নীতি গ্রেডিয়েন্ট পদ্ধতির শক্তি সংযুক্ত করে।


যখন আপনি বলছেন যে অভিনেতা-সমালোচক উভয় পদ্ধতির শক্তি সংযুক্ত করে? আমার উপলব্ধি অনুসারে, অভিনেতা রাষ্ট্রের ভিত্তিতে নেওয়া সেরা কর্মের মূল্যায়ন করে এবং সমালোচক সেই রাষ্ট্রের মূল্য নির্ধারণ করে, তারপরে অভিনেতাকে পুরষ্কার দেয় fe তাদের একটি একক "নীতি" ইউনিট হিসাবে আচরণ করা এখনও আমার কাছে নীতি গ্রেডিয়েন্টের মতো দেখাচ্ছে। এটি আসলে কি-লার্নিংয়ের মতো?
গুলজার

1
@ গুয়েজার: সমালোচক একটি মান-ভিত্তিক পদ্ধতি (উদাহরণস্বরূপ কি-লার্নিং) ব্যবহার করে শিখেন। সুতরাং, সামগ্রিকভাবে, অভিনেতা-সমালোচক একটি মান পদ্ধতি এবং একটি নীতি গ্রেডিয়েন্ট পদ্ধতির সংমিশ্রণ এবং এটি সংমিশ্রণ থেকে উপকৃত হয়। "ভ্যানিলা" পিজির তুলনায় একটি উল্লেখযোগ্য উন্নতি হ'ল প্রতিটি পর্বের পরিবর্তে প্রতিটি ধাপে গ্রেডিয়েন্টগুলি মূল্যায়ন করা যেতে পারে। আপনি যদি এই বিষয়ে আরও বিস্তারিত উত্তর খুঁজছেন তবে আপনার সাইটে কোনও প্রশ্ন জিজ্ঞাসা করা উচিত।
নীল স্লেটার

@ গুয়েজার: আসলে সুবিধাগুলি অভিনেতা-সমালোচক (যা কার্য-মূল্যগুলির উপর ভিত্তি করে বেসলাইনটি সামঞ্জস্য করে) এবং সমালোচক, যা সাধারণত সরল রাষ্ট্রীয় মূল্যবোধের মধ্যে বিভ্রান্ত হয়ে পড়ার সাথে সাথে প্রকৃতপক্ষে স্ক্র্যাচ করুন। যাইহোক, বাকি আমার বিবরণ এখনও একই, সমালোচক সাধারণত মান-ভিত্তিক টিডি পদ্ধতি ব্যবহার করে আপডেট করা হয়, যার মধ্যে Q লার্নিংয়েরও একটি উদাহরণ।
নীল স্লেটার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.