তবে উভয় পন্থা আমার কাছে অভিন্ন বলে মনে হয় অর্থাৎ কোনও ক্রিয়াকলাপের সর্বাধিক পুরষ্কার (কিউ-লার্নিং) ভবিষ্যদ্বাণী করা সরাসরি পদক্ষেপ গ্রহণের সম্ভাবনা (পিজি) পূর্বাভাসের সমতুল্য।
উভয় পদ্ধতি তাত্ত্বিকভাবে মার্কভ সিদ্ধান্ত প্রক্রিয়া নির্মাণ দ্বারা চালিত হয় এবং ফলস্বরূপ অনুরূপ স্বরলিপি এবং ধারণা ব্যবহার করে। তদুপরি, সাধারণ দ্রবণীয় পরিবেশে আপনার উভয় পদ্ধতিই একই - বা কমপক্ষে সমতুল্য - অনুকূল নীতিগুলির ফলস্বরূপ আশা করা উচিত।
তবে এগুলি অভ্যন্তরীণভাবে আসলে আলাদা different পদ্ধতির মধ্যে সর্বাধিক মৌলিক পার্থক্য হ'ল তারা কীভাবে কর্ম নির্বাচনের নিকটবর্তী হয়, শেখা উভয়ই এবং আউটপুট হিসাবে (শিখেছি নীতি)। কিউ-লার্নিংয়ের ক্ষেত্রে লক্ষ্যটি সর্বাধিক মান সন্ধানের মাধ্যমে একটি পৃথক ক্রিয়াকলাপ থেকে একক প্রতিরোধমূলক পদক্ষেপ গ্রহণ করা। নীতি গ্রেডিয়েন্টস এবং অন্যান্য প্রত্যক্ষ নীতি অনুসন্ধানের সাহায্যে লক্ষ্যটি হ'ল রাজ্য থেকে ক্রিয়াকলাপের মানচিত্র শিখতে হবে, যা স্টোকাস্টিক হতে পারে এবং ক্রমাগত ক্রিয়া স্থানে কাজ করে।
ফলস্বরূপ, নীতি গ্রেডিয়েন্ট পদ্ধতিগুলি এমন সমস্যাগুলি সমাধান করতে পারে যা মান-ভিত্তিক পদ্ধতিগুলি:
বৃহত এবং ক্রমাগত ক্রিয়া স্থান। যাইহোক, মান-ভিত্তিক পদ্ধতিগুলির সাথে, এটি এখনও বিচক্ষণতার সাথে প্রায় অনুমান করা যায় - এবং এটি কোনও খারাপ পছন্দ নয়, যেহেতু নীতি গ্রেডিয়েন্টে ম্যাপিং ফাংশনটি অনুশীলনে এক ধরণের আনুমানিক হতে হবে।
স্টোকাস্টিক নীতি। একটি মান-ভিত্তিক পদ্ধতি এমন পরিবেশের সমাধান করতে পারে না যেখানে অনুকূল নীতিটি স্টোচাস্টিকের নির্দিষ্ট সম্ভাবনার প্রয়োজন হয় যেমন স্কিসার / পেপার / স্টোন। এটি কারণ যে কিউ-লার্নিংয়ের কোনও প্রশিক্ষণযোগ্য প্যারামিটার নেই যা ক্রিয়াকলাপের সম্ভাবনাগুলি নিয়ন্ত্রণ করে, টিডি শেখার ক্ষেত্রে সমস্যা গঠনের বিষয়টি ধরে নিয়েছে যে কোনও ডিস্ট্রিমেন্টিক এজেন্ট অনুকূল হতে পারে।
তবে, কিউ-লার্নিংয়ের মতো মান-ভিত্তিক পদ্ধতির কিছু সুবিধাও রয়েছে:
p ( a ∣ s , θ )θ
গতি. টিডি শেখার পদ্ধতিগুলি যে বুটস্ট্র্যাপগুলি প্রায়শই পদ্ধতির তুলনায় নীতি শিখতে অনেক দ্রুত হয় যা প্রগতি মূল্যায়নের জন্য পরিবেশ থেকে বিশুদ্ধভাবে নমুনা করা উচিত।
আপনি এক বা অন্য পদ্ধতির ব্যবহারে যত্ন নিতে পারেন এমন অন্যান্য কারণও রয়েছে:
এজেন্টের সাথে সম্পর্কিত অন্যান্য পরিকল্পনা প্রক্রিয়াগুলিতে সহায়তা করার জন্য প্রক্রিয়াটি চলমান অবস্থায় আপনি পূর্বাভাসিত রিটার্ন জানতে চাইতে পারেন।
সমস্যার রাষ্ট্রীয় উপস্থাপনা নিজেকে কোনও মান ফাংশন বা নীতি ফাংশনকে আরও সহজে leণ দেয়। একটি মান ফাংশন রাষ্ট্রের সাথে খুব সাধারণ সম্পর্ক এবং নীতি ফাংশনটি খুব জটিল এবং শেখার পক্ষে কঠিন বা তদ্বিপরীত হতে পারে ।
কিছু অত্যাধুনিক আরএল সল্ভার প্রকৃতপক্ষে অভিনেতা-সমালোচক হিসাবে উভয় পন্থা একসাথে ব্যবহার করে। এটি মান এবং নীতি গ্রেডিয়েন্ট পদ্ধতির শক্তি সংযুক্ত করে।