পুরষ্কারের ক্রিয়াগুলি এজেন্টকে "কীভাবে" আচরণ করা উচিত তা বর্ণনা করে। অন্য কথায়, তাদের কাছে "আদর্শিক" বিষয়বস্তু রয়েছে, আপনি এজেন্টটি কী অর্জন করতে চান তা নির্ধারণ করে । উদাহরণস্বরূপ, কিছু ফলপ্রসূ রাষ্ট্র s খাদ্য স্বাদ উপস্থাপন করা হতে পারে। অথবা সম্ভবত, (s,a) খাবারটি স্বাদগ্রহণের প্রতিনিধিত্ব করতে পারে। সুতরাং, এজেন্টের প্রেরণাগুলি কী তা পুরষ্কার কার্যটি নির্ধারণ করে, হ্যাঁ, আপনাকে এটি তৈরি করতে হবে!
কোনও নিরঙ্কুশ বাধা নেই, তবে যদি আপনার পুরষ্কারের কাজটি "আরও ভাল আচরণ করা হয়" তবে এজেন্ট আরও ভাল শিখতে পারে। ব্যবহারিকভাবে, এর অর্থ কনভার্সনের গতি, এবং স্থানীয় মিনিমে আটকে না যাওয়া। তবে আরও বিশদ বিবরণগুলি আপনি যে প্রজাতির প্রয়োগ করছেন তা জোর দিয়ে নির্ভর করবে learning উদাহরণস্বরূপ, রাজ্য / ক্রিয়া স্থান কি অবিচ্ছিন্ন বা বিযুক্ত? বিশ্ব বা অ্যাকশন নির্বাচন স্টোকাস্টিক? পুরষ্কার অবিরত কাটা হয়, বা শুধুমাত্র শেষে?
সমস্যাটি দেখার একটি উপায় হ'ল পুরষ্কারের ক্রিয়াটি সমস্যার কঠোরতা নির্ধারণ করে। উদাহরণস্বরূপ, traditionতিহ্যগতভাবে, আমরা পুরষ্কারের জন্য একটি একক রাষ্ট্রের উল্লেখ করতে পারি:
R(s1)=1
R(s2..n)=0
এই ক্ষেত্রে, সমস্যার সমাধান করা বেশ শক্ত একটি, তুলনায়, বলুন, R(si)=1/i2 , যেখানে রাজ্যের চেয়ে পুরষ্কারের গ্রেডিয়েন্ট রয়েছে। শক্ত সমস্যার জন্য, আরও বিশদ নির্দিষ্ট করে যেমন, R(s,a) বা R(s,a,s′) অতিরিক্ত সংকেত সরবরাহ করে কিছু অ্যালগরিদমকে সহায়তা করতে পারে তবে সম্ভাব্যত আরও অনুসন্ধানের প্রয়োজনে ব্যয় করে। সমস্যাটিকে সুনির্দিষ্ট করে তুলতে আপনারব্যয়গুলিR নেতিবাচক পদ হিসাবে অন্তর্ভুক্ত করতে হবে(উদাত্তশক্তিযুক্ত ব্যয়)।
অবিচ্ছিন্ন রাষ্ট্রীয় স্থানের ক্ষেত্রে, আপনি যদি কোনও এজেন্ট সহজেই শিখতে চান তবে পুরষ্কারের কাজটি অবিচ্ছিন্ন এবং পৃথক হতে হবে । সুতরাং বহুভুজ অনেক অ্যালগরিদমের জন্য ভাল কাজ করতে পারে। আরও পরে, স্থানীয় মিনিমা অপসারণ করার চেষ্টা করুন। পুরস্কার ফাংশনটি কীভাবে না করা যায় তার কয়েকটি উদাহরণ রয়েছে - রাস্ট্রগ্রিন ফাংশনের মতো । এটি বলার পরে বেশ কয়েকটি আরএল অ্যালগরিদম (যেমন বোল্টজম্যান মেশিন ) এগুলির জন্য কিছুটা শক্তিশালী ust
আপনি যদি সত্যিকারের বিশ্বের সমস্যা সমাধানের জন্য আরএল ব্যবহার করছেন তবে আপনি সম্ভবত দেখতে পাবেন যে পুরষ্কারটি খুঁজে পাওয়া সমস্যাটির সবচেয়ে শক্ত অংশ, আপনি কীভাবে রাষ্ট্রের স্থানটি নির্দিষ্ট করেন তার সাথে এটি অন্তরঙ্গভাবে আবদ্ধ । উদাহরণস্বরূপ, একটি সময়-নির্ভর সমস্যার ক্ষেত্রে, লক্ষ্যটির দূরত্ব প্রায়শই একটি দুর্বল পুরষ্কার কার্য সম্পাদন করে (যেমন পর্বত গাড়ির সমস্যার ক্ষেত্রে ) problem এই জাতীয় পরিস্থিতিগুলি উচ্চ মাত্রিক রাষ্ট্রীয় স্পেস (লুকানো রাজ্যগুলি বা মেমরির চিহ্নগুলি) ব্যবহার করে বা শ্রেণিবিন্যাসিক আরএল দ্বারা সমাধান করা যেতে পারে।
একটি বিমূর্ত স্তরে, নিরীক্ষণযোগ্য শেখার জন্য "সঠিক এবং ভুল" কার্যকারিতা স্থির করার কথা ছিল। তবে আমরা এখন দেখতে পাচ্ছি যে আরএল কেবল শিক্ষক / সমালোচকের কাছ থেকে দায়িত্ব পুরষ্কারের ফাংশনে স্থানান্তর করে। সমস্যাটি সমাধান করার জন্য একটি কম বিজ্ঞপ্তির উপায় রয়েছে: এটি সর্বোত্তম পুরষ্কার কার্যটি অনুমান করা । একটি পদ্ধতিকে ইনভার্স আরএল বা "শিক্ষানবিশ শিখন" বলা হয় , যা একটি পুরষ্কার ফাংশন উত্পন্ন করে যা পর্যবেক্ষিত আচরণগুলি পুনরুত্পাদন করে। পর্যবেক্ষণের একটি সেট পুনরুত্পাদন করার জন্য সেরা পুরষ্কার ফাংশন সন্ধান করা এমএলই, বেয়েসিয়ান বা তথ্য তাত্ত্বিক পদ্ধতিগুলি দ্বারা প্রয়োগ করা যেতে পারে - যদি আপনি "বিপরীত শক্তিবৃদ্ধি শেখার" জন্য গুগল করেন।