শক্তিবৃদ্ধি শেখার ক্ষেত্রে কীভাবে একটি পুরষ্কার ফাংশন করা যায়


18

রিইনফোর্সমেন্ট লার্নিং অধ্যয়ন করার সময়, আমি পুরষ্কারের ফাংশনটির অনেকগুলি রূপ নিয়ে এসেছি: , আর ( গুলি , , এস ) , এমনকি এমন একটি পুরষ্কারের কাজ যা কেবলমাত্র বর্তমান অবস্থার উপর নির্ভর করে। এটি বলার পরে, আমি বুঝতে পেরেছিলাম যে একটি পুরষ্কার ফাংশন 'তৈরি' বা 'সংজ্ঞায়িত' করা খুব সহজ নয়।R(s,a)R(s,a,s)

আমার প্রশ্নগুলি এখানে:

  1. কীভাবে পুরষ্কার কার্য সম্পাদন করতে হয় তার বিধি আছে?
  2. পুরষ্কার কার্যকারিতা অন্য ফর্ম আছে? উদাহরণস্বরূপ, একটি বহুপদী রূপ যা সম্ভবত রাজ্যের উপর নির্ভর করে?

উত্তর:


25

পুরষ্কারের ক্রিয়াগুলি এজেন্টকে "কীভাবে" আচরণ করা উচিত তা বর্ণনা করে। অন্য কথায়, তাদের কাছে "আদর্শিক" বিষয়বস্তু রয়েছে, আপনি এজেন্টটি কী অর্জন করতে চান তা নির্ধারণ করে । উদাহরণস্বরূপ, কিছু ফলপ্রসূ রাষ্ট্র s খাদ্য স্বাদ উপস্থাপন করা হতে পারে। অথবা সম্ভবত, (s,a) খাবারটি স্বাদগ্রহণের প্রতিনিধিত্ব করতে পারে। সুতরাং, এজেন্টের প্রেরণাগুলি কী তা পুরষ্কার কার্যটি নির্ধারণ করে, হ্যাঁ, আপনাকে এটি তৈরি করতে হবে!

কোনও নিরঙ্কুশ বাধা নেই, তবে যদি আপনার পুরষ্কারের কাজটি "আরও ভাল আচরণ করা হয়" তবে এজেন্ট আরও ভাল শিখতে পারে। ব্যবহারিকভাবে, এর অর্থ কনভার্সনের গতি, এবং স্থানীয় মিনিমে আটকে না যাওয়া। তবে আরও বিশদ বিবরণগুলি আপনি যে প্রজাতির প্রয়োগ করছেন তা জোর দিয়ে নির্ভর করবে learning উদাহরণস্বরূপ, রাজ্য / ক্রিয়া স্থান কি অবিচ্ছিন্ন বা বিযুক্ত? বিশ্ব বা অ্যাকশন নির্বাচন স্টোকাস্টিক? পুরষ্কার অবিরত কাটা হয়, বা শুধুমাত্র শেষে?

সমস্যাটি দেখার একটি উপায় হ'ল পুরষ্কারের ক্রিয়াটি সমস্যার কঠোরতা নির্ধারণ করে। উদাহরণস্বরূপ, traditionতিহ্যগতভাবে, আমরা পুরষ্কারের জন্য একটি একক রাষ্ট্রের উল্লেখ করতে পারি:

R(s1)=1
R(s2..n)=0
এই ক্ষেত্রে, সমস্যার সমাধান করা বেশ শক্ত একটি, তুলনায়, বলুন, R(si)=1/i2 , যেখানে রাজ্যের চেয়ে পুরষ্কারের গ্রেডিয়েন্ট রয়েছে। শক্ত সমস্যার জন্য, আরও বিশদ নির্দিষ্ট করে যেমন, R(s,a) বা R(s,a,s) অতিরিক্ত সংকেত সরবরাহ করে কিছু অ্যালগরিদমকে সহায়তা করতে পারে তবে সম্ভাব্যত আরও অনুসন্ধানের প্রয়োজনে ব্যয় করে। সমস্যাটিকে সুনির্দিষ্ট করে তুলতে আপনারব্যয়গুলিR নেতিবাচক পদ হিসাবে অন্তর্ভুক্ত করতে হবে(উদাত্তশক্তিযুক্ত ব্যয়)।

অবিচ্ছিন্ন রাষ্ট্রীয় স্থানের ক্ষেত্রে, আপনি যদি কোনও এজেন্ট সহজেই শিখতে চান তবে পুরষ্কারের কাজটি অবিচ্ছিন্ন এবং পৃথক হতে হবে । সুতরাং বহুভুজ অনেক অ্যালগরিদমের জন্য ভাল কাজ করতে পারে। আরও পরে, স্থানীয় মিনিমা অপসারণ করার চেষ্টা করুন। পুরস্কার ফাংশনটি কীভাবে না করা যায় তার কয়েকটি উদাহরণ রয়েছে - রাস্ট্রগ্রিন ফাংশনের মতো । এটি বলার পরে বেশ কয়েকটি আরএল অ্যালগরিদম (যেমন বোল্টজম্যান মেশিন ) এগুলির জন্য কিছুটা শক্তিশালী ust

আপনি যদি সত্যিকারের বিশ্বের সমস্যা সমাধানের জন্য আরএল ব্যবহার করছেন তবে আপনি সম্ভবত দেখতে পাবেন যে পুরষ্কারটি খুঁজে পাওয়া সমস্যাটির সবচেয়ে শক্ত অংশ, আপনি কীভাবে রাষ্ট্রের স্থানটি নির্দিষ্ট করেন তার সাথে এটি অন্তরঙ্গভাবে আবদ্ধ । উদাহরণস্বরূপ, একটি সময়-নির্ভর সমস্যার ক্ষেত্রে, লক্ষ্যটির দূরত্ব প্রায়শই একটি দুর্বল পুরষ্কার কার্য সম্পাদন করে (যেমন পর্বত গাড়ির সমস্যার ক্ষেত্রে ) problem এই জাতীয় পরিস্থিতিগুলি উচ্চ মাত্রিক রাষ্ট্রীয় স্পেস (লুকানো রাজ্যগুলি বা মেমরির চিহ্নগুলি) ব্যবহার করে বা শ্রেণিবিন্যাসিক আরএল দ্বারা সমাধান করা যেতে পারে।

একটি বিমূর্ত স্তরে, নিরীক্ষণযোগ্য শেখার জন্য "সঠিক এবং ভুল" কার্যকারিতা স্থির করার কথা ছিল। তবে আমরা এখন দেখতে পাচ্ছি যে আরএল কেবল শিক্ষক / সমালোচকের কাছ থেকে দায়িত্ব পুরষ্কারের ফাংশনে স্থানান্তর করে। সমস্যাটি সমাধান করার জন্য একটি কম বিজ্ঞপ্তির উপায় রয়েছে: এটি সর্বোত্তম পুরষ্কার কার্যটি অনুমান করা । একটি পদ্ধতিকে ইনভার্স আরএল বা "শিক্ষানবিশ শিখন" বলা হয় , যা একটি পুরষ্কার ফাংশন উত্পন্ন করে যা পর্যবেক্ষিত আচরণগুলি পুনরুত্পাদন করে। পর্যবেক্ষণের একটি সেট পুনরুত্পাদন করার জন্য সেরা পুরষ্কার ফাংশন সন্ধান করা এমএলই, বেয়েসিয়ান বা তথ্য তাত্ত্বিক পদ্ধতিগুলি দ্বারা প্রয়োগ করা যেতে পারে - যদি আপনি "বিপরীত শক্তিবৃদ্ধি শেখার" জন্য গুগল করেন।


হাই, পাহাড়ের গাড়িটি কেন সময় নির্ভর সমস্যা?
GoingMyWay

আমি মনে করি যে পর্বত গাড়ির সমস্যাটি "সময় নির্ভর" এতে সমস্যাটির জন্য নেটওয়ার্কের কমান্ডগুলির যথাযথ ক্রম সরবরাহ করা প্রয়োজন , বা এমন নীতি যা ক্রম নির্ধারণ করে। ধারণাটি হ'ল যদি আপনি কেবল "পজিশন" কে আপনার রাষ্ট্র হিসাবে বিবেচনা করেন, তবে সমস্যাটি সমাধান করা কঠিন - আপনার গতিবেগ (বা গতিবেগ শক্তি ইত্যাদি) বিবেচনা করাও আপনার প্রয়োজন। সময় নির্ভর নির্ভর সমস্যাগুলিতে বিজ্ঞানের সাথে আপনার রাজ্য স্থানটি বেছে নেওয়ার বিষয়ে আমি বোঝাতে চেয়েছি এটিই সত্য।
সঞ্জয় মনোহর

@ সঞ্জয়মনোহর আমি মনে করি না যে পর্বত গাড়ির সমস্যাটি "সময় নির্ভর", যদি না সময় নির্ভর হয়ে আপনি একটি সীমাবদ্ধ সময় দিগন্ত প্রবর্তনের কথা বলছেন না। অবস্থান এবং বেগ যথেষ্ট।
ব্যবহারকারী 76284

আমি মনে করি এই উত্তর পুরষ্কার এবং মান ফাংশন মিশ্রিত করে। উদাহরণস্বরূপ এটি একটি পুরষ্কার ফাংশন "সন্ধান" সম্পর্কে কথা বলে, যা আপনি বিপরীতমুখী শক্তিবৃদ্ধি শেখার ক্ষেত্রে কিছু করতে পারেন তবে নিয়ন্ত্রণের জন্য ব্যবহৃত আরএল-তে না। এছাড়াও, এটি পুরষ্কারের ক্রিয়াটি অবিচ্ছিন্ন এবং পৃথক হওয়ার জন্য প্রয়োজনীয়তার বিষয়ে কথা বলে এবং এটি কেবল প্রয়োজনীয় নয়, এটি সাধারণত হয় না। সাফল্যের জন্য আপনি সাধারণ +1, বা সাহিত্যে নেওয়া প্রতি সময় ধাপে স্থির -1 খুঁজে পাওয়ার সম্ভাবনা বেশি কিছু সতর্কতার সাথে নির্ধারিত পার্থক্যমূলক heuristic খুঁজে পেতে।
নিল স্লেটার

ধন্যবাদ @ নীলস্লেটার, আপনি ঠিক বলেছেন আমার সম্ভবত একটি পুরস্কার ফাংশন সন্ধানের চেয়ে এটি "নির্মাণ" করা উচিত ছিল। "মান ফাংশন" সম্পর্কিত, আমি সাধারণত এই শব্দটি রাষ্ট্রীয় মূল্য বা ক্রিয়া-মান ম্যাপিংয়ের জন্য সংরক্ষণ করি, অর্থাৎ এজেন্ট ভবিষ্যতের পুরষ্কারের অনুমানের জন্য এজেন্ট ব্যবহার করে। সুতরাং "মান" "পুরষ্কার" এর সাথে সম্পর্কিত, তবে পুরষ্কার সমস্যার অংশ, সমস্যাটি সমাধান করা অ্যালগরিদম নয়। সম্ভবত এআই-তে জোর দেওয়া আপনার বাইনারি, দূরবর্তী, বিচ্ছিন্ন পুরষ্কারগুলি নির্ধারণ করে আপনার শেখার অ্যালগরিদমকে দেখানোর উপর জোর দেওয়া হয়েছে - তবে যদি আপনি পুরষ্কারের কাজটির উপরে নিয়ন্ত্রণ রাখেন তবে "সুন্দর" হলে জীবন সহজ হয়।
সঞ্জয় মনোহর

4

পুরষ্কার ফাংশন ডিজাইন করা সত্যিই একটি কঠিন সমস্যা। সাধারণত বিরল প্রতিদান ফাংশনগুলির সংজ্ঞা দেওয়া আরও সহজ (যেমন, আপনি গেমটি জিতলে +1 পান, অন্যথায় 0)। যাইহোক, বিরল পুরষ্কারগুলিও শিখনকে কমিয়ে দেয় কারণ কোনও পুরষ্কার পাওয়ার আগে এজেন্টকে অনেকগুলি পদক্ষেপ নেওয়া দরকার। এই সমস্যাটি ক্রেডিট অ্যাসাইনমেন্ট সমস্যা হিসাবেও পরিচিত ।

তারপরে পুরষ্কারের জন্য সারণীর প্রতিনিধিত্ব থাকা সত্ত্বেও আপনি অবিচ্ছিন্ন ক্রিয়াগুলিও ব্যবহার করতে পারেন (যেমন বহুপদী)। এটি সাধারণত যখন রাষ্ট্র স্থান এবং ক্রিয়া স্পেসটি অবিচ্ছিন্ন থাকে তবে আলাদা হয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.