গেম তত্ত্ব এবং পুনর্বহাল শেখার মধ্যে কী সম্পর্ক?


12

আমি (ডিপ) শক্তিবৃদ্ধি শিক্ষা (আরএল) এ আগ্রহী । এই ক্ষেত্রে ডুব দেওয়ার আগে আমি গেম থিওরি (জিটি) কোর্স করা উচিত ?

জিটি এবং আরএল কীভাবে সম্পর্কিত?


2
তারা হাতুড়ি এবং হুইপড ক্রিম হিসাবে প্রায় নিবিড়ভাবে সম্পর্কিত। আপনি সম্ভবত এমন কোনও সমস্যা খুঁজে পেতে পারেন যেখানে আপনি উভয়ই ব্যবহার করতে পারেন তবে এটি সাধারণ নয়।
ডন রেবা

4
@ ডোনরেবা রিইনফোর্সমেন্ট লার্নিংয়ের দুজন সুপরিচিত গবেষকের মতে নয়: udacity.com/course/… আমি মনে করি যে গেম থিওরি আপনাকে সর্বোত্তম নীতি কী বলেছে, আর আরএল আপনাকে বলবে যে এজেন্টরা কীভাবে সর্বোত্তম বা একটি ভাল নীতি শিখতে পারে ।
কিউনম

3
@ ডোনরাবা, সম্ভবত তাদের মধ্যে শেখানো সাধারণ বিষয়বস্তুর নিরিখে। তবে দুটি ক্ষেত্রের উদ্দেশ্য এত আলাদা নয়। শক্তিবৃদ্ধি শেখার ক্ষেত্রে প্রায়শই একজন খেলোয়াড়ের জন্য অপূর্ণ তথ্যের খেলা হিসাবে দেখা যেতে পারে। বা দুটি প্লেয়ার গেম হিসাবে অন্য খেলোয়াড়, প্রকৃতি, আপনি আবিষ্কার করতে চান এমন নিয়মের একটি সেট অনুসরণ করে।
অনুমান করে

1
এটি ছিল শিক্ষামূলক। :)
ডন রেবা

উত্তর:


12

রিইনফোর্সমেন্ট লার্নিংয়ে (আরএল) কোনও অন্তর্নিহিত মার্কভ ডিসিশন প্রক্রিয়া (এমডিপি) কল্পনা করা সাধারণ। তারপরে আরএলটির লক্ষ্য হ'ল এমডিপির জন্য একটি ভাল নীতি শিখুন, যা প্রায়শই কেবল আংশিকভাবে নির্দিষ্ট করা হয়। এমডিপিগুলির বিভিন্ন লক্ষ্য থাকতে পারে যেমন মোট, গড় বা ছাড় ছাড়ের পুরষ্কার, যেখানে ছাড়ের পুরষ্কারটি আরএল-এর সবচেয়ে সাধারণ অনুমান। দুই-প্লেয়ার (অর্থাত্, গেম) সেটিংসে এমডিপিগুলি সু-অধ্যয়নিত এক্সটেনশন রয়েছে; দেখুন, যেমন,

ফিলার, জেরজি এবং কোস ভ্রিজ। প্রতিযোগিতামূলক মার্কভ সিদ্ধান্ত প্রক্রিয়া । স্প্রিঞ্জার সায়েন্স অ্যান্ড বিজনেস মিডিয়া, ২০১২।

এমডিপি এবং তাদের দ্বি-প্লেয়ারের (শূন্য-সম) গেমগুলিতে সম্প্রসারিত একটি অন্তর্নিহিত তত্ত্ব রয়েছে, যেমন, বনচ ফিক্সড পয়েন্টের উপপাদ্য, মান আইট্রেশন, বেলম্যান অনুকূলতা, নীতি আইট্রেশন / কৌশল উন্নতি ইত্যাদি। তবে, সেখানে রয়েছে এমডিপি (এবং এইভাবে আরএল) এবং এই নির্দিষ্ট ধরণের গেমগুলির মধ্যে এই ঘনিষ্ঠ সংযোগগুলি:

  • পূর্বশর্ত হিসাবে জিটি ছাড়াই আপনি সরাসরি আরএল (এবং এমডিপি) সম্পর্কে শিখতে পারবেন;
  • যাইহোক, আপনি জিটি কোর্সের বেশিরভাগ কোর্সে এই স্টাফটি সম্পর্কে শিখবেন না (যা সাধারণত সাধারণত স্ট্র্যাটেজিক-ফর্ম, বিস্তৃত ফর্ম এবং পুনরাবৃত্ত গেমগুলিতে ফোকাস করা হত তবে এমডিপিগুলিকে সাধারণীকরণকারী রাষ্ট্র-ভিত্তিক অসীম গেমগুলি নয়)।

6

গেম তত্ত্বটি মাল্টি এজেন্ট পুনর্বহাল শেখার (এমএআরএল) প্রসঙ্গে জড়িত the

স্টোকাস্টিক গেমসটি দেখুন বা নিবন্ধটি পড়ুন মাল্টিএজেন্ট রিইনফোর্সমেন্ট লার্নিংয়ের জন্য স্টোকাস্টিক গেম থিওরীর একটি বিশ্লেষণ

আর জিএলকে আরএল এর পূর্বশর্ত হিসাবে দেখব না। তবে এটি মাল্টি এজেন্টের ক্ষেত্রে দুর্দান্ত এক্সটেনশন সরবরাহ করে।


0

আরএল: একটি একক এজেন্ট একটি মার্কভ সিদ্ধান্ত সমস্যা (MDPS) সমাধান করার জন্য প্রশিক্ষিত হয়। জিটি: দু'জন এজেন্ট গেমস সমাধানের জন্য প্রশিক্ষণপ্রাপ্ত। স্টোকাস্টিক গেমগুলির সমাধান করার জন্য একটি মাল্টি এজেন্ট রিইনফোর্সমেন্ট লার্নিং (এমএআরএল) ব্যবহার করা যেতে পারে।

আপনি যদি গভীর শেখার ক্ষেত্রে আরএল এর একক-এজেন্ট প্রয়োগের বিষয়ে আগ্রহী হন তবে আপনাকে কোনও জিটি কোর্সে যাওয়ার প্রয়োজন হবে না। দুই বা ততোধিক এজেন্টদের জন্য আপনাকে গেম-তাত্ত্বিক কৌশলগুলি জানতে হবে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.