আমি (ডিপ) শক্তিবৃদ্ধি শিক্ষা (আরএল) এ আগ্রহী । এই ক্ষেত্রে ডুব দেওয়ার আগে আমি গেম থিওরি (জিটি) কোর্স করা উচিত ?
জিটি এবং আরএল কীভাবে সম্পর্কিত?
আমি (ডিপ) শক্তিবৃদ্ধি শিক্ষা (আরএল) এ আগ্রহী । এই ক্ষেত্রে ডুব দেওয়ার আগে আমি গেম থিওরি (জিটি) কোর্স করা উচিত ?
জিটি এবং আরএল কীভাবে সম্পর্কিত?
উত্তর:
রিইনফোর্সমেন্ট লার্নিংয়ে (আরএল) কোনও অন্তর্নিহিত মার্কভ ডিসিশন প্রক্রিয়া (এমডিপি) কল্পনা করা সাধারণ। তারপরে আরএলটির লক্ষ্য হ'ল এমডিপির জন্য একটি ভাল নীতি শিখুন, যা প্রায়শই কেবল আংশিকভাবে নির্দিষ্ট করা হয়। এমডিপিগুলির বিভিন্ন লক্ষ্য থাকতে পারে যেমন মোট, গড় বা ছাড় ছাড়ের পুরষ্কার, যেখানে ছাড়ের পুরষ্কারটি আরএল-এর সবচেয়ে সাধারণ অনুমান। দুই-প্লেয়ার (অর্থাত্, গেম) সেটিংসে এমডিপিগুলি সু-অধ্যয়নিত এক্সটেনশন রয়েছে; দেখুন, যেমন,
ফিলার, জেরজি এবং কোস ভ্রিজ। প্রতিযোগিতামূলক মার্কভ সিদ্ধান্ত প্রক্রিয়া । স্প্রিঞ্জার সায়েন্স অ্যান্ড বিজনেস মিডিয়া, ২০১২।
এমডিপি এবং তাদের দ্বি-প্লেয়ারের (শূন্য-সম) গেমগুলিতে সম্প্রসারিত একটি অন্তর্নিহিত তত্ত্ব রয়েছে, যেমন, বনচ ফিক্সড পয়েন্টের উপপাদ্য, মান আইট্রেশন, বেলম্যান অনুকূলতা, নীতি আইট্রেশন / কৌশল উন্নতি ইত্যাদি। তবে, সেখানে রয়েছে এমডিপি (এবং এইভাবে আরএল) এবং এই নির্দিষ্ট ধরণের গেমগুলির মধ্যে এই ঘনিষ্ঠ সংযোগগুলি:
গেম তত্ত্বটি মাল্টি এজেন্ট পুনর্বহাল শেখার (এমএআরএল) প্রসঙ্গে জড়িত the
স্টোকাস্টিক গেমসটি দেখুন বা নিবন্ধটি পড়ুন মাল্টিএজেন্ট রিইনফোর্সমেন্ট লার্নিংয়ের জন্য স্টোকাস্টিক গেম থিওরীর একটি বিশ্লেষণ ।
আর জিএলকে আরএল এর পূর্বশর্ত হিসাবে দেখব না। তবে এটি মাল্টি এজেন্টের ক্ষেত্রে দুর্দান্ত এক্সটেনশন সরবরাহ করে।
আরএল: একটি একক এজেন্ট একটি মার্কভ সিদ্ধান্ত সমস্যা (MDPS) সমাধান করার জন্য প্রশিক্ষিত হয়। জিটি: দু'জন এজেন্ট গেমস সমাধানের জন্য প্রশিক্ষণপ্রাপ্ত। স্টোকাস্টিক গেমগুলির সমাধান করার জন্য একটি মাল্টি এজেন্ট রিইনফোর্সমেন্ট লার্নিং (এমএআরএল) ব্যবহার করা যেতে পারে।
আপনি যদি গভীর শেখার ক্ষেত্রে আরএল এর একক-এজেন্ট প্রয়োগের বিষয়ে আগ্রহী হন তবে আপনাকে কোনও জিটি কোর্সে যাওয়ার প্রয়োজন হবে না। দুই বা ততোধিক এজেন্টদের জন্য আপনাকে গেম-তাত্ত্বিক কৌশলগুলি জানতে হবে।