আমি এমন একটি এআই তৈরি করতে চাই যা পাঁচ-ইন-এ-সারি / গোমোকু খেলতে পারে। আমি শিরোনামে যেমন উল্লেখ করেছি, আমি এর জন্য পুনর্বহাল শেখার ব্যবহার করতে চাই।
আমি বেসলাইন সহ পলিসি গ্রেডিয়েন্ট পদ্ধতি, যথা নাম REINFORCE ব্যবহার করি । মান এবং নীতি ফাংশন আনুমানিক জন্য, আমি একটি নিউরাল নেটওয়ার্ক ব্যবহার করি । এটি সংবিধানমূলক এবং সম্পূর্ণরূপে সংযুক্ত স্তর রয়েছে। আউটপুট ব্যতীত সমস্ত স্তরগুলি ভাগ করা আছে। নীতিটির আউটপুট স্তরটিতে (বোর্ডের আকার) আউটপুট ইউনিট এবং সেগুলিতে সফটম্যাক্স রয়েছে। সুতরাং এটি স্টোকাস্টিক। তবে যদি নেটওয়ার্কটি একটি অবৈধ পদক্ষেপের জন্য খুব উচ্চ সম্ভাবনা তৈরি করে? একটি অবৈধ পদক্ষেপ তখন হয় যখন এজেন্ট কোনও স্কোয়ারটি পরীক্ষা করতে চায় যার মধ্যে একটি "এক্স" বা "ও" থাকে। আমি মনে করি এটি সেই গেমের রাজ্যে আটকে যেতে পারে।
আপনি কি এই সমস্যার জন্য কোনও সমাধানের প্রস্তাব দিতে পারেন?
আমার অনুমান অভিনেতা-সমালোচক পদ্ধতিটি ব্যবহার করা । একটি অবৈধ পদক্ষেপের জন্য, আমাদের একটি নেতিবাচক পুরষ্কার দেওয়া উচিত এবং প্রতিপক্ষকে পালা দেওয়া উচিত।