4
শক্তিবৃদ্ধি শেখার ক্ষেত্রে কীভাবে অবৈধ পদক্ষেপগুলি পরিচালনা করবেন?
আমি এমন একটি এআই তৈরি করতে চাই যা পাঁচ-ইন-এ-সারি / গোমোকু খেলতে পারে। আমি শিরোনামে যেমন উল্লেখ করেছি, আমি এর জন্য পুনর্বহাল শেখার ব্যবহার করতে চাই। আমি বেসলাইন সহ পলিসি গ্রেডিয়েন্ট পদ্ধতি, যথা নাম REINFORCE ব্যবহার করি । মান এবং নীতি ফাংশন আনুমানিক জন্য, আমি একটি নিউরাল নেটওয়ার্ক ব্যবহার করি …