আমি বর্তমানে মেশিন লার্নিং সম্পর্কে পড়ছি এবং ভাবছি কীভাবে এটি কানেক্ট চারটি খেলতে প্রয়োগ করা যায় ।
আমার বর্তমান প্রচেষ্টা হ'ল সিগময়েড ফাংশন মডেল এবং এক-বনাম-সমস্ত পদ্ধতি ব্যবহার করে একটি সাধারণ মাল্টিক্লাস শ্রেণিবদ্ধ ator
আমার মতে, ইনপুট বৈশিষ্ট্যগুলি 7x6 = 42 গ্রিড ক্ষেত্রগুলির রাজ্য (প্লেয়ার 1 এর ডিস্ক, প্লেয়ার 2 এর ডিস্ক, খালি) হতে হবে।
আউটপুটটি ডিস্কটি লাগানোর জন্য সারি সংখ্যা হবে। যেহেতু এটি 1 থেকে 7 এর মধ্যে একটি পৃথক সংখ্যা, আমার ধারণা এটি এটিকে একটি মাল্টিক্লাস শ্রেণিবদ্ধকরণ সমস্যা হিসাবে বিবেচনা করা যেতে পারে।
তবে তত্ত্বাবধানে শেখার ক্ষেত্রে আমি কীভাবে প্রশিক্ষণের উদাহরণ তৈরি করতে পারি?
মূল লক্ষ্যটি হ'ল গেমটি জিততে হবে তবে শেষ বারটি করার পরে ফলাফল অবশ্যই জানা যায় না। আমি যদি কেবল দু'জন খেলোয়াড়কে এলোমেলোভাবে সিদ্ধান্ত নিতে দিতে পারি যে তারা একে অপরের বিরুদ্ধে কয়েক হাজার বার খেলবে তবে প্রশিক্ষণের উদাহরণ হিসাবে প্রতিটি গেমের বিজয়ীর দ্বারা সরানো সমস্ত পালা নেওয়া কি যথেষ্ট হবে? অথবা আমাকে কি সম্পূর্ণ ভিন্ন উপায়ে এটি করতে হবে?
সম্পাদনা করুন: মন্তব্যে যেমন পরামর্শ দেওয়া হয়েছে তেমন আমি রিইনফোর্সমেন্ট লার্নিং সম্পর্কে কিছুটা পড়েছি। আমি যা জানি তা থেকে, কি-লার্নিংয়ের কৌশলটি করা উচিত, অর্থাৎ আমাকে বর্তমান রাষ্ট্রের একটি ফাংশন Q সম্পর্কে আনুমানিক কাজ করতে হবে এবং সেই অবস্থায় সর্বাধিক সংখ্যক পুরষ্কার হিসাবে শুরু হওয়া পদক্ষেপ নিতে হবে। তারপরে প্রতিটি পদক্ষেপে ক্রিয়াটি নির্বাচন করা হবে যার ফলাফল Q এর সর্বাধিক মান হয় তবে যাইহোক, এই গেমটি অনেকগুলি রাজ্যকে এইভাবে করার জন্য রয়েছে যেমন একটি লুক টেবিল হিসাবে। সুতরাং, এই কিউ-ফাংশনটি মডেল করার কার্যকর উপায় কী?