আমি নিজের বিরুদ্ধে খেলে ইঞ্জিনটিকে উন্নত করতে রিইনফোর্সমেন্ট লার্নিং ব্যবহার করতে চাই। আমি বিষয়টি নিয়ে পড়ছি তবে আমি এখনও বেশ বিভ্রান্ত।
সতর্কতা অবলম্বন করুন: শক্তিবৃদ্ধি শেখা একটি বৃহত জটিল বিষয়। যদিও এটি আপনাকে গেম-প্লেং বটগুলি থেকে দূরে নিয়ে যেতে পারে, আপনি আরএল বেসিকগুলি অধ্যয়ন করতে চাইতে পারেন। শুরু করার জন্য একটি ভাল জায়গা হ'ল সাটন এবং বার্তো পুনর্বহাল শিক্ষা: একটি ভূমিকা
উইন-হারা-আউটপুট (1 বা 0) এর একটি অংশে অন্য কোন পুরষ্কার কী আছে?
আপনার গেমের উপর নির্ভর করে, সাধারণত এটি হয়। প্রকৃতপক্ষে একটি জয় / ড্র / দাবা খেলার মতো খেলার জন্য প্রতিটি ক্রিয়াকলাপের পুরস্কার 0 (1) জিতানো বা শেষে (-1) হারানো ব্যতীত 0 হয়। একটি শূন্য-সম খেলায় এটি তখন মিনিম্যাক্স, বর্ণমালা ছাঁটাই ইত্যাদির সাথে দুর্দান্তভাবে সাজায়
শক্তিবৃদ্ধি শেখার উদ্দেশ্য বিলম্বিত পুরষ্কার সহ পরিবেশকে সম্বোধন করার উদ্দেশ্যে। অন্তর্বর্তীকালীন অ-লক্ষ্যগুলির জন্য "সহায়তাকারী" পুরষ্কার যুক্ত করা সাধারণত প্রতি-উত্পাদনশীল।
আমি যদি প্রতিটি পুরষ্কারের মূল্যায়ন ফাংশন থেকে আউটপুটের মতো অন্যান্য পুরষ্কার ব্যবহার করি তবে কীভাবে আমি এটি বাস্তবায়ন করতে পারি?
সাধারণত আপনি না। স্ব-প্লেয়িং আরএল প্রয়োগ করে কী করবে তা একটি রিটার্ন (কখনও কখনও ইউটিলিটি নামে পরিচিত ) ফাংশন শিখতে পারে যা গেমের শেষে আপনার মোট + 1/0 / -1 পুরষ্কারের প্রত্যাশা করে। আপনি এটি মিনিম্যাক্স অনুসন্ধানের জন্য আপনার বর্তমান ধর্মতত্ত্বের জায়গায় ব্যবহার করবেন। অথবা, সম্ভবত আপনি আপনার বর্তমান হিউরিস্টিক ফাংশনটিকে একই পরিসরে আউটপুট করার জন্য সামঞ্জস্য করবেন এবং সত্যিকারের সর্বোত্তম প্লে রিটার্ন ফাংশনের (যা সম্ভবত নিখুঁতভাবে গণনা করা খুব জটিল) এর সর্বোত্তম সান্নিধ্য তৈরি করতে এর ওজনগুলি অনুকূল করে তুলতে আরএল ব্যবহার করবেন।
পুনরাবৃত্তির পরে আরও ভাল পুরষ্কার প্রদানের জন্য মূল্যায়ন ফাংশনটি কীভাবে আমি সংশোধন করব?
বিভিন্ন আরএল এটি করার সমস্ত প্রয়াসকেই কাছে নিয়ে আসে, বিভিন্ন ধরণের সমাধানকারী রয়েছে। এটি ব্যাখ্যা করার মতো কোনও ছোট উপায় নেই। আপনি কিউ-লার্নিংয়ের মতো একটি সাধারণ পদ্ধতি দিয়ে শুরু করতে পারেন । কিউ-লার্নিং Q (গুলি, ক) (অ্যাকশন ভ্যালু নামে পরিচিত) এর প্রাক্কলন শিখায় যা প্রত্যাশিত প্রত্যাবর্তন যখন রাষ্ট্রের এবং পদক্ষেপ গ্রহণের সময়, এবং তারপরে একটি সর্বোত্তম নীতি অনুসরণ করে। এটি শুরু করার জন্য একটি স্বেচ্ছাসেবী অনুমান করে এবং শেখার পরিবেশে তৈরি প্রতিটি পদক্ষেপের সাথে এটি সত্যের কাছাকাছি সংশোধন করে। সাধারণ টেবুলার কিউ-লার্নার্স সত্যিকারের মূল্যমানের সর্বোত্তম অনুমানের সাথে সমস্ত রাজ্য এবং ক্রিয়াকলাপের একটি বৃহত টেবিলটি সংরক্ষণ করে এবং অভিজ্ঞতা হিসাবে প্রতিটি নতুন অনুমানের গড় গড়ে এই সংশোধনটি করেন।
লুক-ফরোয়ার্ড মিনিম্যাক্স অনুসন্ধানের সাথে হিউরিস্টিক্সের জন্য একটি আরএল পদ্ধতি একত্রিত করাও সম্ভব - এটিই মূল আলফাগো করেছে এবং প্রশিক্ষণের সময় আলফাগো জিরো কী করে। এটি একটি শক্তিশালী পদ্ধতির কারণ মিনিম্যাক্স অনুসন্ধানটি আরএল-উত্পন্ন হিউরিস্টিকগুলি ডাবল-চেক করতে কাজ করবে। যদিও সহজ পর্যাপ্ত গেমসের জন্য, আরএল নিখুঁত হিরিস্টিকস শিখতে পারে এবং আপনার কেবল স্থানীয় অনুসন্ধান প্রয়োজন (পরবর্তী পদক্ষেপটি কী হওয়া উচিত)।
যদি আপনার গেমটি খুব সহজ না হয় (সমস্ত সম্ভাব্য রাজ্যগুলি মেমরির সাথে খাপ খায়), আপনার আরএল অ্যালগরিদমের অভ্যন্তরে এক ধরণের ফাংশন আনুমানিক need নিউরাল নেটওয়ার্কগুলি একটি স্ট্যান্ডার্ড পছন্দ। এই অংশটির জন্য কিছু থাকা অপরিহার্য - যদিও আরও ভাল পছন্দ হ'ল একগুচ্ছ প্রক্সি বৈশিষ্ট্যগুলি সংজ্ঞায়িত করা (যা আপনি হাতের দ্বারা একটি হিউরিস্টিক নির্মাণ করতে ব্যবহার করতে পারেন) এবং লিনিয়ার আনুমানিক ব্যবহার করতে পারেন - সমস্ত বৈশিষ্ট্যের কেবল একটি ভারী যোগফল। এটি যথেষ্ট ভালভাবে কাজ করতে পারে এবং উদাহরণস্বরূপ চেকার্স (খসড়া) খেলোয়াড়দের আরএল ব্যবহার করে প্রশিক্ষণ দেওয়া হয়েছে।
প্রকৃতপক্ষে, আপনার নিজস্ব হিউরিস্টিক ফাংশনটি খুব অস্বাভাবিক না হয়ে থাকে তবে আপনি সম্ভবত এটি একটি লিনিয়ার আনুমানিকর মতো আচরণ করতে পারেন এবং এর সেরা ওজন শিখতে আরএল ব্যবহার করতে পারেন।