দাবাড়ির মতো গেমগুলিতে শক্তিবৃদ্ধি শেখার প্রয়োগ সম্পর্কিত কয়েকটি সন্দেহ


9

আমি দাবা জাতীয় বোর্ড গেমটি আবিষ্কার করেছি। আমি একটি ইঞ্জিন তৈরি করেছি যাতে এটি স্বায়ত্তশাসিতভাবে খেলতে পারে। ইঞ্জিনটি মূলত একটি সিদ্ধান্ত গাছ। এটি রচনা করেছেন:

  1. একটি অনুসন্ধান ফাংশন যা প্রতিটি নোডে সমস্ত সম্ভাব্য আইনী পদক্ষেপ খুঁজে পায়
  2. একটি মূল্যায়ন ফাংশন যা বোর্ডের পজিশনে একটি সংখ্যাসূচক মূল্য নির্ধারণ করে (ইতিবাচক অর্থ প্রথম খেলোয়াড়রা উপরের দিকে পাচ্ছে, নেতিবাচক মানে দ্বিতীয় খেলোয়াড় তার পরিবর্তে জিতেছে)
  3. একটি বর্ণমালা ছাঁটাই নেগাম্যাক্স অ্যালগরিদম

এই ইঞ্জিনটি সম্পর্কে মূল সমস্যাটি হ'ল মূল্যায়ন কার্যটির অপ্টমাইজেশন সত্যই জটিল। আমি জানি না কোন উপাদানগুলি বিবেচনা করতে হবে এবং কোনটি ওজন রাখতে হবে। ইঞ্জিনটি উন্নত করার একমাত্র উপায় হ'ল প্রতিটি সময় বিভিন্ন কারণ ও ওজনের সমন্বয় করে গেমগুলি পুনরাবৃত্তি করা। যাইহোক, এটি গণনাগতভাবে একটি খুব শক্ত কীর্তি বলে মনে হচ্ছে (ডিপলাইয়ারিং ব্যবহার না করে আমি কি ব্যাকপ্রোপেট করতে পারি?)।

আমি নিজের বিরুদ্ধে খেলে ইঞ্জিনটিকে উন্নত করতে রিইনফোর্সমেন্ট লার্নিং ব্যবহার করতে চাই। আমি বিষয়টি নিয়ে পড়ছি, তবে আমি এখনও বেশ বিভ্রান্ত।

উইন-হারা-আউটপুট (1 বা 0) এর একটি অংশে অন্য কোন পুরষ্কার কী আছে? আমি যদি প্রতিটি পুরষ্কারের মূল্যায়ন ফাংশন থেকে আউটপুটের মতো অন্যান্য পুরষ্কার ব্যবহার করি তবে কীভাবে আমি এটি বাস্তবায়ন করতে পারি? পুনরাবৃত্তির পরে আরও ভাল পুরষ্কার প্রদানের জন্য মূল্যায়ন ফাংশনটি কীভাবে আমি সংশোধন করব?

উত্তর:


6

আমি নিজের বিরুদ্ধে খেলে ইঞ্জিনটিকে উন্নত করতে রিইনফোর্সমেন্ট লার্নিং ব্যবহার করতে চাই। আমি বিষয়টি নিয়ে পড়ছি তবে আমি এখনও বেশ বিভ্রান্ত।

সতর্কতা অবলম্বন করুন: শক্তিবৃদ্ধি শেখা একটি বৃহত জটিল বিষয়। যদিও এটি আপনাকে গেম-প্লেং বটগুলি থেকে দূরে নিয়ে যেতে পারে, আপনি আরএল বেসিকগুলি অধ্যয়ন করতে চাইতে পারেন। শুরু করার জন্য একটি ভাল জায়গা হ'ল সাটন এবং বার্তো পুনর্বহাল শিক্ষা: একটি ভূমিকা

উইন-হারা-আউটপুট (1 বা 0) এর একটি অংশে অন্য কোন পুরষ্কার কী আছে?

আপনার গেমের উপর নির্ভর করে, সাধারণত এটি হয়। প্রকৃতপক্ষে একটি জয় / ড্র / দাবা খেলার মতো খেলার জন্য প্রতিটি ক্রিয়াকলাপের পুরস্কার 0 (1) জিতানো বা শেষে (-1) হারানো ব্যতীত 0 হয়। একটি শূন্য-সম খেলায় এটি তখন মিনিম্যাক্স, বর্ণমালা ছাঁটাই ইত্যাদির সাথে দুর্দান্তভাবে সাজায়

শক্তিবৃদ্ধি শেখার উদ্দেশ্য বিলম্বিত পুরষ্কার সহ পরিবেশকে সম্বোধন করার উদ্দেশ্যে। অন্তর্বর্তীকালীন অ-লক্ষ্যগুলির জন্য "সহায়তাকারী" পুরষ্কার যুক্ত করা সাধারণত প্রতি-উত্পাদনশীল।

আমি যদি প্রতিটি পুরষ্কারের মূল্যায়ন ফাংশন থেকে আউটপুটের মতো অন্যান্য পুরষ্কার ব্যবহার করি তবে কীভাবে আমি এটি বাস্তবায়ন করতে পারি?

সাধারণত আপনি না। স্ব-প্লেয়িং আরএল প্রয়োগ করে কী করবে তা একটি রিটার্ন (কখনও কখনও ইউটিলিটি নামে পরিচিত ) ফাংশন শিখতে পারে যা গেমের শেষে আপনার মোট + 1/0 / -1 পুরষ্কারের প্রত্যাশা করে। আপনি এটি মিনিম্যাক্স অনুসন্ধানের জন্য আপনার বর্তমান ধর্মতত্ত্বের জায়গায় ব্যবহার করবেন। অথবা, সম্ভবত আপনি আপনার বর্তমান হিউরিস্টিক ফাংশনটিকে একই পরিসরে আউটপুট করার জন্য সামঞ্জস্য করবেন এবং সত্যিকারের সর্বোত্তম প্লে রিটার্ন ফাংশনের (যা সম্ভবত নিখুঁতভাবে গণনা করা খুব জটিল) এর সর্বোত্তম সান্নিধ্য তৈরি করতে এর ওজনগুলি অনুকূল করে তুলতে আরএল ব্যবহার করবেন।

পুনরাবৃত্তির পরে আরও ভাল পুরষ্কার প্রদানের জন্য মূল্যায়ন ফাংশনটি কীভাবে আমি সংশোধন করব?

বিভিন্ন আরএল এটি করার সমস্ত প্রয়াসকেই কাছে নিয়ে আসে, বিভিন্ন ধরণের সমাধানকারী রয়েছে। এটি ব্যাখ্যা করার মতো কোনও ছোট উপায় নেই। আপনি কিউ-লার্নিংয়ের মতো একটি সাধারণ পদ্ধতি দিয়ে শুরু করতে পারেন । কিউ-লার্নিং Q (গুলি, ক) (অ্যাকশন ভ্যালু নামে পরিচিত) এর প্রাক্কলন শিখায় যা প্রত্যাশিত প্রত্যাবর্তন যখন রাষ্ট্রের এবং পদক্ষেপ গ্রহণের সময়, এবং তারপরে একটি সর্বোত্তম নীতি অনুসরণ করে। এটি শুরু করার জন্য একটি স্বেচ্ছাসেবী অনুমান করে এবং শেখার পরিবেশে তৈরি প্রতিটি পদক্ষেপের সাথে এটি সত্যের কাছাকাছি সংশোধন করে। সাধারণ টেবুলার কিউ-লার্নার্স সত্যিকারের মূল্যমানের সর্বোত্তম অনুমানের সাথে সমস্ত রাজ্য এবং ক্রিয়াকলাপের একটি বৃহত টেবিলটি সংরক্ষণ করে এবং অভিজ্ঞতা হিসাবে প্রতিটি নতুন অনুমানের গড় গড়ে এই সংশোধনটি করেন।

লুক-ফরোয়ার্ড মিনিম্যাক্স অনুসন্ধানের সাথে হিউরিস্টিক্সের জন্য একটি আরএল পদ্ধতি একত্রিত করাও সম্ভব - এটিই মূল আলফাগো করেছে এবং প্রশিক্ষণের সময় আলফাগো জিরো কী করে। এটি একটি শক্তিশালী পদ্ধতির কারণ মিনিম্যাক্স অনুসন্ধানটি আরএল-উত্পন্ন হিউরিস্টিকগুলি ডাবল-চেক করতে কাজ করবে। যদিও সহজ পর্যাপ্ত গেমসের জন্য, আরএল নিখুঁত হিরিস্টিকস শিখতে পারে এবং আপনার কেবল স্থানীয় অনুসন্ধান প্রয়োজন (পরবর্তী পদক্ষেপটি কী হওয়া উচিত)।

যদি আপনার গেমটি খুব সহজ না হয় (সমস্ত সম্ভাব্য রাজ্যগুলি মেমরির সাথে খাপ খায়), আপনার আরএল অ্যালগরিদমের অভ্যন্তরে এক ধরণের ফাংশন আনুমানিক need নিউরাল নেটওয়ার্কগুলি একটি স্ট্যান্ডার্ড পছন্দ। এই অংশটির জন্য কিছু থাকা অপরিহার্য - যদিও আরও ভাল পছন্দ হ'ল একগুচ্ছ প্রক্সি বৈশিষ্ট্যগুলি সংজ্ঞায়িত করা (যা আপনি হাতের দ্বারা একটি হিউরিস্টিক নির্মাণ করতে ব্যবহার করতে পারেন) এবং লিনিয়ার আনুমানিক ব্যবহার করতে পারেন - সমস্ত বৈশিষ্ট্যের কেবল একটি ভারী যোগফল। এটি যথেষ্ট ভালভাবে কাজ করতে পারে এবং উদাহরণস্বরূপ চেকার্স (খসড়া) খেলোয়াড়দের আরএল ব্যবহার করে প্রশিক্ষণ দেওয়া হয়েছে।

প্রকৃতপক্ষে, আপনার নিজস্ব হিউরিস্টিক ফাংশনটি খুব অস্বাভাবিক না হয়ে থাকে তবে আপনি সম্ভবত এটি একটি লিনিয়ার আনুমানিকর মতো আচরণ করতে পারেন এবং এর সেরা ওজন শিখতে আরএল ব্যবহার করতে পারেন।


"রিইনফোর্সমেন্ট লার্নিংয়ের উদ্দেশ্য বিলম্বিত পুরষ্কার সহ পরিবেশকে সম্বোধন করা। অন্তর্বর্তীকালীন অ-লক্ষ্যগুলির জন্য" সহায়তাকারী "পুরষ্কার যুক্ত করা সাধারণত পাল্টা উত্পাদনশীল।" আমি লক্ষ করতে চাই যে এমন একটি কাগজ রয়েছে যা মধ্যস্বত্বভোগী লক্ষ্যগুলি " হিন্দ্সাইট এক্সপেরিয়েন্স রিপ্লে " প্রবর্তন করে বিচ্ছিন্ন পুরষ্কারের সমস্যা সমাধানের চেষ্টা করে ।
এনবিরো

1
@ এনব্রো: বিরল পুরষ্কার সমাধানের জন্য প্রচুর প্রচেষ্টা রয়েছে, এটি আরএল-তে একটি বড় ওপেন-এন্ড প্রশ্ন, সমস্যার চ্যালেঞ্জ বাড়ানোর এক উপায় হল পুরষ্কারগুলিকে আরও বিচ্ছিন্ন করা। যোগ্যতার ট্রেস হ'ল আরেকটি প্রচেষ্টা, হায়ারার্কিকাল আরএল আরেকটি আশাব্যঞ্জক ক্ষেত্র। । । আমি মনে করি না যে আমি এই কৌশলগুলি এখানে উত্তরের সাথে যুক্ত করতে চাই, কারণ এটি ওপির সমস্যার সম্ভাব্যতা এবং বিষয়টির একটি ভূমিকা সম্পর্কে আরও
নিল স্লেটার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.