একটি দাবা ইঞ্জিনের মূল্যায়ন কার্য, নিউরাল নেট বা স্পষ্ট কোড হিসাবে তাত্ক্ষণিক হোক না কেন, যে কোনও বোর্ড পজিশনে একটি মান নির্ধারণ করতে সর্বদা সক্ষম। যদি আপনি এটিকে বোর্ডের পজিশন দেন, এমনকি এমন কোনও অযৌক্তিক বিষয় যা কোনও খেলায় কখনই ঘটে না তবে এটি কোনও খেলোয়াড় বা অন্য খেলোয়াড়ের পক্ষে কতটা অনুকূল তা উপস্থাপন করে এমন একটি সংখ্যা ছুঁড়ে ফেলতে সক্ষম হবে। যেহেতু দাবাতে বোর্ডের পদের সংখ্যাটি নিয়ন্ত্রণহীনভাবে বিশাল, তাই প্রশিক্ষণটি কেবলমাত্র গেম গাছের একটি অসীম নমুনাতেই ঘটতে পারে। ইঞ্জিন কেবল বোর্ড পজিশনের পূর্বে গণনা করা মানগুলি স্মরণ করে না, তবে টুকরোগুলি বিন্যাসের ভিত্তিতে গণনা সম্পাদন করে। স্নায়ুবিহীন-নেট উদাহরণের জন্য, দাবা ইঞ্জিনের মূল্যায়নের অংশটি হ'ল তার প্রতিটি অংশের মান যুক্ত করতে এবং প্রতিপক্ষের টুকরাগুলির মোট মান বিয়োগ করা। তারপর,
ইঞ্জিনটি প্রশিক্ষণপ্রাপ্ত না হলে মূল্যায়ন ফাংশনটির প্যারামিটারগুলি (সাধারণত) এলোমেলো মানগুলির সাথে শুরু হওয়ার পরে কোনও অবস্থানে নির্ধারিত মানগুলিও এলোমেলো হতে পারে। একটি প্রশিক্ষণ পর্বের লক্ষ্য ইঞ্জিনের প্যারামিটারগুলি সামঞ্জস্য করা যাতে এটি প্লেয়ারগুলির পক্ষে সম্ভাব্য বিজয়ী রাষ্ট্রগুলির উচ্চতর স্কোরগুলি বরাদ্দ করে assign
আলফাজিরো (পৃষ্ঠা 3) এর কাগজ থেকে :
আলফাজিরোর গভীর স্নায়বিক নেটওয়ার্কের পরামিতিগুলি এলোমেলোভাবে সূচনা পরামিতিগুলি থেকে শুরু করে স্ব-প্লে পুনর্বহাল শেখার মাধ্যমে প্রশিক্ষিত হয়। এমসিটিএস দ্বারা উভয় খেলোয়াড়ের জন্য পদক্ষেপগুলি নির্বাচন করে গেমগুলি খেলা হয়। গেমের শেষে গেমের ফলাফল গণনা করার জন্য গেমের নিয়ম অনুসারে টার্মিনাল পজিশনটি তৈরি হয়: একটি ক্ষতির জন্য −1, একটি ড্রয়ের জন্য 0 এবং জয়ের জন্য +1। ভবিষ্যদ্বাণী করা ফলাফল এবং গেমের ফলাফলের মধ্যে ত্রুটিটি হ্রাস করতে এবং সন্ধানের সম্ভাবনার সাথে নীতিমালার ভেক্টরের সাদৃশ্য সর্বাধিকতর করতে নিউরাল নেটওয়ার্ক প্যারামিটারগুলি আপডেট করা হয়।
[গণিতের প্রতীকগুলি উদ্ধৃতি থেকে সরানো]
সংক্ষেপে, প্রশিক্ষণের সময়, আলফাওরো নিজের বিরুদ্ধে একটি খেলা খেলেছিল। গেমটি শেষ হয়ে গেলে, গেমের ফলাফল এবং তার পূর্বাভাসগুলির যথার্থতাটি কীভাবে গেমটি এগিয়ে যাবে তা নিউরাল নেটকে সামঞ্জস্য করতে ব্যবহার করা হয়েছিল যাতে এটি পরবর্তী গেমের সময় আরও সঠিক হতে পারে। আলফাজেরো প্রতিটি পজিশন দেখেছে তার রেকর্ড রাখছে না, তবে নিজেকে সামঞ্জস্য করছে যাতে এটি ভবিষ্যতে যে কোনও বোর্ড দেখে তার আরও নিখুঁতভাবে মূল্যায়ন করতে পারে।