মনে হচ্ছে যে নীতি নেটওয়ার্ক সম্ভাব্যতা বিতরণের নির্ধারণ সম্ভব প্যাচসমূহ উপর যখন খেলা রাজ্যের । প্রোগ্রামটি যখন গেম ট্রিটিকে অনুসন্ধান করছে এটি এলোমেলো ফ্যাশনে এটি করে এবং নির্ধারণ করে যে এটি কীভাবে এই অনুসন্ধান করে। আশা করা যায় যে এই ফাংশনটি একটি শক্তিশালী খেলোয়াড় তৈরি করতে পারে এমন ভাল চালনায় প্রোগ্রামটিকে "গাইড" করবে। এটি বোধগম্য হয় কারণ আপনি যখন বুদ্ধিমান প্রতিপক্ষের বিরুদ্ধে বর্তমান বোর্ডের অবস্থানটি মূল্যায়ন করার সময় গেম ট্রিটি অনুসন্ধান করেন তখন ভুলগুলি দিয়ে শুরু হওয়া শাখাগুলি কম প্রাসঙ্গিক হয়।a s pপি ( একটি ∣ গুলি )একটিগুলিপি
যখন তারা বলে যে রোলআউট নীতি (আমি বিশ্বাস করি যে তারা ব্যাকগ্যামন থেকে "রোলআউট" শব্দটি ধার করেছে) এটি লিনিস্টিক সফটম্যাক্স ফাংশন যা তারা লজিস্টিক রিগ্রেশন-এ ব্যবহৃত সিগময়েড ফাংশনটির একটি সাধারণীকরণের কথা উল্লেখ করে। এই ফাংশনটি রূপ নেয়
ইβটিআমিএক্সΣটj = 1ইβটিঞএক্স
এক্সβআমিএকটিআমি