আলফাগোর কাগজে রোলআউট নীতি কী?

কাগজ এখানে ।

রোলআউট নীতি ... একটি লিনিয়ার সফটম্যাক্স নীতি যা দ্রুত, বর্ধমানভাবে গণনা করা, স্থানীয় প্যাটার্ন-ভিত্তিক বৈশিষ্ট্যগুলির উপর ভিত্তি করে ...

রোলআউট নীতি কী এবং কোনও পদক্ষেপ বাছাইয়ের নীতি নেটওয়ার্কের সাথে এটি কীভাবে সম্পর্কিত তা আমি বুঝতে পারি না। কোন সহজ ব্যাখ্যা?

— ওহে বিশ্ব
সূত্র

কাগজটি

— পে-ওলের

@xeon আমি এটি সাহায্য করতে পারি না কাগজে আমার সম্পূর্ণ অ্যাক্সেস রয়েছে তবে আমি এটি এখানে আপলোড করতে পারি না (কপিরাইট আইন)। গুগল চারপাশে যদি অন্য কারও কপি থাকে?

— হ্যালো ওয়ার্ল্ড

@xeon airesearch.com/wp-content/uploads/2016/01/…

— ডিএসএক্সটনে

মনে হচ্ছে যে নীতি নেটওয়ার্ক সম্ভাব্যতা বিতরণের নির্ধারণ সম্ভব প্যাচসমূহ উপর যখন খেলা রাজ্যের । প্রোগ্রামটি যখন গেম ট্রিটিকে অনুসন্ধান করছে এটি এলোমেলো ফ্যাশনে এটি করে এবং নির্ধারণ করে যে এটি কীভাবে এই অনুসন্ধান করে। আশা করা যায় যে এই ফাংশনটি একটি শক্তিশালী খেলোয়াড় তৈরি করতে পারে এমন ভাল চালনায় প্রোগ্রামটিকে "গাইড" করবে। এটি বোধগম্য হয় কারণ আপনি যখন বুদ্ধিমান প্রতিপক্ষের বিরুদ্ধে বর্তমান বোর্ডের অবস্থানটি মূল্যায়ন করার সময় গেম ট্রিটি অনুসন্ধান করেন তখন ভুলগুলি দিয়ে শুরু হওয়া শাখাগুলি কম প্রাসঙ্গিক হয়। $p(a \mid s)$ $a$ $s$ $p$

যখন তারা বলে যে রোলআউট নীতি (আমি বিশ্বাস করি যে তারা ব্যাকগ্যামন থেকে "রোলআউট" শব্দটি ধার করেছে) এটি লিনিস্টিক সফটম্যাক্স ফাংশন যা তারা লজিস্টিক রিগ্রেশন-এ ব্যবহৃত সিগময়েড ফাংশনটির একটি সাধারণীকরণের কথা উল্লেখ করে। এই ফাংশনটি রূপ নেয়

\frac{ই^{β_{আমি}^{টি} এক্স}}{Σ_{ঞ = 1}^{ট} ই^{β_{ঞ}^{টি} এক্স}}

$\frac{e^{\beta^T_i x}}{\sum_{j=1}^{k} e^{\beta_j^T x}}$

$x$ $\beta_i$ $a_i$

— dsaxton
সূত্র