আমার মনে হয় ওপি আলফা-বিটা নিয়ে আলফাগো সম্পর্কে বিভ্রান্ত করছে। আলফা-বিটাতে, আপনি প্রকৃতপক্ষে ছাঁটাইয়ের সাহায্যে নীতি নেটওয়ার্কটি ব্যবহার করবেন তবে এখানে নেই। আবার অ্যালগরিদম মন্টে-কার্লো গাছ অনুসন্ধান (এমসিটিএস) এর উপর নির্ভর করে বলে কোনও ছাঁটাই নেই।
যে কেউ আমার উত্তরটি খুব দীর্ঘ বলে মনে করে সে সংক্ষিপ্ত বিভাগে চলে যেতে পারে, যেখানে আমি জানিয়েছি কেন দুটি নেটওয়ার্ক অনর্থক নয়।
নিম্নলিখিত উদাহরণে, আমি আমার ধারণাগুলি বুঝতে সহজ করার জন্য কিছু সরলীকরণ করব।
উদাহরণ:
ভাবুন আপনার এমন একটি অবস্থান রয়েছে যেখানে দুটি আইনী পদক্ষেপ রয়েছে। প্রথম পদক্ষেপটি আপনার জন্য একটি মৃত-হারিয়ে যাওয়া, তবে, দ্বিতীয় পদক্ষেপ আপনাকে একটি জয়যুক্ত সুবিধা দেয়।
- প্রথম পদক্ষেপ: আপনার জন্য জোর করে ক্ষতি
- দ্বিতীয় পদক্ষেপ: জোর করে আপনার জন্য জয়
মূল্যায়ন নেটওয়ার্ক
আসুন ধরে নেওয়া যাক গুগল আপনাকে যে মূল্যায়ন নেটওয়ার্ক দেয় তা নিখুঁত। এটি আমাদের উদাহরণে যে কোনও পাতার অবস্থান নিখুঁতভাবে মূল্যায়ন করতে পারে। আমরা উদাহরণে আমাদের মান নেটওয়ার্ক পরিবর্তন করব না।
আমাদের উদাহরণকে সহজ করার জন্য, ধরে নেওয়া যাক আমাদের মান নেটওয়ার্কটি দেয়:
- যে কোনও পাতার অবস্থানের জন্য -1000 যা আপনার জন্য ক্ষতি
- যে কোনও পাতার অবস্থানের জন্য +1000 যা আপনার জন্য একটি জয়
পলিসি নেটওয়ার্ক
ধরে নেওয়া যাক গুগল আপনাকে দুটি নীতিগত নেটওয়ার্ক দেয়। আমাদের অবস্থানের জন্য উত্পন্ন সম্ভাবনাগুলি হ'ল:
- নীতি 1: মুভি 1 এর জন্য 0.9 এবং সরানো 2 এর জন্য 0.1
- নীতি 2: 1 পদক্ষেপের জন্য 0.2 এবং সরানো 2 এর জন্য 0.8।
নোট করুন যে আমাদের প্রথম নীতি নেটওয়ার্ক আমাদের উদাহরণের জন্য ভুল পূর্ববর্তী সম্ভাবনা দেয় । এটি 1 পদক্ষেপের জন্য 0.9 দেয়, যা একটি হেরে যাওয়া চাল। এটি ঠিক আছে কারণ গুগলও নিখুঁত নীতি নেটওয়ার্ক প্রশিক্ষণ দিতে পারে না।
প্রথম নীতি নেটওয়ার্কের সাথে খেলছে
আলফাগোকে মন্টি-কার্লোর সাথে একটি সিমুলেশন তৈরি করতে হবে এবং এটির জন্য 1 বা 2 পদক্ষেপটি বেছে নেওয়া দরকার Now
- এলোমেলো সংখ্যাটি <= 0.9 হলে 1 সরান
- এলোমেলো সংখ্যা> 0.9 হলে 2 সরান
সুতরাং AlphaGo অনুকরণে হারানো পদক্ষেপটি বেছে নেওয়ার অনেক বেশি সম্ভাবনা রয়েছে (আমাদের প্রথম সিমুলেশনে)। আমাদের প্রথম সিমুলেশনে, আমরা সিমুলেশনটির জন্য স্কোর পেতে মান নেটওয়ার্কটিও ব্যবহার করব। কাগজে, এটি:
এই মানটি -1000 হবে কারণ এই সিমুলেশনটি ক্ষতি হতে পারে।
এখন, আলফাগোতে দ্বিতীয় সিমুলেশন তৈরি করা দরকার। আবার, প্রথম পদক্ষেপটি বাছাইয়ের সম্ভাবনা অনেক বেশি। তবে শেষ পর্যন্ত দ্বিতীয় পদক্ষেপটি বেছে নেওয়া হবে কারণ:
- দ্বিতীয় পদক্ষেপের জন্য আমাদের পূর্ব সম্ভাবনা 0.1, শূন্য নয়
- আলফাগো এমন পদক্ষেপগুলি চেষ্টা করতে উত্সাহিত করা হয়েছে যা খুব বেশি অনুসন্ধান করা হয়নি। কাগজে এই সমীকরণ দ্বারা এটি করা হয়:
নোটটি N
হ'ল পদক্ষেপের জন্য অনুসন্ধান করা চলনগুলির সংখ্যা এবং এটি ডিনোমিনেটরে রয়েছে। আমাদের প্রথম চালটি যত বেশি অনুসন্ধান করা যায় তত u
কার্যকারিতা তত কম । সুতরাং, আমাদের দ্বিতীয় পদক্ষেপটি নির্বাচনের সম্ভাবনা উন্নতি করে কারণ আলফাগো আসলে এই সমীকরণের মাধ্যমে একটি পদক্ষেপ নেয়:
এটিই মূল সমীকরণ। দয়া করে এটি সাবধানে দেখুন:
- এটির
P
পূর্ব সম্ভাবনার জন্য একটি শব্দ রয়েছে (পলিসি নেটওয়ার্ক দ্বারা প্রদত্ত)
- এটির
Q
মূল্যায়নের স্কোরগুলির একটি শব্দ রয়েছে (মান নেটওয়ার্ক দ্বারা প্রদত্ত)
এখন, আমরা জানি যে আমাদের দ্বিতীয় পদক্ষেপটি শেষ পর্যন্ত চয়ন করা হবে। এটি যখন ঘটে তখন মান নেটওয়ার্কটি একটি +1000 দেয়। এটি বৃদ্ধি পাবে Q
, যা দ্বিতীয় চালটি সম্ভবত পরবর্তী সিমুলেশনে বেছে নেওয়া সম্ভব করে ।
পর্যাপ্ত সিমুলেশন দেওয়া, দ্বিতীয় চলন সিমুলেশনের জন্য কতবার বেছে নেওয়া হয় তা প্রথম পদক্ষেপটি বেছে নেওয়ার সময়ের চেয়ে বেশি হওয়া উচিত।
অবশেষে, আলফাগো যে পদক্ষেপটি করার সিদ্ধান্ত নিয়েছে তা হ'ল (কাগজ থেকে উদ্ধৃত):
একবার অনুসন্ধান শেষ হয়ে গেলে, অ্যালগরিদম মূল অবস্থান থেকে সর্বাধিক পরিদর্শন করা পদক্ষেপটি বেছে নেয়।
দ্বিতীয় নীতি নেটওয়ার্কের সাথে খেলছে
আমাদের দ্বিতীয় নীতি নেটওয়ার্কের সরানো 2 বাছতে কম পুনরাবৃত্তির প্রয়োজন হবে কারণ নীতি নেটওয়ার্ক দ্বারা প্রদত্ত পূর্বের সম্ভাবনাটি প্রথম স্থানে সঠিক।
মন্তব্য
এখানে সবকিছু Bayesian
বিশ্লেষণের সাথে খুব মিল । আমরা কিছু পূর্ব সম্ভাবনা (পলিসি নেটওয়ার্ক দ্বারা প্রদত্ত) দিয়ে শুরু করি, তারপরে আমরা সম্ভাব্যতা বিচ্ছিন্নকরণ (মান নেটওয়ার্ক দ্বারা প্রদত্ত) স্থানান্তরিত করার জন্য ডেটা উত্পন্ন করি।
সারাংশ
- নীতি নেটওয়ার্কটি মন্টে-কার্লো অনুসন্ধান কী পদক্ষেপ নিতে হবে তা গাইড করার জন্য পূর্বের সম্ভাব্যতা তৈরি করতে ব্যবহৃত হয়
- পলিসি নেটওয়ার্কটি বৈধ করার জন্য ডেটা উত্পন্ন করতে মান নেটওয়ার্ক ব্যবহার করা হয়। নীতি নেটওয়ার্কটি যদি খারাপ হয় তবে আলফাফোতে রূপান্তর করতে (যদি কখনও হয়) আরও বেশি কম্পিউটিং সংস্থান প্রয়োজন।
- আপনি এটি বায়সিয়ান বিশ্লেষণের মতো ভাবতে পারেন