আলফাজিরো বোঝা যাচ্ছে


29

খুব সম্প্রতি, সংবাদটি প্রকাশিত হয়েছিল যে বর্ণমালার ডিপমাইন্ড গবেষণা দলটি শোগি এবং দাবা উভয়কেই খেলতে তাদের মেশিন লার্নিং ইঞ্জিন বাড়িয়েছে। স্পষ্টতই, স্ব-শিক্ষার মাত্র কয়েক ঘন্টা পরে, যার অর্থ গেমসের নিয়মগুলি দেওয়া মাত্র নিজের বিরুদ্ধে খেলে, দাবাতে এর পারফরম্যান্স ইতিমধ্যে স্টকফিশ 8 এর মতো শীর্ষ বর্তমান ইঞ্জিনগুলিকে ছাড়িয়ে গেছে। ম্যাচগুলি ঠিকঠাকভাবে কীভাবে সেট আপ হয়েছিল তা আমি ব্যক্তিগতভাবে এখনও জানি না, স্টকফিশ কী অবস্থার অধীনে পারফরম্যান্সের জন্য প্রস্তুত হয়েছিল, যেহেতু গণনার সময় যদি সীমাবদ্ধ থাকে তবে ইঞ্জিনগুলি খুব খারাপভাবে পারফর্ম করতে সক্ষম হয়। যাই হোক না কেন, এটি একটি চিত্তাকর্ষক কৃতিত্ব, কারণ যদি দেখা যায় যে কেউ অতিরিক্ত কিছু প্রশিক্ষণের সাথে স্টকফিশ স্থাপন করতে পারত তবে আলফাজেরো আবার খেলার মাত্রা ছাড়িয়ে যাবে, যার অর্থ আলফাজিরো মূলত যে কোনও বর্তমানের চেয়ে শক্তিশালী হিউরিস্টিক মূল্যায়ন ফাংশনের উপর ভিত্তি করে স্ট্যান্ডার্ড দাবা ইঞ্জিন।

এখন এই সংবাদের আলোকে, এটি দুর্দান্ত হবে যদি কেউ মেশিন শিখেছি দাবা ইঞ্জিনের কাজের ক্ষেত্রে প্রধান পার্থক্যগুলি স্ট্যান্ডার্ড ইঞ্জিনগুলির সাথে তুলনা করে আমরা সবাই অভ্যস্ত যেগুলি ব্যবহার করতে অভ্যস্ত on আরও দৃ concrete়ভাবে:

  1. মেশিন লার্নিং পদ্ধতি দ্বারা প্রশিক্ষিত, আলফাজিরো যে মূল্যায়ন ফাংশনটি ব্যবহার করে, সেগুলি কি আর কি আর কোনও হিউরিস্টিক মূল্যায়ন ফাংশন নয়? যদি হ্যাঁ, তবে এটুকু বলা উচিত যে দুটি ইঞ্জিনের মূল্যায়ন কার্যকারিতার মধ্যে মৌলিক পার্থক্য, এই বিষয়টি সত্য যে স্টকফিশের একটি অনুকূলিত মূল্যায়ন ফাংশন রয়েছে যা মানুষের হাতে রয়েছে, যার অর্থ অনুকূলকরণের জন্য কার্যটির সংজ্ঞাটি স্থির হয়েছে, যেখানে আলফাজিরো, লক্ষ্য মূল্যায়ন ফাংশনটি অতিরিক্ত প্রশিক্ষণের মাধ্যমে (যেমন স্ব-খেলার মাধ্যমে) প্রতিনিয়ত পুনরায় সংজ্ঞায়িত হচ্ছে? আধুনিককে একটি পদ্ধতির আরও বেশি গতিশীল করে তোলা।
  2. অবশেষে, অস্পষ্টভাবে বলতে গেলে, স্টকফিশের মতো একটি ইঞ্জিন তার মূল্যায়ন ফাংশনটিকে সম্ভাব্য পদক্ষেপের গাছে প্রয়োগ করে, কোন শাখাটি রাখা উচিত এবং কোনটি বাদ দিতে হবে তা স্থির করে, তারপরে একটি গভীর কংক্রিটের মাধ্যমেপ্রতিটি শাখার বিশ্লেষণ, আবার তার মূল্যায়ন কার্যের মাধ্যমে, এটি নির্ধারণ করে যে কোন শাখাটি সর্বোচ্চ মূল্য অর্জন করেছে এবং এটি মূল প্রকরণ হয়ে যায় (অবশ্যই এই বৃহত বৃক্ষকে দক্ষতার সাথে ছাঁটাই করার জন্য এই প্রক্রিয়াটির চারপাশে অনেক অগ্রগতির কৌশল রয়েছে)। অর্থ, প্রতিটি পদের জন্য, স্টকফিশের সিদ্ধান্ত নেওয়ার জন্য এই চূড়ান্ত নিয়মিত রুটিনটি পুনরাবৃত্তি করতে হবে। বিপরীতে, আমি কল্পনা করি যে আলফাজেরো খুব আলাদা কিছু করে, যথা, এটি কোনও নির্দিষ্ট অবস্থানে সম্ভাব্য পদক্ষেপের গাছের একটি কংক্রিট বিশ্লেষণের উপর নির্ভর করে না, পরিবর্তে এর মূল্যায়ন ফাংশনটি মূলত সেই অবস্থানের জন্য একটি মান নির্ধারণ করে (যা স্বজ্ঞাতভাবে রাখার মতোই হয়) অন্য কোন অবস্থার জন্য সাদৃশ্য হিসাবে বর্তমান অবস্থান এটির জন্য প্রশিক্ষণ দেওয়া হয়েছে), কখনও কংক্রিট না করেইস্টকফিশ বা এমনকি কোনও মানব খেলোয়াড় যেভাবে বিশ্লেষণ করে সেভাবে। এটি কি আদৌ আলফাজিরো বা অনুরূপ প্রশিক্ষিত মেশিন লার্নিং ইঞ্জিনগুলির কার্যকরী শব্দগুলির চিত্র?

  3. আমরা জানি যে দাবা পজিশনের স্থানটি এত বড় যে এতে সমস্ত অবস্থানের নমুনা নেওয়ার যে কোনও প্রচেষ্টা নীতিগতভাবে পুরোপুরি নিরর্থক (এক্সপিটাইম জটিলতা) হতে পারে, এটি সুপারিশ করবে যে স্ব-খেলার মাধ্যমে প্রশিক্ষণের কোনও পরিমাণই যথেষ্ট হবে না সমস্ত অবস্থান অন্বেষণ করেছেন, সুতরাং স্ব-খেলার মাধ্যমে স্থানের সামান্য কিছু অংশের সম্ভাব্য সম্ভাবনা সত্ত্বেও শেষের ফলাফলটি কীভাবে ভাল হতে পারে? এখানে খেলার মূল ধারণাটি কী?

  4. আমার ধারণাটি হ'ল, আলফাএজোর যে কোনও অবস্থানের তুলনা করার খুব অনুকূল উপায় রয়েছে, এমনকি যদি নতুন হয় তবে তার প্রশিক্ষণ সংস্থায় পূর্বের একটি পরিদর্শন করা ব্যক্তির সাথে তুলনাটি যতই নিকটবর্তী হয় তত তুলনায় ততই বৈধ মূল্যায়ন তুলনা করা যায়। উদাহরণস্বরূপ, যখন এটি 5 গেমটিতে মুগ বিজি 5 খেলেছিল তখন অবশ্যই এটি তার প্রশিক্ষণের সময় একই ধরণের কাঠামোটি অন্বেষণ করেছে, অর্থাত্ এটি সনাক্ত করতে সক্ষম হয় যে এই অবস্থানটি মূলত তার প্রশিক্ষণে অধ্যয়ন করা একটি পৃথক (সম্ভবত একটি সম্পূর্ণ) সমতুল্য is মেশিন লার্নিংয়ের মাধ্যমে কীভাবে মুখের স্বীকৃতি অর্জন করা যায় তার সাদৃশ্য, এবং ফলস্বরূপ এটি শেষ করে বিজি 5 সেরা পদক্ষেপ হওয়া উচিত, যেমনটি (বা যারা) অন্যান্য অনুরূপ পজিশনে ছিল। এটি কি আদৌ সঠিক অনুমান? এই তুলনাটি আমার কী ধারণা নেই সম্পন্ন হয়েছে, অবশ্যই সমস্ত প্রশিক্ষিত অবস্থান সংরক্ষণ এবং প্রতিবার তাদের মাধ্যমে পার্স করা সম্ভব নয়।

এটি কেবলমাত্র আলফাজিরোর কাজকর্ম এবং কীভাবে কোনও অবস্থানের সিদ্ধান্ত গ্রহণের সিদ্ধান্তে আসে সে সম্পর্কে এতটা অন্তর্দৃষ্টি পাওয়ার চেষ্টা।

উত্তর:


18
  • কীভাবে আলফাজেরো অনুসন্ধানে একটি পদক্ষেপ নির্বাচন করবে?

এটি কাগজ থেকে খুব সুস্পষ্ট।

প্রতিটি সিমুলেশন প্রতিটি রাজ্যে নির্বাচন করে এগিয়ে যায় এবং কম ভিজিট কাউন্ট, উচ্চ সরানো সম্ভাবনা এবং উচ্চ উপত্যকা নির্বাচন করে ...

ওটার মানে কি? আলফাজেরো একটি গভীর নিউরাল নেটওয়ার্ক থেকে প্রতিটি পদক্ষেপের জন্য (কাগজের পৃষ্ঠার 2 পৃষ্ঠার) সম্ভাব্য প্রশিক্ষণ নিয়েছে। অনুসন্ধানের সময়, এটি সেই সম্ভাবনার সমানুপাতিক একটি পদক্ষেপ গ্রহণ করে এবং কম নোডযুক্ত নোডগুলি (স্যাম্পলিং স্পেসটি অন্বেষণ করা হয় তা নিশ্চিত করতে)। এই না একটি নতুন ধারণা, মন্টে কার্লো বৃক্ষ অনুসন্ধান সাহিত্যে হয়েছে আগে Google অস্তিত্ব।

------ (খুব) রুক্ষ উদাহরণ ------

আমাদের একটি অবস্থান রয়েছে এবং আমাদের দুটি আইনী পদক্ষেপ রয়েছে।

  • 1 নড়াচড়া ভাল এবং যুক্তিসঙ্গত
  • 2 সরান কোনও ক্ষতিপূরণের জন্য আপনার নিজের রাজাকে বিপদে ফেলে

কাগজ অনুসারে, প্রশিক্ষিত গভীর মডেল সম্ভাব্যতাগুলি (0.90, 0.10) হিসাবে অনুমান করতে পারে। ধরা যাক আলফাজেরো মন্টি কার্লোতে 4 টি পুনরাবৃত্তি ব্যবহার করে। পুনরাবৃত্তিগুলি দেখতে দেখতে পারে:

Iteration 1 : 1 পদক্ষেপ বাছুন কারণ এটির সর্বোচ্চ সম্ভাবনা রয়েছে। সরানো থেকে একটি সিমুলেশন করুন 1. Iteration 2 : সরানো 1 বাছুন কারণ এটির সর্বোচ্চ সম্ভাবনা রয়েছে। সরানো থেকে একটি সিমুলেশন করুন 1. আইট্রেশন 3 : সরানো 1 বাছুন কারণ এটির সর্বোচ্চ সম্ভাবনা রয়েছে। সরানো 1 থেকে একটি সিমুলেশন করুন।

এখন, আমরা পুনরাবৃত্তি 4 এ চলেছি যদিও মুভ 1 এর উচ্চতর আনুমানিক সম্ভাবনা রয়েছে তবে মুভ 2 এর সন্ধান করা হয়নি (কাগজে "কম ভিজিট কাউন্ট"), এখন আলফাজিরো 2 টি পদক্ষেপ বেছে নেবে এবং সিমুলেশন করবে।

উভয় পদক্ষেপ বিবেচনা করা হবে, কিন্তু আলফাজেরো মুভিতে আরও ভাল কম্পিউটিং সংস্থান স্থাপন করবে (ভাল জিনিস)।

এরপরে আলফাজিরো সেরা প্রত্যাশিত ফলাফল সহ পদক্ষেপটি বেছে নেবে।

------------------ তোমার প্রশ্নগুলো: ------------------

মেশিন লার্নিং পদ্ধতি দ্বারা প্রশিক্ষিত, আলফাজিরো যে মূল্যায়ন ফাংশনটি ব্যবহার করে, সেগুলি কি আর কি আর এক মূলত মূল্যবান মূল্যায়ন ফাংশন নয়?

প্রশিক্ষিত মূল্যায়ন ফাংশন একটি গভীর স্নায়বিক নেটওয়ার্ক, এটি স্টকফিশে আপনি যা দেখেন তার মতো এটি হিউরিস্টিক নিয়মের সেট নয় । প্রশিক্ষিত নেটওয়ার্ক সম্পর্কে কেউ (এমনকি গুগল দলও নয়) পুরোপুরি বুঝতে পারে না, এটি কেবল কাজ করে। এনএন সাধারণত এইভাবে কাজ করে।

আলফায়েজের জন্য, লক্ষ্য মূল্যায়ন ফাংশনটি নিয়মিতভাবে অতিরিক্ত প্রশিক্ষণের মাধ্যমে পুনরায় সংজ্ঞায়িত করা হচ্ছে।

আলফাজিরোর মূল্যায়ন কার্যটি প্রশিক্ষিত নিউরনগুলির একটি সেট (বায়াস + ওয়েট)। গুগল দল পরামিতিগুলি প্রশিক্ষণের জন্য খুব শক্তিশালী মেশিন ব্যবহার করেছিল। সাধারণত, গভীর শিক্ষার মডেলকে প্রশিক্ষণের জন্য আপনি যত বেশি সংস্থান বিনিয়োগ করতে পারবেন, তত উন্নত প্যারামিটার আপনি পাবেন।

(2)।

স্টকফিশ আলফা-বিটা ব্যবহার করে, অন্যদিকে আলফাজারো মন্টে-কার্লো ব্যবহার করে। এগুলি দুটি খুব আলাদা অ্যালগরিদম ith আলফা-বিটা অ্যালগোরিদম একটি নিম্ন / উপরের গণ্ডিকে ধরে নেয়, যখন মন্টে-কার্লো মূল থেকে পাতায় সিমুলেশন তৈরি করে।

সমস্ত অবস্থানের অন্বেষণ করা হয়েছে, সুতরাং স্ব-খেলার মাধ্যমে স্থানের সামান্য অংশের সম্ভাব্য সামান্য অংশকে সম্ভাব্যভাবে সন্ধান করা সত্ত্বেও শেষ ফলাফলটি কীভাবে ভাল হতে পারে? এখানে খেলার মূল ধারণাটি কী?

গুগল দাবি করেনি যে তারা দাবা সমাধান করেছে, এমনকি তাদের শক্তিশালী মেশিনগুলি সম্ভবত সমস্ত দাবা অবস্থানগুলি গণনা করতে পারে না। তবে তাদের দরকার নেই ... এটি মেশিন লার্নিংয়ের মূল বিষয়, মডেলটি প্রশিক্ষণ সেট থেকে "শিখেছে"। এই ক্ষেত্রে, প্রশিক্ষণ সেট স্ব-খেলনা থেকে আসে। মূল ধারণাটি হ'ল যথাসম্ভব এবং দ্রুত নিজের বিরুদ্ধে যতগুলি ভাল মানের গেম খেলানো।

উদাহরণস্বরূপ, যখন এটি 5 গেমটিতে বিজি 5 নড়াচড়াটি খেলল, প্রশিক্ষণের সময় এটি অবশ্যই একটি অনুরূপ কাঠামো অন্বেষণ করেছে,

আমি মনে করি না যে ট্রেনিং গেমগুলিতে আলফাজেরো ঠিক একই অবস্থানের মুখোমুখি হয়েছিল। আমি মনে করি মন্টে-কার্লোর দ্রুত পড়া ভাল ধারণা:

https://chessprogramming.wikispaces.com/Monte-Carlo+Tree+Search

আলফাজেরো যথেষ্ট গভীরতায় পৌঁছে চালটি খেলতে সক্ষম হয়েছিল। অ্যালগরিদম প্রতিটি পদক্ষেপের জন্য জয়ের প্রত্যাশিত সম্ভাবনা অনুমান করে, দৃশ্যত, সরানো বিজি 5 সর্বাধিক প্রত্যাশিত সম্ভাবনা দিয়েছে।

আপনি যেমন ভাবতে পারেন, আলফাগো এত ভাল অনুসন্ধান করতে সক্ষম হয়েছিল যে দেখেছিল বিজির সম্ভাবনা বিজি 5 এর পরে সর্বোচ্চ, এবং স্টকফিশ এই পদক্ষেপটিকে গুরুত্বের সাথে বিবেচনা করেনি (এবং এভাবে হেরে গেছে)।


2
"গুগলের অস্তিত্বের আগে মন্টে কার্লো ট্রি অনুসন্ধান সাহিত্যে ছিল" আমি কেবল
২০০CT-এর

2
@ কোডসআইএনচাউস এমসিটিএস কোনও নতুন কৌশল নয়। গুগল অবশ্যই মন্টি কার্লো আবিষ্কার করেনি।
স্মলচেস

4
ব্রাজম্যান 1993 স্পষ্টতই কেবলমাত্র এমসি। এমসি গো দেব। (2003) এমসি এবং গাছগুলিকে একত্রিত করে তবে আদিম উপায়ে। চ্যাং (২০০৫) বেশ কাছাকাছি, তবে ভিন্ন প্রসঙ্গে এবং আমার ধারণা, অনুমানের প্রসারণ ও প্রচারের জন্য নোডের এখনও সঠিক পছন্দের অভাব রয়েছে। এমসিটিএস রেমি কুলম (2006) এ দক্ষ নির্বাচন এবং ব্যাকআপ অপারেটরগুলি যথাযথ এমসিটিএস, যতদূর আমি বলতে পারি, প্রথমটি।
কোডসইনচওস

1
@ স্মলচেস আপনার উত্তরের অংশগুলি পরস্পরবিরোধী বলে মনে হচ্ছে: "এখন আলফাজেরো 2 টি পদক্ষেপ বেছে নেবে এবং সিমুলেশন করবে do উভয় পদক্ষেপ বিবেচনা করা হবে, তবে আলফাজেরো 1 টি (ভাল জিনিস) তে আরও কম্পিউটিং সংস্থান স্থাপন করবে।" বিবৃতিটির বিপরীতে প্রতিটি সিমুলেশন প্রতিটি রাজ্যে নির্বাচন করে এগিয়ে যায় এবং কম ভিজিট গণনা সহ একটি পদক্ষেপ নিয়ে যান ... যেমন আপনার উদাহরণ হিসাবে এটি 1 এর চেয়ে 2 হবে 2 সত্য কথা বলতে কি কাগজটির জন্য দরকারী তথ্যের কোনও অংশ থাকে না তারা বুঝতে পারে যেহেতু তারা পরীক্ষার পুনরুত্পাদন করার উপায় বা নেটওয়ার্ককে প্রশিক্ষণের প্রকৃত উপায় সম্পর্কে কোনও অন্তর্দৃষ্টি দেয় না show
জেনেটে

1
তারা যা করে তা মূলত "আমরা অ্যালগোরিদম এক্স ব্যবহার করেছিলাম এবং এটি কাজ করে" উল্লেখ করে - যা পদ্ধতিগুলি নিজেই বোঝার সামান্য পরিমাণ সরবরাহ করে, তাই সত্যিকার অর্থে এটি কী করে তা বের করার চেষ্টা করার জন্য আমি কাগজের উপর খুব বেশি মনোনিবেশ করব না।
জেনেটে

0

আমি অনুমান করি যে আমার প্রশ্নটি হবে যে নিউরাল নেটটি এমন একটি অবস্থার মুখোমুখি হয়নি যেখানে কী করা উচিত "শেখায়"। প্রকৃত এজেড বলতে প্রশিক্ষিত নিউরাল নেট থেকে বায়াস + ওজন ব্যবহার করে একটি এমসিটিএস কার্যকর করে কেবল নিউরাল নেট কীভাবে এই মানগুলি গণনা করে তার এক ধাপ পিছনে ফেলে দেয়। যদি এটি কোনও মানুষের জ্ঞান না রেখে এলোমেলো স্ব-খেলার মধ্য দিয়ে হয়, তবে এটি কখনই কোনও অবস্থানের ওজন কীভাবে করবেন তা কীভাবে সিদ্ধান্ত নেবে?


1
আমি মনে করি আমি আপনাকে উত্তর দিতে সক্ষম হতে পারে, কিন্তু এখানে না। একটি নতুন প্রশ্ন শুরু করুন।
স্মার্টচিস

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.