AlphaGo জিরো থেকে নিবন্ধ নেচার , "মানুষের জ্ঞান ছাড়া যেতে খেলা নিয়ন্ত্রণ", দাবী পূর্ববর্তী সংস্করণ থেকে চারটি পার্থক্য:
- কেবলমাত্র স্ব-শেখা (মানব গেমগুলির উপর প্রশিক্ষিত নয়)
- কেবল বোর্ড এবং পাথরগুলিকে ইনপুট হিসাবে ব্যবহার করুন (কোনও হাতে লিখিত বৈশিষ্ট্য নেই)।
- নীতি এবং মানগুলির জন্য একটি একক নিউরাল নেটওয়ার্ক ব্যবহার করা
- একটি নতুন ট্রি-অনুসন্ধান অ্যালগরিদম যা ভাল পদক্ষেপের জন্য কোথায় সন্ধান করতে হবে গাইড করতে এই সম্মিলিত নীতি / মান নেটওয়ার্ক ব্যবহার করে।
পয়েন্টস (1) এবং (2) শক্তিবৃদ্ধি শেখার ক্ষেত্রে নতুন নয়, তবে আপনার প্রশ্নের মন্তব্যে বর্ণিত পূর্ববর্তী আলফাগো সফ্টওয়্যারটির উন্নতি করুন । এর অর্থ হ'ল তারা এখন এলোমেলোভাবে প্রাথমিকভাবে ওজন থেকে শুরু করে খাঁটি পুনর্বহাল শেখা ব্যবহার করছে। এটি আরও ভাল, দ্রুত শেখার অ্যালগরিদম দ্বারা সক্ষম করা হয়েছে।
তাদের দাবি এখানে "আমাদের প্রাথমিক অবদান হ'ল মানব ডোমেন জ্ঞান ছাড়াই অতিমানবীয় পারফরম্যান্স অর্জন করা যায় তা প্রদর্শন করা" " (পৃষ্ঠা 22)।
পয়েন্টগুলি (3) এবং (4) এই অর্থে উপন্যাস যে তাদের অ্যালগোরিদম তাদের পূর্ববর্তী পদ্ধতির চেয়ে সহজ এবং সাধারণ। তারা আরও উল্লেখ করেছেন যে গুও এট আল-এর আগের কাজের উন্নতি is
নীতি / মান নেটওয়ার্ক (3) একীকরণ তাদের মন্টে-কার্লো ট্রি অনুসন্ধানের আরও কার্যকর রূপটি কার্যকর করতে সক্ষম করে যাতে ভাল গতি সন্ধান করতে এবং একই সাথে দ্রুত প্রশিক্ষণের জন্য অনুসন্ধান গাছ ব্যবহার করে (4)। এটি খুব শক্তিশালী।
তদুপরি, তারা ব্যাচিং এবং ডেটা-স্ট্রাকচারগুলি পুনরায় ব্যবহারের মতো নতুন আকর্ষণীয় অনুসন্ধানের জন্য অনুসন্ধানের অনুকূলকরণের জন্য আকর্ষণীয় প্রয়োগের অনেকগুলি বিবরণ বর্ণনা করে।
প্রভাবটি হ'ল এর জন্য কম কম্পিউটারিং শক্তি প্রয়োজন, তাদের সফ্টওয়্যারটির পূর্ববর্তী সংস্করণগুলির জন্য 176 জিপিইউ এবং 48 টিপিইউগুলির পরিবর্তে 4 টিপিইউতে চলছে।
এটি অবশ্যই সফ্টওয়্যার প্রসঙ্গে এটি "উপন্যাস" করে তোলে। আমি বিশ্বাস করি যে (3) এবং (4) একটি বিস্তৃত প্রসঙ্গে "উপন্যাস" এবং এটি অন্যান্য শক্তিবৃদ্ধি লার্নিং ডোমেন যেমন যেমন রোবোটিকের ক্ষেত্রেও কার্যকর হবে।