আলফাগো জিরোর "উপন্যাস পুনর্বহাল শেখার অ্যালগরিদম" কী?


10

কিছু কারণে অ্যালফাগো জিরো অবিশ্বাস্য ফলাফল সত্ত্বেও আসল আলফাগোর মতো প্রচার পাচ্ছে না। স্ক্র্যাচ থেকে শুরু করে, এটি ইতিমধ্যে আলফাগো মাস্টারকে পরাজিত করেছে এবং অন্যান্য অনেক মানদণ্ড পেরিয়েছে। আরও অবিশ্বাস্যভাবে, এটি 40 দিনের মধ্যে এটি হয়ে গেছে। গুগল এর নাম দিয়েছে "যুক্তিযুক্তভাবে বিশ্বের সেরা গো খেলোয়াড়"

ডিপমাইন্ড দাবি করেছেন যে এটি "রিইনফোর্সমেন্ট লার্নিংয়ের অভিনব রূপ" - এই কৌশলটি কি সত্যই উপন্যাস? অথবা এই কৌশলটি ব্যবহার করার সময় অন্য সময় হয়েছে- এবং যদি তা হয়, তবে তাদের ফলাফলগুলি কী হয়েছিল? আমি মনে করি যে প্রয়োজনীয়তাগুলি আমি বলছি তা হ'ল 1) কোনও মানুষের হস্তক্ষেপ এবং 2) কোনও historicalতিহাসিক নাটক, তবে এগুলি নমনীয়।

এটি একটি অনুরূপ প্রশ্ন হিসাবে উপস্থিত বলে মনে হচ্ছে, তবে সমস্ত উত্তরগুলি এই ধরণের থেকেই মনে হয় যে আলফাগো জিরো তার ধরণের প্রথম।


শক্তিবৃদ্ধি শেখা নতুন নয়। গুগল কোন কৌশলগুলি দাবি করেছিল যে তারা প্রথম?
হ্যালো ওয়ার্ল্ড

লিঙ্কযুক্ত ওয়েবসাইটে এটি সম্পর্কে একটি উক্তি রয়েছে, এবং নিবন্ধে তারা "আলফাগো জিরোর নিউরাল নেটওয়ার্ক একটি উপন্যাস পুনর্বহাল শেখার অ্যালগরিদম দ্বারা স্ব-খেলার গেমগুলি থেকে প্রশিক্ষিত হয়েছে" এই বাক্যাংশটি ব্যবহার করে।
দুবুকয়ে

1
স্ব-খেলানো অবশ্যই নতুন নয়। এটি গুগলের আগে বিদ্যমান ছিল। তাদের অ্যালগরিদমে বিশদ রয়েছে যা তাদের "উপন্যাস" করে তোলে। অন্য কেউ উত্তর দিতে পারে।
হ্যালো ওয়ার্ল্ড

2
আমি বুঝতে পেরেছি - আমি অনুমান করি যে আমি তাদের পদ্ধতির এতটাই অবিশ্বাস্যরূপে কী করেছিলাম তা বোঝার চেষ্টা করছি এবং এটি অন্য কোনও ক্ষেত্রে আমাদের দেখার আশা করা উচিত কিনা। এটি কি নতুন দর্শন বা সত্যই ভাল কোড?
দুবুকয়ে

1
আমি এখানে একটি কাগজের কপি পাওয়া যায়নি: nature.com/articles/... (ভাগ অ্যাক্সেস টোকেন, যা ব্লগ থেকে যে লিঙ্ক এটি, তাই এটি পাঠ্য সর্বজনীন ভাগ AFAICS হয় ক্ষেত্রেও প্রযোজ্য)। এমনকি বর্ণনাটি পড়ার পরেও যদিও আসল অভিনবত্বটি বেছে নেওয়া শক্ত - সমস্ত ব্যক্তিগত ধারণাটি বিদ্যমান-বিদ্যমান আরএল / গেম-খেলার কৌশলগুলি বলে মনে হয়, এটি কেবল উপন্যাসের মধ্যে তাদের নির্দিষ্ট সংমিশ্রণ হতে পারে
নীল স্লটার

উত্তর:


6

AlphaGo জিরো থেকে নিবন্ধ নেচার , "মানুষের জ্ঞান ছাড়া যেতে খেলা নিয়ন্ত্রণ", দাবী পূর্ববর্তী সংস্করণ থেকে চারটি পার্থক্য:

  1. কেবলমাত্র স্ব-শেখা (মানব গেমগুলির উপর প্রশিক্ষিত নয়)
  2. কেবল বোর্ড এবং পাথরগুলিকে ইনপুট হিসাবে ব্যবহার করুন (কোনও হাতে লিখিত বৈশিষ্ট্য নেই)।
  3. নীতি এবং মানগুলির জন্য একটি একক নিউরাল নেটওয়ার্ক ব্যবহার করা
  4. একটি নতুন ট্রি-অনুসন্ধান অ্যালগরিদম যা ভাল পদক্ষেপের জন্য কোথায় সন্ধান করতে হবে গাইড করতে এই সম্মিলিত নীতি / মান নেটওয়ার্ক ব্যবহার করে।

পয়েন্টস (1) এবং (2) শক্তিবৃদ্ধি শেখার ক্ষেত্রে নতুন নয়, তবে আপনার প্রশ্নের মন্তব্যে বর্ণিত পূর্ববর্তী আলফাগো সফ্টওয়্যারটির উন্নতি করুন । এর অর্থ হ'ল তারা এখন এলোমেলোভাবে প্রাথমিকভাবে ওজন থেকে শুরু করে খাঁটি পুনর্বহাল শেখা ব্যবহার করছে। এটি আরও ভাল, দ্রুত শেখার অ্যালগরিদম দ্বারা সক্ষম করা হয়েছে।

তাদের দাবি এখানে "আমাদের প্রাথমিক অবদান হ'ল মানব ডোমেন জ্ঞান ছাড়াই অতিমানবীয় পারফরম্যান্স অর্জন করা যায় তা প্রদর্শন করা" " (পৃষ্ঠা 22)।

পয়েন্টগুলি (3) এবং (4) এই অর্থে উপন্যাস যে তাদের অ্যালগোরিদম তাদের পূর্ববর্তী পদ্ধতির চেয়ে সহজ এবং সাধারণ। তারা আরও উল্লেখ করেছেন যে গুও এট আল-এর আগের কাজের উন্নতি is

নীতি / মান নেটওয়ার্ক (3) একীকরণ তাদের মন্টে-কার্লো ট্রি অনুসন্ধানের আরও কার্যকর রূপটি কার্যকর করতে সক্ষম করে যাতে ভাল গতি সন্ধান করতে এবং একই সাথে দ্রুত প্রশিক্ষণের জন্য অনুসন্ধান গাছ ব্যবহার করে (4)। এটি খুব শক্তিশালী।

তদুপরি, তারা ব্যাচিং এবং ডেটা-স্ট্রাকচারগুলি পুনরায় ব্যবহারের মতো নতুন আকর্ষণীয় অনুসন্ধানের জন্য অনুসন্ধানের অনুকূলকরণের জন্য আকর্ষণীয় প্রয়োগের অনেকগুলি বিবরণ বর্ণনা করে।

প্রভাবটি হ'ল এর জন্য কম কম্পিউটারিং শক্তি প্রয়োজন, তাদের সফ্টওয়্যারটির পূর্ববর্তী সংস্করণগুলির জন্য 176 জিপিইউ এবং 48 টিপিইউগুলির পরিবর্তে 4 টিপিইউতে চলছে।

এটি অবশ্যই সফ্টওয়্যার প্রসঙ্গে এটি "উপন্যাস" করে তোলে। আমি বিশ্বাস করি যে (3) এবং (4) একটি বিস্তৃত প্রসঙ্গে "উপন্যাস" এবং এটি অন্যান্য শক্তিবৃদ্ধি লার্নিং ডোমেন যেমন যেমন রোবোটিকের ক্ষেত্রেও কার্যকর হবে।


আমি মনে করি (4) ডেভিড সিলভারের বক্তৃতায় - ক্লাসিক গেমসের 10 টি বক্তৃতা - এর মধ্যে অনেকগুলি বিদ্যমান ক্ষেত্রে এমসিটিএস ইতিমধ্যে প্রশিক্ষিত এমএল দ্বারা পরিচালিত হয়েছে all আলফাগো জিরোর ক্ষেত্রে, এটি চারপাশে উল্টে গেছে এবং এমসিটিএস-এর ফলাফল এমএল জন্য শিক্ষার লক্ষ্য নির্ধারণ করতে ব্যবহৃত হয়। যাইহোক, যে বিষয়টি আমাকে আশ্চর্য করে তোলে এটি সত্যই "উপন্যাস" কিনা তা বক্তৃতাটিতে উল্লিখিত কেবলমাত্র করার সম্ভাবনা। । ।
নিল স্লেটার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.