মানব ডাটাবেস ছাড়াই আলফাগো (এবং অন্যান্য গেম প্রোগ্রামগুলি পুনর্বহালকরণ-শেখার সাহায্যে) ব্যবহার করে

13

আমি বিষয়টির বিশেষজ্ঞ নই, এবং আমার প্রশ্ন সম্ভবত খুব নিষ্পাপ। আলফাগো প্রোগ্রামে ব্যবহৃত শক্তিবৃদ্ধি শেখার ক্ষমতা এবং সীমাবদ্ধতা বোঝার জন্য এটি একটি প্রবন্ধ থেকে উদ্ভূত হয়েছে।

আলফাগো প্রোগ্রামটি অন্যান্য জিনিসগুলির মধ্যে (গাছের মন্টি-কার্লো এক্সপ্লোরেশন ইত্যাদি) ব্যবহার করে তৈরি করা হয়েছে, নিউরাল নেটওয়ার্কগুলি যা মানব-খেলানো গো গেমগুলির একটি বিশাল ডাটাবেস থেকে প্রশিক্ষিত হয় এবং যা এরপরে সংস্করণগুলি খেলার মাধ্যমে আরও শক্তিশালী করা হয় The নিজেকে বিরুদ্ধে বহুবার প্রোগ্রাম।

এখন আমি ভাবছি কি হবে আমরা মানব ডেটাবেস ছাড়াই এই জাতীয় একটি প্রোগ্রাম তৈরি করার চেষ্টা করেছি, অর্থাত্ বৃক্ষগুলি অন্বেষণ করার নিয়ম এবং কিছু পদ্ধতি জানা এবং গোপনীয়তার নিউরাল নেটওয়ার্কের উন্নতি করার জন্য নিজের বিরুদ্ধে খেলতে দেওয়ার একটি প্রাথমিক প্রোগ্রাম দিয়ে শুরু করা। আমরা কি নিজের বিরুদ্ধে অনেক খেলা করার পরে, এমন কোনও প্রোগ্রামে পৌঁছে যাব যা সেরা মানব খেলোয়াড়দের সাথে প্রতিযোগিতা করতে বা পরাজিত করতে সক্ষম? এবং যদি তা হয় তবে এর জন্য কতগুলি গেমের (মাত্রার ক্রমে) প্রয়োজন হবে? বা বিপরীতে, এই জাতীয় প্রোগ্রামটি কি অনেক দুর্বল খেলোয়াড়ের দিকে রূপান্তরিত করবে?

আমি ধরে নিয়েছি যে আলফাগো এত সাম্প্রতিক হওয়ায় পরীক্ষাটি করা হয়নি। তবে উত্তরটি কোনও বিশেষজ্ঞের কাছে সুস্পষ্ট হতে পারে। অন্যথায় কোনও শিক্ষিত অনুমানই আমাকে আগ্রহী করবে।

"সরল" গেমগুলির জন্যও একই প্রশ্ন জিজ্ঞাসা করা যেতে পারে। যদি আমরা আলফাগো-র জন্য প্রায় একইভাবে পুনর্বহালনের-শেখার প্রযুক্তিগুলি ব্যবহার করি তবে মানবিক ডাটাবেস ব্যবহার না করে, দাবা প্রোগ্রামের জন্য, আমরা কি শেষ পর্যন্ত একটি সেরা প্রোগ্রামকে সেরা মানুষকে পরাতে সক্ষম একটি প্রোগ্রাম পাব? এবং যদি তাই হয়, কত দ্রুত? এটি চেষ্টা করা হয়েছে? বা যদি দাবা নয়, তবে চেকার্স, বা আরও সহজ গেমগুলির কী হবে?

অনেক ধন্যবাদ.

reinforcement-learning

— জোএল
সূত্র

10

আমি কোনও বিশেষজ্ঞ নই তবে দেখে মনে হচ্ছে আলফাগো জিরো আপনার প্রশ্নের উত্তর দেয়। https://deepmind.com/blog/alphago-zero-learning-scratch/

আলফাগো এর পূর্ববর্তী সংস্করণগুলি গো কীভাবে খেলতে হয় তা শিখতে প্রাথমিকভাবে হাজার হাজার মানব অপেশাদার এবং পেশাদার গেমগুলিতে প্রশিক্ষণ নিয়েছিল। আলফাগো জিরো এই পদক্ষেপটি এড়িয়ে যায় এবং সম্পূর্ণ এলোমেলো খেলা থেকে শুরু করে কেবল নিজের বিরুদ্ধে গেমস খেলতে শিখেছে। এটি করার সাথে সাথে এটি মানব খেলার স্তরটি দ্রুত ছাড়িয়ে গেছে এবং আলফাগো এর আগের প্রকাশিত চ্যাম্পিয়ন-পরাজিত সংস্করণকে 100 গেম দ্বারা 0 এ পরাজিত করেছে।

— গেব
সূত্র

এটি কি আরও সাম্প্রতিক?

— kosmos

1

এটি 18 ই অক্টোবর, 2017 প্রকাশিত হয়েছিল।

— ncasas

মানুষের বিরুদ্ধে ফলাফল জানা আকর্ষণীয় হবে। কারণ প্রাক প্রশিক্ষিত মানব ডাটাবেসের একটি কারণ হ'ল মানব বিরোধীদের বিরুদ্ধে এমসিটিএস অ্যালগরিদমকে পরিমার্জন করা । আসল আলফাগো অন্যান্য এমএল নয়, বনাম মানব খেলতে অনুকূলিত হয়েছিল। যেমন আলফাগো জিরো মূল আলফাগোর চেয়ে কঠোরভাবে "আরও ভাল" কিনা তা বলা শক্ত, বা কেবল গেমের তত্ত্বের অর্থে এটি আধিপত্য বিস্তার করে - যেমন আলফাগো জিরো আলফাগো জিতেছে লি শেডলকে আলফাগো জিরোকে পরাজিত করে। । ।

— নিল স্লেটার

4

নীল, হ্যাঁ এটি আকর্ষণীয় হবে। তবে আমি আলফা গো শূন্যের বিপরীতে মানব সম্ভাবনার এক শতাংশও বাজি ধরব না।

— জোল

1

Q

$Q$

9

একই প্রশ্ন আলফাগো কাগজের লেখকের কাছে জিজ্ঞাসা করা হয়েছিল এবং তার উত্তর ছিল আলফাগো স্ক্র্যাচ থেকে শিখলে কী ঘটবে তা আমরা জানি না (তারা এটি পরীক্ষা করে না)।

যাইহোক, গেমটির জটিলতাটি দেখে পূর্বের অজান্তেই স্ক্র্যাচ থেকে অ্যালগোরিদমকে প্রশিক্ষণ দেওয়া একটি কঠিন কাজ হবে। সুতরাং, এটি মানুষের দ্বারা অর্জিত জ্ঞানকে ব্যবহার করে একটি মাস্টার পর্যায়ে উন্নীত করে এ জাতীয় ব্যবস্থা তৈরি শুরু করা যুক্তিযুক্ত।

এটি লক্ষণীয় যে, যদিও গাছের নোডগুলিতে (রাজ্যগুলি) ক্রিয়া নির্বাচনের পক্ষপাতিত্ব মানব চলাচল করে তবে এই পূর্বে একটি ক্ষয় কারণ রয়েছে। এর অর্থ একটি নির্দিষ্ট রাজ্যে পরিদর্শন বাড়ানো, অ্যালগরিদমকে অন্বেষণ করতে উত্সাহ দেওয়ার পূর্বে শক্তি কমিয়ে দেয়।

আলফাগোর মাস্টারির বর্তমান স্তরটি অবিশ্বাস্যরূপে এটি মানুষের খেলার খেলার কাছাকাছি বা কতটা দূরে (টুর্নামেন্টে এটি এমন একটি পদক্ষেপ নিয়েছিল যা একজন মানুষের প্রায় সম্পাদনের প্রায় শূন্যতার সম্ভাবনা ছিল! - তবে সমানভাবে কিছু খারাপ পদক্ষেপও করেছিল) । সম্ভবত এটি সম্পর্কিত পরীক্ষার অ্যালগরিদমগুলি বাস্তবায়নের মাধ্যমে এই সমস্ত প্রশ্নের উত্তর দেওয়া বাকি রয়েছে।

ডিপমাইন্ডের সাম্প্রতিক কাগজটি আপনার প্রশ্নের উত্তর দেওয়ার সাথে সাথে আমার উত্তরটি সম্পাদনা করার I ণী । আলফাগো এর প্রথম সংস্করণ সহ পুরো পূর্বের অভিজ্ঞতা থেকে প্রচুর অগ্রগতি হয়েছিল এবং এটি পড়ার পক্ষে এটি সত্য।

— Constantinos
সূত্র

আপনাকে স্বাগত জানাই :)

— কনস্টান্টিনো

8

আমি যতদূর আল্ফাগোর অ্যালগরিদম বুঝতে পেরেছি, এটি সেরা ক্রিয়াগুলি নির্বাচন করতে মন্টে-কার্লো ট্রি অনুসন্ধান ব্যবহার করে একটি সাধারণ রিইনফোর্সমেন্ট লার্নিং (আরএল) কাঠামোর উপর ভিত্তি করে তৈরি। এর শীর্ষে, আরএল অ্যালগরিদমের দ্বারা আচ্ছাদিত রাজ্যগুলি এবং ক্রিয়াগুলি কেবল গেমের সম্পূর্ণ সম্ভাব্য কনফিগারেশন নয় (গো এর একটি বিশাল জটিলতা রয়েছে) তবে নীতি নেটওয়ার্ক এবং একটি মান নেটওয়ার্কের উপর ভিত্তি করে, বাস্তব গেমগুলি থেকে শিখেছে এবং তারপরে AlphaGo বনাম AlphaGo গেম খেলে উন্নতি হয়েছে।

তাহলে আমরা ভাবতে পারি যে সত্যিকারের গেমগুলির প্রশিক্ষণ সময় বাঁচানোর জন্য কেবল একটি শর্টকাট বা এই জাতীয় দক্ষতা অর্জনের জন্য প্রয়োজনীয় বিকল্প। আমি অনুমান করি সত্যিই উত্তরটি কেউ জানে না, তবে আমরা কিছু অনুমানের কথা বলতে পারি। প্রথমত, সরল স্নায়ু জালের চেয়ে জটিল জটিল বুদ্ধির কারণে ভাল পদক্ষেপের প্রচারের মানুষের ক্ষমতা। বোর্ড গেমসের জন্য, এটি মেমরি, অভিজ্ঞতা, যুক্তি এবং অনুভূতির মধ্যে একটি মিশ্রণ। এই দিকটিতে, আমি নিশ্চিত নই যে গো গেমের পুরো কনফিগারেশন (যা কার্যত অসম্ভব) এর বিশাল শতাংশকে স্পষ্টভাবে অন্বেষণ না করে আলফাগো অ্যালগরিদম এমন একটি মডেল তৈরি করতে পারে। বর্তমান গবেষণাগুলি রিলেশনাল আরএল বা ইনডাকটিভ লজিক শেখার মতো এ জাতীয় গেমটির আরও জটিল প্রতিনিধিত্ব গড়ে তোলার দিকে মনোনিবেশ করে। তারপরে আরও সহজ গেমসের জন্য (দাবা হতে পারে তবে কিছুই নিশ্চিত নয়),

এখনও এটি একটি মতামত। তবে আমি নিশ্চিত যে আপনার প্রশ্নের জবাব দেওয়ার কীটি আরএল পদ্ধতির মধ্যে রয়েছে যা আজকাল জ্ঞানের দিক থেকে বেশ সহজ। আমরা এই গেমগুলি কীভাবে পরিচালনা করতে সক্ষম করেছিলাম তা আমরা সত্যই সনাক্ত করতে পারছি না এবং মানুষকে পরাস্ত করার আগ পর্যন্ত আমরা খুঁজে পেলাম সেরা উপায় হ'ল মোটামুটি তাঁর কাছ থেকে শেখা, এবং বিশাল গণনা সহ শিখানো মডেলটিকে (কিছুটা) উন্নত করা।

— পক্ষীবিশেষ
সূত্র

1

জটিল, আংশিকভাবে পর্যবেক্ষণ করা পরিবেশের জন্য মানব ডেটাবেস ছাড়াই প্রতিযোগিতামূলক স্ব-খেলা এমনকি সম্ভব। ওপেনএআই এই দিকে মনোনিবেশ করছে। এই নিবন্ধ অনুযায়ী :

স্ব-খেল নিশ্চিত করে যে পরিবেশের উন্নতির জন্য পরিবেশ সর্বদা সঠিক সমস্যা।

এটি স্ব-খেলায় সাফল্যের একটি গুরুত্বপূর্ণ কারণ।

ওপেনএআইআই 11 শে আগস্ট 2017 এ দোতা 2 1v1 এর জন্য অতিমানবীয় ফলাফল অর্জন করেছে, স্ট্যান্ডার্ড টুর্নামেন্টের নিয়মের অধীনে দেন্ডিকে ২-০ গোলে পরাজিত করেছে ।

বট স্ব-খেলায় স্ক্র্যাচ থেকে গেমটি শিখেছে এবং অনুকরণ শেখার বা গাছের সন্ধান ব্যবহার করে না। এটি এআই সিস্টেম তৈরির দিকে একটি পদক্ষেপ যা সত্যিকারের মানুষগুলিকে জড়িত জটিল পরিস্থিতিতে জটিল সংজ্ঞা প্রদান করে well

কেবল গেমস নয়, এই দিকটি রোবোটিক্সের কাজের জন্যও প্রতিশ্রুতিবদ্ধ।

আমরা খুঁজে পেয়েছি যে স্ব-খেলাটি অনুকরণযুক্ত এআইগুলিকে বলের জন্য দক্ষতার সাথে স্পষ্টভাবে পরিবেশের নকশা তৈরি না করে, মোকাবেলা, হাঁস, কৌতুক, লাথি, ধরা, এবং বলের জন্য ডাইভিংয়ের মতো শারীরিক দক্ষতা আবিষ্কার করতে দেয়।

পরবর্তী পদক্ষেপে, তারা কেবল স্ব-খেলায় সীমাবদ্ধ নয় , কীভাবে সহযোগিতা, প্রতিযোগিতা এবং যোগাযোগ করবেন তা শিখতে পদ্ধতিটি প্রসারিত করে ।

— TQA
সূত্র