ডিপমাইন্ডের ডি কিউএন আতারি গেমটি একসাথে শেখা ছিল?


9

ডিপমাইন্ড জানিয়েছে যে তাদের গভীর কিউ-নেটওয়ার্ক (ডিকিউএন) 49 আটারি গেম খেলতে শিখতে গিয়ে ক্রমাগতভাবে তার আচরণকে মানিয়ে নিতে সক্ষম হয়েছিল।

একই নিউরাল নেট দিয়ে সমস্ত গেমস শিখার পরে, এজেন্ট কি সেগুলি একই সাথে 'অতিমানবিক' পর্যায়ে খেলতে সক্ষম হয়েছিলেন (যখনই এটি এলোমেলোভাবে একটি গেমের সাথে উপস্থাপন করা হত) বা এটি কেবল একবারে একটি খেলায় ভাল হতে পারে কারণ স্যুইচিং একটি পুনরায় শেখার প্রয়োজন?


"একই নিউরাল নেট দিয়ে সমস্ত গেম শিখার পরে"। এর অর্থ কি একই এনএন আর্কিটেকচার বা একই আর্কিটেকচার এবং ওজনের একক সেট?
অঙ্কুর

@ অঙ্কুর আসলে আমি নিশ্চিত নই - এটি আমার (সীমাবদ্ধ) বোঝার ফলে তারা একই আর্কিটেকচার ব্যবহার করেছে এবং গেমসের মধ্যে ওজন পুনরায় সেট করেনি।
Dion

উত্তর:


2

স্যুইচিংয়ের জন্য পুনরায় শিখতে হবে।

এছাড়াও, নোট করুন :

আমরা সাতটি গেম জুড়ে অ্যালগরিদম এবং হাইপারপ্যারামিটারের সেটিংস শিখতে একই নেটওয়ার্ক আর্কিটেকচার ব্যবহার করি, এটি দেখায় যে আমাদের দৃষ্টিভঙ্গি গেম-নির্দিষ্ট তথ্য অন্তর্ভুক্ত না করে বিভিন্ন গেমগুলিতে কাজ করার পক্ষে যথেষ্ট শক্তিশালী। আমরা যখন আমাদের এজেন্টগুলিকে আসল এবং অযাচিত গেমস সম্পর্কে মূল্যায়ন করেছি, আমরা কেবল প্রশিক্ষণের সময় গেমসের পুরষ্কার কাঠামোয় একটি পরিবর্তন করেছি।

এবং

নেটওয়ার্কটি সাতটি গেমের মধ্যে ছয়টিতে পূর্ববর্তী সমস্ত আরএল অ্যালগরিদমকে ছাড়িয়ে গেছে যার মধ্যে একটি বিশেষজ্ঞ মানব খেলোয়াড়কে আমরা তিনটিতে ছাড়িয়েছি।


1

স্যুইচিংয়ে পুনরায় বিদ্যুতায়ন প্রয়োজন, নেটওয়ার্কের ওজনগুলির একটিও সেট নেই যা এটি সমস্ত গেম ভালভাবে খেলতে দেয়। এটি বিপর্যয় ভুলে যাওয়ার সমস্যার কারণে।

তবে এই সমস্যাটি কাটিয়ে উঠতে সাম্প্রতিক কাজ করা হয়েছে:

"নিউরাল নেটওয়ার্কগুলিতে বিপর্যয় ভুলে যাওয়া কাটিয়ে ওঠা", ২০১।

কাগজ: https://arxiv.org/pdf/1612.00796v1.pdf

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.