উত্তর:
থেকে ডীপ স্ট্যাক কাগজ :
এটি প্রশিক্ষণের জন্য বলে মনে হচ্ছে:
টার্ন নেটওয়ার্কের জন্য, দশ মিলিয়ন পোকার টার্নের পরিস্থিতি (টার্ন কার্ডটি ডিল হওয়ার পরে থেকে) তৈরি করা হয়েছিল এবং সিক্যুয়েশনের 175 কোর বছরের বেশি সময় ব্যবহার করে ক্যালকুল ক্যুবেক এমপি 2 গবেষণা ক্লাস্টারের 6,144 সিপিইউ কোর দিয়ে সমাধান করা হয়েছিল। ফ্লপ নেটওয়ার্কের জন্য, এক মিলিয়ন পোকার ফ্লপ পরিস্থিতি (ফ্লপ কার্ডগুলি ডিল হওয়ার পরে থেকে) উত্পন্ন এবং সমাধান করা হয়েছিল। এই পরিস্থিতিগুলি ডিপস্ট্যাকের গভীরতা সীমাবদ্ধ দ্রাবক ব্যবহার করে টার্ন কার্ডের সাথে সাথেই জনসাধারণের রাজ্যে পাল্টা প্রতিযোগিতামূলক মানগুলির জন্য ব্যবহৃত ব্যবহার করে সমাধান করা হয়েছিল। আমরা গণনা সময়ের 20 জিপিইউএস এবং জিপিইউ বছরের অর্ধেকের একটি ক্লাস্টার ব্যবহার করেছি। সহায়ক নেটওয়ার্কের জন্য, দশ মিলিয়ন পরিস্থিতি তৈরি হয়েছিল এবং সমস্ত 22,100 সম্ভাব্য ফ্লপ গণনা করে এবং ফ্লপ নেটওয়ার্কের আউটপুট থেকে প্রতিবিম্বের মানগুলি গড় করে লক্ষ্য মানগুলি প্রাপ্ত করা হয়েছিল।
এবং এটি আসল খেলার জন্য:
পুনঃ-সমাধানের গণনা এবং নিউরাল নেটওয়ার্ক মূল্যায়নগুলি উভয়ই Torch7 (53) এ প্রয়োগ করা হয় এবং একটি একক এনভিআইডিএ জিফর্স জিটিএক্স 1080 গ্রাফিক্স কার্ডে চালিত হয়।
তুলনার জন্য: আলফাগো বিতরণিত সংস্করণটি চালাতে 1.920 সিপিইউ এবং 280 জিপিইউ নিয়েছে।