আলফাগো জিরোর একীভূত নিউরাল নেটওয়ার্ক দুটি পৃথক নিউরাল নেটওয়ার্কের চেয়ে বেশি দক্ষ কেন?


10

আলফাগো জিরোতে এর পূর্বসূরীদের তুলনায় বেশ কয়েকটি উন্নতি রয়েছে। এই চিট শীটে আলফা গো জিরোর আর্কিটেকচারাল বিবরণ দেখা যাবে ।

এই উন্নতিগুলির মধ্যে একটি হ'ল একটি একক নিউরাল নেটওয়ার্ক যা চলন সম্ভাবনা এবং একই সাথে রাষ্ট্রীয় মান গণনা করে, যখন পুরানো সংস্করণ দুটি পৃথক নিউরাল নেটওয়ার্ক ব্যবহার করে। এটি প্রদর্শিত হয়েছে যে মার্জ করা নিউরাল নেটওয়ার্ক কাগজ অনুযায়ী আরও দক্ষ:

এটি দুটি নয় বরং একটি নিউরাল নেটওয়ার্ক ব্যবহার করে। আলফাগো এর পূর্ববর্তী সংস্করণগুলি খেলতে পরবর্তী পদক্ষেপটি নির্বাচন করার জন্য একটি "নীতি নেটওয়ার্ক" এবং প্রতিটি অবস্থান থেকে গেমসের বিজয়ীর ভবিষ্যদ্বাণী করতে একটি "মান নেটওয়ার্ক" ব্যবহার করে। এগুলি আলফাগো জিরোতে একত্রিত করা হয়েছে, এটি আরও দক্ষতার সাথে প্রশিক্ষিত ও মূল্যায়নের অনুমতি দেয়।

এটি আমার কাছে স্বজ্ঞাত মনে হয়, কারণ সফ্টওয়্যার ডিজাইনের দৃষ্টিকোণ থেকে এটি উদ্বেগের নীতিগত বিচ্ছেদ লঙ্ঘন করে । সে কারণেই আমি ভাবছি, কেন এই মার্জটি উপকারী প্রমাণিত হয়েছে?

দক্ষতা বৃদ্ধির জন্য এই কৌশলটি - একক নিউরাল নেটওয়ার্কে বিভিন্ন কাজ মার্জ করা - সাধারণভাবে অন্য নিউরাল নেটওয়ার্কগুলিতে প্রয়োগ করা যেতে পারে বা এর জন্য কিছু নির্দিষ্ট শর্তের কাজ করার দরকার পড়ে?

উত্তর:


6

কেন এই মার্জটি উপকারী প্রমাণিত হয়েছে?

আপনি যদি উদ্বেগকে পৃথক করার পরিবর্তে শীর্ষে একটি মান এবং নীতি উপাদান সহ একটি ভাগ করা উপাদান (রেসিডুয়াল নেটওয়ার্ক স্তরগুলি) সমন্বিত ভাগ করা মান / নীতি নেটওয়ার্কের কথা ভাবেন এটি আরও অর্থবোধ করে।

অন্তর্নিহিত ভিত্তিটি হ'ল নেটওয়ার্কের ভাগ করা অংশ (রেসনেট) ইনপুটটির একটি উচ্চ-স্তরের জেনারালাইজেশন সরবরাহ করে (গেমটি সরানোয় এগিয়ে চলেছে) যা অগভীর মান এবং নীতি নেটওয়ার্ক উভয়েরই জন্য একটি ভাল ইনপুট উপস্থাপনা।

যখন এটি হয়, আমরা একক শেয়ারকৃত রেজনেটকে প্রশিক্ষণ দিয়ে এবং মান এবং নীতিমালার জন্য দুটি রেজনেট প্রশিক্ষণের চেয়ে দুটি আরও সহজ নেটওয়ার্কের জন্য ব্যবহার করে কম্পিউটেশনাল লোডকে অনেকটা কমাতে পারি। তাদের ক্ষেত্রে, দুজনকে এক সাথে প্রশিক্ষণ দেওয়াও নিয়মিতকরণের উন্নতি করে এবং এইভাবে আরও দৃust়, সাধারণ প্রতিনিধিত্ব তৈরি করে।

বিশেষত, সিলভার এট আল দ্বারা আলফা গো জিরো কাগজ , মানব জ্ঞান ছাড়াই গেম অফ গের উপর দক্ষতা অর্জন , বলেছেন যে:

একক নেটওয়ার্কের মধ্যে নীতি এবং মান একত্রিত করে মুভের পূর্বাভাসের যথার্থতা কিছুটা হ্রাস পেয়েছে, তবে মান ত্রুটি হ্রাস পেয়েছে এবং আলফাগোতে প্রায় 600 এলো করে খেলার অভিনয় বাড়িয়েছে। এটি আংশিকরূপে গণ্য দক্ষতার উন্নত হওয়ার কারণে হয়েছে, তবে আরও গুরুত্বপূর্ণভাবে দ্বৈত উদ্দেশ্য নেটওয়ার্ককে একটি সাধারণ প্রতিনিধিত্ব করে যা একাধিক ব্যবহারের ক্ষেত্রে সমর্থন করে।

এই কৌশলটি সাধারণভাবে বা শুধুমাত্র বিশেষ ক্ষেত্রে প্রয়োগ করা যেতে পারে?

সফ্টওয়্যার লাইব্রেরিতে সাধারণ উপাদানগুলির মতো, এটি তখনই বোধগম্য হয় যখন আপনি যে সমস্যাগুলি ভাগ করে নেওয়া উপস্থাপনার মাধ্যমে সুবিধাটি সমাধান করার চেষ্টা করছেন।

আপনি যদি একই ধরণের কাজের জন্য শ্রেণিবদ্ধকারীদের প্রশিক্ষণ দিচ্ছেন বা আপনি যদি ইতিমধ্যে কোনও বৃহত্তর, অনুরূপ ডেটাসেটের উপরে প্রশিক্ষিত একটি শ্রেণিবদ্ধ প্রশিক্ষণ পেয়ে থাকেন তবে কোনও অল্প ডেটা সহ একটি নতুন কার্যকে প্রশিক্ষণ দিলে আপনি এটি ব্যবহার করতে পারেন ।

গো এর বাইরে, এটি প্রায়শই চিত্র স্বীকৃতি হিসাবে ব্যবহৃত হয়। গভীর প্রাক-প্রশিক্ষিত নেটওয়ার্ক যেমন ইমেজনেট আইএলএসভিআরসি প্রতিযোগিতা থেকে শুরু করে সাধারণত একটি সূচনা পয়েন্ট হিসাবে ব্যবহৃত হয়। তারা এমন শ্রেণিবদ্ধকারী যা এক মিলিয়নেরও বেশি চিত্রের উপর প্রশিক্ষণপ্রাপ্ত (সপ্তাহের জন্য!)।

তারপরে, বলুন যে আপনি সাইকেলের পছন্দের ব্র্যান্ডকে স্বীকৃতি দেওয়ার জন্য একটি নেটওয়ার্ক তৈরি করতে চান, আপনি ইমেজনেটে ​​প্রশিক্ষিত সাধারণ চিত্র-স্বীকৃতি পাইপলাইন দিয়ে শুরু করুন, আসল শ্রেণিবদ্ধকরণ ("এটি একটি বর্ডার কোলি") করার শেষ স্তরগুলিকে কাটা এবং যুক্ত করুন আপনার পছন্দের সাইকেলগুলি বেছে নেওয়ার জন্য একটি নতুন নতুন শ্রেণিবদ্ধকারী

যেহেতু প্রাক-প্রশিক্ষিত শ্রেণিবদ্ধকারী ইতিমধ্যে উচ্চ-স্তরের চিত্র ধারণাগুলি সরবরাহ করে যা চিত্র স্বীকৃতির জন্য এটি ভাল বিল্ডিং ব্লক (এটি 200 বিভাগগুলিকে শ্রেণিবদ্ধ করে) তাই এটি আপনাকে প্রচুর প্রশিক্ষণ বাঁচায় এবং খুব দৃ class় শ্রেণিবদ্ধের জন্য তোলে।

অবশ্যই অনেকগুলি ক্ষেত্রে রয়েছে যেখানে সমস্যাগুলির দরকারী ভাগ করে নেওয়ার উপস্থাপনা নেই এবং সুতরাং সম্মিলিত নেটওয়ার্ক থেকে কোনও উপকার পাওয়া যায় না। তবুও, এটি সঠিক পরিস্থিতিতে একটি দরকারী সরঞ্জাম।

এ সম্পর্কে আরও জানতে ট্রান্সফার লার্নিং বা মাল্টি-টাস্ক লার্নিং সন্ধান করুন


যদি কেউ এই স্নায়বিক নেটওয়ার্কের আর্কিটেকচার বিশ্লেষণের জন্য সফ্টওয়্যার ইঞ্জিনিয়ারিং নীতিগুলি ব্যবহার করতে চান, তবে আমি আরও উল্লেখ করতে পারি যে অবশিষ্টাংশের ব্লক নেটওয়ার্ক, যার উপরে মান এবং নীতিমালাগুলি বিশিষ্ট DRY নীতিটিকে সম্মান করে। পাইপলাইনের অন্যান্য উপাদানগুলিতে (মান এবং নীতি প্রধান) এই ডেটাটি প্রেরণ করার আগে ডেটা প্রিপ্রোসেস করার জন্য একই উপাদান (অবশিষ্ট অবরুদ্ধ নেটওয়ার্ক) এর উপর নির্ভর করে, তারা গ্যারান্টি দেয় যে প্রত্যেকে মূল ইনপুটটির একই প্রতিনিধিত্ব প্রক্রিয়া করবে। দুটি পৃথক নেটওয়ার্কের সাথে এই প্রক্রিয়াকরণটির সদৃশ করা সময়ের সাথে সাথে বিচ্ছিন্নতার গ্যারান্টি দেয়।
সদাকাতসু
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.