একটি বৃত্তাকার ভিত্তিক বোর্ড গেমের জন্য কীভাবে নিউরাল নেটওয়ার্ক প্রশিক্ষণ দেওয়া যায়?


11

আমি ভাবছি কীভাবে টিকি-ট্যাক-টো, দাবা, ঝুঁকি বা অন্য কোনও রাউন্ড ভিত্তিক গেমের জন্য একটি বৃত্তাকার ভিত্তিক বোর্ড গেমের জন্য নিউরাল নেটওয়ার্ক প্রশিক্ষণ দেওয়া যায়। ইনফরমেশন দিয়ে পরবর্তী পদক্ষেপটি পাওয়া খুব সোজা এগিয়ে বলে মনে হচ্ছে গেমের স্টেটকে ইনপুট হিসাবে খাওয়ানো এবং আউটপুটটি বর্তমান প্লেয়ারের পদক্ষেপ হিসাবে ব্যবহার করে। তবে সেই লক্ষ্যে কোনও এআই প্রশিক্ষণ দেওয়াকে সোজা এগিয়ে দেখায় না, কারণ:

  1. যদি একটি একক পদক্ষেপ ভাল হয় বা না হয় তবে রেটিং থাকতে পারে না, সুতরাং একক চালগুলির প্রশিক্ষণ সঠিক পছন্দ বলে মনে হয় না
  2. নিউরাল নেটওয়ার্ককে প্রশিক্ষণের জন্য পুরো গেমের সমস্ত স্টেটস (ইনপুট) এবং মুভ (আউটপুট) ব্যবহার করা, সঠিক পছন্দ বলে মনে হয় না কারণ হারানো গেমের মধ্যে থাকা সমস্ত চাল খারাপ নাও হতে পারে

সুতরাং আমি ভাবছি কীভাবে একটি বৃত্তাকার ভিত্তিক বোর্ড গেমের জন্য নিউরাল নেটওয়ার্ক প্রশিক্ষণ দেওয়া যায়? আমি টেন্সরফ্লো ব্যবহার করে টিক-ট্যাক-টোয়ের জন্য একটি নিউরাল নেটওয়ার্ক তৈরি করতে চাই।

উত্তর:


10

দুর্দান্ত প্রশ্ন! এনএন এই ধরণের সমস্যার জন্য খুব আশাব্যঞ্জক: জিরাফ দাবা । লাইয়ের সাফল্যটিকে বেশ বড় চুক্তি হিসাবে বিবেচনা করা হয়েছিল , তবে দুর্ভাগ্যক্রমে আলফাগো স্পটলাইট নেওয়ার কয়েক মাস আগে এসেছিল। (এটি সর্বোপরি প্রমাণিত হয়েছিল যে, লাই পরবর্তী সময়ে ডিপমাইন্ড দ্বারা ভাড়া করা হয়েছিল, যদিও জিরাফ ইঞ্জিনটির পক্ষে এটি খুব ভাল নয় ;)

আমি লাইয়ের পদ্ধতিকে বেশ সহায়ক বলে খুঁজে পেয়েছি এবং এটি দৃ solid় ফলাফল দ্বারা সমর্থন পেয়েছে।


আপনি "ব্যবহার করতে পারেন অনুক্রমিক হিসাবে" বৃত্তাকার ভিত্তিক "যেহেতু অনুক্রমিক মধ্যে পছন্দের শব্দ বিরোধিতা" খেলা তত্ত্ব এবং সংযুক্তিকরণ খেলা তত্ত্ব , এবং এই ক্ষেত্র গেম গাণিতিক বিশ্লেষণ প্রযোজ্য।

আপনার তালিকাভুক্ত গেমগুলিকে আধুনিক কৌশল বোর্ডগেমস বা সাধারণভাবে গেমগুলির থেকে আলাদা করার জন্য " বিমূর্ত " বলা হয় , যা একটি শক্তিশালী থিম ব্যবহার করে এবং যান্ত্রিক এবং উপাদানগুলির ক্ষেত্রে সাধারণত বিমূর্ত গেমগুলির চেয়ে কম কমপ্যাক্ট হয়। এটি এই সতর্কতার সাথে বহন করে যে সুডোকুর মতো ধাঁধা হিসাবে যেমন বিমূর্ত গেমগুলি সিক্যুয়াল গেমস বা বোর্ডগেমস বা এমনকি গেমগুলিতে সীমাবদ্ধ নয়।

এই গ্রুপের গেমসের আনুষ্ঠানিক নামটি সাধারণত " পক্ষপাতমূলক , অনুক্রমিক, নির্বিচারক , নিখুঁত তথ্য " হিসাবে টিক-ট্যাক-টোকে আরও "তুচ্ছ" (সমাধানযোগ্য এবং সহজেই সমাধানযোগ্য) এবং অ-তুচ্ছ (জটিল এবং সমাধান না করা) হিসাবে আরও শ্রেণিবদ্ধকরণ করা হয় দাবা এবং গো এর মত গেমস


7

আমি দাবা খেলোয়াড় এবং আমার উত্তরটি কেবল দাবাতে হবে।

শক্তিবৃদ্ধি শেখার সাথে একটি নিরপেক্ষ নেটওয়ার্ক প্রশিক্ষণ নতুন নয়, এটি সাহিত্যে বহুবার করা হয়েছে।

আমি সাধারণ কৌশলগুলি সংক্ষেপে ব্যাখ্যা করব।

  • একটি নেটওয়ার্কের উদ্দেশ্য অবস্থানের মূল্যায়ন শেখা আমরা সকলেই জানি একটি রানী একটি বিশপের চেয়েও শক্তিশালী, তবে আমরা কী স্পষ্টভাবে প্রোগ্রামিং ছাড়াই নেটওয়ার্কটিকে এটি সম্পর্কে জানাতে পারি? পদ্ম কাঠামো সম্পর্কে কি? নেটওয়ার্ক কী বুঝতে পারে যে কোনও অবস্থান জিতছে কিনা তা মূল্যায়ন করতে হবে?

  • এখন, আমরা জানি যে কেন আমাদের নেটওয়ার্ক দরকার, এটি আমাদের নকশা করা দরকার। অধ্যয়নের মধ্যে নকশাটি মূলত পৃথক। গভীর শেখা জনপ্রিয় হওয়ার আগে লোকেরা অগভীর নেটওয়ার্ক ব্যবহার করত। আজকাল, অনেক স্তর সহ একটি নেটওয়ার্ক দাঁড়িয়ে আছে।

  • আমাদের নেটওয়ার্কটি একবার হয়ে গেলে আপনার একটি দাবা ইঞ্জিন তৈরি করতে হবে। নিউরাল নেটওয়ার্ক যাদুতে নিজে নিজে দাবা খেলতে পারে না, এটি একটি দাবা ইঞ্জিনের সাথে সংযোগ স্থাপন করা দরকার। ভাগ্যক্রমে, আমাদের অবস্থানের মূল্যায়ন কোডটি লেখার দরকার নেই কারণ নেটওয়ার্ক আমাদের জন্য এটি করতে পারে।

  • এখন, আমাদের গেম খেলতে হবে। আমরা কয়েকটি উচ্চমানের দাবা ডাটাবেস দিয়ে শুরু করতে পারি বা এর পরিবর্তে আমাদের এআই এজেন্টটি অন্য খেলোয়াড়ের সাথে গেম খেলতে পারে (যেমন নিজে, অন্য এআই এজেন্ট, বা কোনও মানুষ)। এটি রিইনফোর্সমেন্ট লার্নিং হিসাবে পরিচিত ।

  • যখন আমরা গেম খেলি, আমরা নেটওয়ার্ক প্যারামিটার আপডেট করি। এটি স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত (বা অন্যান্য অনুরূপ কৌশল) দ্বারা করা যেতে পারে। আমরা যতক্ষণ চাই আমাদের প্রশিক্ষণটির পুনরাবৃত্তি করি, সাধারণত লক্ষ লক্ষ লোকের উপরে।

  • অবশেষে, আমাদের দাবা জন্য প্রশিক্ষিত নিরপেক্ষ নেটওয়ার্ক মডেল আছে!

বিস্তারিত জানার জন্য নিম্নলিখিত সংস্থানগুলি দেখুন:

https://chessprogramming.wikispaces.com/Learning


এখানে কেবলমাত্র ছোট-ছোট ছেলেমেয়েরা রয়েছে
কুইন্টিমুলিয়া

এটি সংক্ষিপ্ত বিবরণ ছাড়াই বাহ্যিক লিঙ্ক সরবরাহ করা কীভাবে ভবিষ্যতে ক্ষতির পক্ষে হতে পারে তার একটি উদাহরণ। প্রদত্ত লিঙ্কটি এখন মারা গেছে
গ্রেগ হিলস্টন 'মে'১৯

4

আমি মনে করি আপনার পুনর্বহাল শেখার সাথে পরিচিত হওয়া উচিত। মেশিন লার্নিংয়ের এই ক্ষেত্রে এজেন্ট তার পরিবেশটিকে শুভ করে এবং তার পরে এজেন্ট কিছু পুরষ্কার পায়। এখন, এজেন্টটি হ'ল নিউরাল নেটওয়ার্ক হ'ল পরিবেশটি খেলা এবং এজেন্ট যদি এটি জিততে পারে তবে +1 বা হেরে গেলে -1 পুরষ্কার পেতে পারে। এজেন্টকে প্রশিক্ষণ দেওয়ার জন্য আপনি এই স্থিতি, ক্রিয়া, পুরষ্কারের অভিজ্ঞতা ব্যবহার করতে পারেন। আমি ডেভিড সিলভারের বক্তৃতাগুলি ইউটিউব এবং সাটন এর বইতেও সুপারিশ করতে পারি।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.