এনএন + এমসিটিএস এবং এবি + হস্তাক্ষরগুলি ইঞ্জিন দাবাতে প্রভাব ফেলবে কেন?


14

যেহেতু আমি বুঝতে পেরেছি ইঞ্জিনগুলি এখনই চারটি গ্রুপে বিভক্ত করা যেতে পারে: যারা আলফা-বিটা (এবি) ব্যবহার করেন তারা + যাঁরা সন্ধানের জন্য মন্টি কার্লো ট্রি অনুসন্ধান (এমসিটিএস) ব্যবহার করেন এবং হস্তাক্ষর ফাংশন ব্যবহার করেন তাদের জন্য যারা নিউরাল নেটওয়ার্ক ব্যবহার করেন তাদের জন্য Eval। দুটি শক্তিশালী ইঞ্জিন হ'ল লীলা এবং স্টকফিশ। লীলা এমসিটিএস + এনএন ব্যবহার করে, অন্যদিকে স্টকফিশ এ বি + হস্তাক্ষর ব্যবহার করে।

কেন এই দুটি সমন্বয়? এনএন + এবি, বা এমসিটিএস + হস্তাক্ষর কেন নয়? MCTS যদি AB এর চেয়ে ভাল হয় তবে কমোডো MCTS কমোদো AB এর চেয়ে শক্তিশালী নয় কেন? যদি এমসিটিএসের চেয়ে এবি ভাল হয় তবে লীলা কেন তার পরিবর্তে এবি ব্যবহার করছে না?


কেবল অনুমান: এনএন হ'ল প্যাটার্ন-সনাক্তকারী। যেহেতু এমসিটিএস একটি বিস্তৃত জাল ফেলেছে, এনএন আরও ভাল বা খারাপ হিসাবে স্বীকৃতি দেওয়ার জন্য প্রশিক্ষিত হয়েছিল এমন প্যাটার্নগুলির মুখোমুখি হওয়ার সম্ভাবনা বেশি।
জন কোলম্যান

উত্তর:


12

গতি

নিউরাল নেটওয়ার্কগুলি হস্তশিল্পের মূল্যায়ন ফাংশনের চেয়ে অনেক ধীরে ধীরে কাজ করে। ইন TCEC Superfinal লীলা দাবা জিরো, ডেডিকেটেড টেন্সর কোর দুটি জিপিইউ প্রতিটি চালু রাখার জন্য, প্রতি সেকেন্ডে প্রায় 60 হাজার পদে অনুসন্ধান করতে সক্ষম হয়। বিপরীতে, স্টকফিশ, আমার পিসির একক কোরতে, প্রতি সেকেন্ডে 2 মিলিয়ন অবস্থানের উপরে অনুসন্ধান করে।

যদিও আধুনিক ইঞ্জিনগুলিতে অপ্রয়োজনীয় শাখাগুলি কেটে ফেলার জন্য কৌশলগুলির বিশাল নির্বাচন রয়েছে , আলফা-বিটা ট্রি অনুসন্ধান এখনও একটি নিষ্ঠুর শক্তি কৌশল, যাতে ভাল পদক্ষেপগুলি নির্ধারণ করতে বিপুল সংখ্যক অবস্থান অনুসন্ধান করা প্রয়োজন।

বিপরীতে, MCTS অনেক বেশি নির্বাচনী এবং এটি তার অনুসন্ধান ট্রিটিকে সর্বাধিক প্রতিশ্রুতিবদ্ধ পদক্ষেপের দিকে প্রসারিত করে, এটি সন্ধান করা যেতে পারে এমন সর্বাধিক সীমিত সংখ্যক নোড তৈরি করতে দেয়।

সবচেয়ে খারাপ আচরণ

আলফা-বিটা অনুসন্ধানের আশেপাশে থাকা ইঞ্জিনের জন্য মূল্যায়ন ফাংশনের অন্যতম মূল প্রয়োজনীয়তা হ'ল এর অবশ্যই খারাপ খারাপ-আচরণ করা উচিত । এর কারণ হল মূল্যায়নের যে কোনও বৃহত ত্রুটি, তবে বিরল, সহজেই মূলটিতে প্রচার করা যেতে পারে এবং একটি ভয়াবহরূপে ভুলভাবে সরানো যেতে পারে।

তাদের জটিলতার প্রকৃতির দ্বারা, নিউরাল নেটওয়ার্কগুলি অত্যধিক মানানসই প্রবণ এবং এগুলি প্রশিক্ষণের জন্য ব্যবহৃত ডেটাগুলির মতোই ভাল হতে পারে। উদাহরণস্বরূপ, টিসিইসি সিজন 14 সুপারফিনালের 80 এর ম্যাচটিতে 47 স্টোরফিশের অতিরিক্ত রানী দ্বারা এলসি 0 স্পষ্টতই অবিচ্ছিন্ন হয়েছিলেন, অবস্থানটি শীতল +0.77 হিসাবে মূল্যায়ন করেছিলেন, যখন স্টকফিশ (এবং বেশিরভাগ ইঞ্জিনগুলি) +8.31 এর মূল্যায়ন ছড়িয়ে দিয়েছে। এর একটি জনপ্রিয় ব্যাখ্যা হ'ল এলসি ০ এর বোর্ডে একাধিক কুইনের সাথে উল্লেখযোগ্য সংখ্যক গেমটি তার প্রশিক্ষণ সংস্থায় থাকতে পারে নি।

নিউরাল নেটওয়ার্কগুলির, অতএব, খারাপের ক্ষেত্রে সবচেয়ে খারাপ আচরণ রয়েছে এবং তাই আলফা বিটা অনুসন্ধানের সাথে খারাপ আচরণ করার সম্ভাবনা রয়েছে। বিপরীতে, MCTS, অনুসন্ধানের কাছাকাছি অবস্থানে যুক্তিসঙ্গত স্কোরগুলি নির্ধারিত দ্বারা গড় গড় দিয়ে একটি পজিশনে নির্ধারিত একটি ভুল স্কোরকে অফসেট করার অনুমতি দেয়।

শান্ত অবস্থা

সমস্ত শক্তিশালী আলফা-বিটা ইঞ্জিনগুলি কোয়েসেন্স সার্চ নামে একটি কৌশল ব্যবহার করে, লিফ নোডগুলিতে আলফা-বিটা অনুসন্ধানের একটি সীমাবদ্ধ ফর্ম প্রয়োগ করে এই স্বীকৃতি স্বরূপ যে তাদের হস্তশিল্পের মূল্যায়ন ফাংশনগুলি কেবল "শান্ত" অবস্থানে ভালভাবে কাজ করে, যেখানে কোনও মুলতুবি থাকা বা ক্যাপচার নেই che ।

উদাহরণস্বরূপ, রানী বিনিময়ের প্রথমার্ধের অব্যবহিত পরে, একটি হস্তশিল্পের মূল্যায়ন ফাংশন আপনাকে বলতে পারে যে সবেমাত্র তাদের রানী নিয়েছিল সেই পক্ষটি সম্পূর্ণরূপে হারিয়ে গেছে, অন্যদিকে একটি নিউরাল নেটওয়ার্ক বুঝতে পারে যে শীঘ্রই রানী পুনরায় দখল করা হবে।

এটি নিরবচ্ছিন্ন অনুসন্ধানের অভাবে এমসিটিএসের জন্য হস্তশিল্পের মূল্যায়ন ফাংশনগুলিকে অনুরূপভাবে অনুপযুক্ত করে তোলে, ফলে হস্তশিল্পগুলি বেশিরভাগ সময় খুব খারাপভাবে সম্পাদন করে (যদিও কোমোডো 12 এমসিটিএস যেভাবেই হোক ছোট্ট আলফা-বিটা অনুসন্ধানগুলি ব্যবহার করে এই বিধিনিষেধের কাছাকাছি চলে যায় , শান্ত অবস্থানে এবং সুতরাং এর হস্তশিল্পের মূল্যায়নকে যুক্তিসঙ্গত স্কোর ফিরিয়ে আনতে অনুমতি দিন)


2

এবি এবং এমসিটিএস তাদের নিজস্ব যোগ্যতার ভিত্তিতে একে অপরের চেয়ে অগত্যা ভাল নয়। এটি ঠিক যে এগুলি পৃথক অনুসন্ধান অ্যালগরিদম যা বিভিন্ন ভিত্তির সাথে আরও ভাল কাজ করে। এনএন এর জন্য, এমসিটিএস ভাল কাজ করে কারণ এটি ইঞ্জিনকে আরও ভাল শাখাগুলি অন্বেষণ করতে দেয়। এটি ইঞ্জিনকে "কী চায়" তা দেখার জন্য আরও স্বাধীনতা দেয়।

এদিকে এবি'র সাথে নীতিগতভাবে সমস্ত শাখার দিকে নজর দিতে হবে। এটি কারণ পুনরাবৃত্তিমূলক গভীরতরকরণের সাথেও ইঞ্জিন কেবল প্রতিটি পুনরাবৃত্তির প্রতিটি শাখায় এতদূর পর্যন্ত দেখায়। সুতরাং এটি জানে না যে কোনও শাখা আসলে এক পক্ষে জিতছে কিনা, এমনকি যদি এটি সীমিত গভীরতায় হারাতেও দেখায়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.