খুব সম্প্রতি, সংবাদটি প্রকাশিত হয়েছিল যে বর্ণমালার ডিপমাইন্ড গবেষণা দলটি শোগি এবং দাবা উভয়কেই খেলতে তাদের মেশিন লার্নিং ইঞ্জিন বাড়িয়েছে। স্পষ্টতই, স্ব-শিক্ষার মাত্র কয়েক ঘন্টা পরে, যার অর্থ গেমসের নিয়মগুলি দেওয়া মাত্র নিজের বিরুদ্ধে খেলে, দাবাতে এর পারফরম্যান্স ইতিমধ্যে স্টকফিশ 8 এর মতো শীর্ষ বর্তমান ইঞ্জিনগুলিকে ছাড়িয়ে গেছে। ম্যাচগুলি ঠিকঠাকভাবে কীভাবে সেট আপ হয়েছিল তা আমি ব্যক্তিগতভাবে এখনও জানি না, স্টকফিশ কী অবস্থার অধীনে পারফরম্যান্সের জন্য প্রস্তুত হয়েছিল, যেহেতু গণনার সময় যদি সীমাবদ্ধ থাকে তবে ইঞ্জিনগুলি খুব খারাপভাবে পারফর্ম করতে সক্ষম হয়। যাই হোক না কেন, এটি একটি চিত্তাকর্ষক কৃতিত্ব, কারণ যদি দেখা যায় যে কেউ অতিরিক্ত কিছু প্রশিক্ষণের সাথে স্টকফিশ স্থাপন করতে পারত তবে আলফাজেরো আবার খেলার মাত্রা ছাড়িয়ে যাবে, যার অর্থ আলফাজিরো মূলত যে কোনও বর্তমানের চেয়ে শক্তিশালী হিউরিস্টিক মূল্যায়ন ফাংশনের উপর ভিত্তি করে স্ট্যান্ডার্ড দাবা ইঞ্জিন।
এখন এই সংবাদের আলোকে, এটি দুর্দান্ত হবে যদি কেউ মেশিন শিখেছি দাবা ইঞ্জিনের কাজের ক্ষেত্রে প্রধান পার্থক্যগুলি স্ট্যান্ডার্ড ইঞ্জিনগুলির সাথে তুলনা করে আমরা সবাই অভ্যস্ত যেগুলি ব্যবহার করতে অভ্যস্ত on আরও দৃ concrete়ভাবে:
- মেশিন লার্নিং পদ্ধতি দ্বারা প্রশিক্ষিত, আলফাজিরো যে মূল্যায়ন ফাংশনটি ব্যবহার করে, সেগুলি কি আর কি আর কোনও হিউরিস্টিক মূল্যায়ন ফাংশন নয়? যদি হ্যাঁ, তবে এটুকু বলা উচিত যে দুটি ইঞ্জিনের মূল্যায়ন কার্যকারিতার মধ্যে মৌলিক পার্থক্য, এই বিষয়টি সত্য যে স্টকফিশের একটি অনুকূলিত মূল্যায়ন ফাংশন রয়েছে যা মানুষের হাতে রয়েছে, যার অর্থ অনুকূলকরণের জন্য কার্যটির সংজ্ঞাটি স্থির হয়েছে, যেখানে আলফাজিরো, লক্ষ্য মূল্যায়ন ফাংশনটি অতিরিক্ত প্রশিক্ষণের মাধ্যমে (যেমন স্ব-খেলার মাধ্যমে) প্রতিনিয়ত পুনরায় সংজ্ঞায়িত হচ্ছে? আধুনিককে একটি পদ্ধতির আরও বেশি গতিশীল করে তোলা।
অবশেষে, অস্পষ্টভাবে বলতে গেলে, স্টকফিশের মতো একটি ইঞ্জিন তার মূল্যায়ন ফাংশনটিকে সম্ভাব্য পদক্ষেপের গাছে প্রয়োগ করে, কোন শাখাটি রাখা উচিত এবং কোনটি বাদ দিতে হবে তা স্থির করে, তারপরে একটি গভীর কংক্রিটের মাধ্যমেপ্রতিটি শাখার বিশ্লেষণ, আবার তার মূল্যায়ন কার্যের মাধ্যমে, এটি নির্ধারণ করে যে কোন শাখাটি সর্বোচ্চ মূল্য অর্জন করেছে এবং এটি মূল প্রকরণ হয়ে যায় (অবশ্যই এই বৃহত বৃক্ষকে দক্ষতার সাথে ছাঁটাই করার জন্য এই প্রক্রিয়াটির চারপাশে অনেক অগ্রগতির কৌশল রয়েছে)। অর্থ, প্রতিটি পদের জন্য, স্টকফিশের সিদ্ধান্ত নেওয়ার জন্য এই চূড়ান্ত নিয়মিত রুটিনটি পুনরাবৃত্তি করতে হবে। বিপরীতে, আমি কল্পনা করি যে আলফাজেরো খুব আলাদা কিছু করে, যথা, এটি কোনও নির্দিষ্ট অবস্থানে সম্ভাব্য পদক্ষেপের গাছের একটি কংক্রিট বিশ্লেষণের উপর নির্ভর করে না, পরিবর্তে এর মূল্যায়ন ফাংশনটি মূলত সেই অবস্থানের জন্য একটি মান নির্ধারণ করে (যা স্বজ্ঞাতভাবে রাখার মতোই হয়) অন্য কোন অবস্থার জন্য সাদৃশ্য হিসাবে বর্তমান অবস্থান এটির জন্য প্রশিক্ষণ দেওয়া হয়েছে), কখনও কংক্রিট না করেইস্টকফিশ বা এমনকি কোনও মানব খেলোয়াড় যেভাবে বিশ্লেষণ করে সেভাবে। এটি কি আদৌ আলফাজিরো বা অনুরূপ প্রশিক্ষিত মেশিন লার্নিং ইঞ্জিনগুলির কার্যকরী শব্দগুলির চিত্র?
আমরা জানি যে দাবা পজিশনের স্থানটি এত বড় যে এতে সমস্ত অবস্থানের নমুনা নেওয়ার যে কোনও প্রচেষ্টা নীতিগতভাবে পুরোপুরি নিরর্থক (এক্সপিটাইম জটিলতা) হতে পারে, এটি সুপারিশ করবে যে স্ব-খেলার মাধ্যমে প্রশিক্ষণের কোনও পরিমাণই যথেষ্ট হবে না সমস্ত অবস্থান অন্বেষণ করেছেন, সুতরাং স্ব-খেলার মাধ্যমে স্থানের সামান্য কিছু অংশের সম্ভাব্য সম্ভাবনা সত্ত্বেও শেষের ফলাফলটি কীভাবে ভাল হতে পারে? এখানে খেলার মূল ধারণাটি কী?
আমার ধারণাটি হ'ল, আলফাএজোর যে কোনও অবস্থানের তুলনা করার খুব অনুকূল উপায় রয়েছে, এমনকি যদি নতুন হয় তবে তার প্রশিক্ষণ সংস্থায় পূর্বের একটি পরিদর্শন করা ব্যক্তির সাথে তুলনাটি যতই নিকটবর্তী হয় তত তুলনায় ততই বৈধ মূল্যায়ন তুলনা করা যায়। উদাহরণস্বরূপ, যখন এটি 5 গেমটিতে মুগ বিজি 5 খেলেছিল তখন অবশ্যই এটি তার প্রশিক্ষণের সময় একই ধরণের কাঠামোটি অন্বেষণ করেছে, অর্থাত্ এটি সনাক্ত করতে সক্ষম হয় যে এই অবস্থানটি মূলত তার প্রশিক্ষণে অধ্যয়ন করা একটি পৃথক (সম্ভবত একটি সম্পূর্ণ) সমতুল্য is মেশিন লার্নিংয়ের মাধ্যমে কীভাবে মুখের স্বীকৃতি অর্জন করা যায় তার সাদৃশ্য, এবং ফলস্বরূপ এটি শেষ করে বিজি 5 সেরা পদক্ষেপ হওয়া উচিত, যেমনটি (বা যারা) অন্যান্য অনুরূপ পজিশনে ছিল। এটি কি আদৌ সঠিক অনুমান? এই তুলনাটি আমার কী ধারণা নেই সম্পন্ন হয়েছে, অবশ্যই সমস্ত প্রশিক্ষিত অবস্থান সংরক্ষণ এবং প্রতিবার তাদের মাধ্যমে পার্স করা সম্ভব নয়।
এটি কেবলমাত্র আলফাজিরোর কাজকর্ম এবং কীভাবে কোনও অবস্থানের সিদ্ধান্ত গ্রহণের সিদ্ধান্তে আসে সে সম্পর্কে এতটা অন্তর্দৃষ্টি পাওয়ার চেষ্টা।