সম্পাদনা (কাগজ পড়ার পরে):
আমি ভেবেচিন্তে কাগজটি পড়েছি। গুগল কাগজে কী দাবি করেছে তা দিয়ে শুরু করা যাক:
- তারা মন্টে-কার্লো-ট্রি-অনুসন্ধান + ডিপ নিউরাল নেটওয়ার্কগুলির সাহায্যে স্টকফিশকে পরাজিত করেছে
- ম্যাচটি একেবারে একতরফা, আলফাজিরোর পক্ষে অনেক জয় কিন্তু স্টকফিশের পক্ষে কোনওটিই ছিল না
- তারা মাত্র চার ঘন্টার মধ্যে এটি করতে সক্ষম হয়েছিল
- আলফাজিরো মানুষের মতো খেলেছে
দুর্ভাগ্যক্রমে, আমি মনে করি না এটি একটি ভাল জার্নাল পেপার। আমি লিঙ্কগুলি দিয়ে ব্যাখ্যা করতে যাচ্ছি (যাতে আপনি জানেন যে আমি স্বপ্ন দেখছি না):
https://www.chess.com/news/view/alphazero-reactions-from-top-gms-stockfish-author
সময় নিয়ন্ত্রণ এবং স্টকফিশের প্যারামিটার সেটিংসের পরিবর্তে অদ্ভুত পছন্দের কারণে ম্যাচের ফলাফলগুলি বিশেষভাবে অর্থবহ নয়: গেমগুলি 1 মিনিট / পদক্ষেপের একটি নির্দিষ্ট সময়ে খেলানো হয়েছিল, যার অর্থ স্টকফিশের সময় পরিচালনার হিউরিস্টিক্সের কোনও ব্যবহার নেই ( স্টকফিশ গেমের সমালোচনামূলক পয়েন্টগুলি চিহ্নিত করতে এবং কোনও পদক্ষেপে কখন অতিরিক্ত সময় ব্যয় করতে হবে তা স্থির করার ক্ষেত্রে প্রচুর প্রচেষ্টা করা হয়েছে; প্রতি চলার সময় একটি নির্দিষ্ট সময়ে শক্তিটি উল্লেখযোগ্যভাবে ক্ষতিগ্রস্থ হবে) will
স্টকফিশ প্রতি চাল প্রতি এক মিনিট দিয়ে সেরা দাবা খেলতে পারত না। প্রোগ্রামটির জন্য ডিজাইন করা হয়নি।
- স্টকফিশ একটি নিয়মিত বাণিজ্যিক মেশিনে চলছিল, যখন আলফাজিরো আলফাজিরোর জন্য তৈরি 4 মিলিয়ন + টিপিইউ মেশিনে ছিল। এটি একটি সস্তা অ্যান্ড্রয়েড ফোনের বিপরীতে আপনার উচ্চ-ডেস্কটপের সাথে মিলের মত। টর্ড লিখেছেন:
একটি সাধারণ কম্পিউটারে চলমান একটি দাবা প্রোগ্রাম, অন্যটি মৌলিকভাবে বিভিন্ন কৌশল ব্যবহার করে এবং কাস্টম ডিজাইনের হার্ডওয়্যারে চলছে যা ক্রয়ের জন্য পাওয়া যায় না (এবং এটি যদি সাধারণ ব্যবহারকারীদের বাজেটের বাইরে চলে যায়)।
- গুগল অজান্তে স্টকফিশের জন্য একটি 32 কোর মেশিনে 64 থ্রেড দিয়েছে। আমি জিএম ল্যারি কাউফম্যান (বিশ্বমানের কম্পিউটার দাবা বিশেষজ্ঞ) এর উদ্ধৃতি দিয়েছি:
http://talkchess.com/forum/viewtopic.php?p=741987&highlight=#741987
আমি সম্মত হই যে পরীক্ষাটি সুষ্ঠু ছিল না; এসএফ-কে আঘাত করার অন্য একটি বিষয় হ'ল এটি একটি স্পষ্টত একটি 32 কোর মেশিনে threads৪ টি থ্রেডে চালিত হয়েছিল, তবে এটি machine মেশিনে মাত্র 32 থ্রেডে চালানো আরও ভাল খেলবে, কারণ প্রায় 5 থেকে 3 ধীরগতির অফসেট করার জন্য কোনও এসএমপি সুবিধা নেই। এছাড়াও ব্যয়ের অনুপাত আমার চেয়ে বেশি ছিল; আমি ভাবছিলাম এটি একটি 64 কোর মেশিন, তবে একটি 32 কোর মেশিনটি আমার অনুমানের চেয়ে প্রায় অর্ধেক খরচ করে। সুতরাং সমস্ত 30 থেকে 1 এর মধ্যে সমস্ত খুব খারাপ অনুমান নয়। অন্যদিকে আমি মনে করি আপনি এটি আরও কতটা উন্নত হতে পারে তা অবমূল্যায়ন করেন।
- স্টকফিশ কেবল 1 জিবি হ্যাশ টেবিল দিয়েছে। এটি একটি রসিকতা ... আমার আইফোনে আমার স্টকফিশ আইওএস অ্যাপের জন্য একটি বৃহত্তর হ্যাশ টেবিল রয়েছে (দাবি অস্বীকার : আমি লেখক)! টর্ড লিখেছেন:
... থ্রেডের সংখ্যার জন্য খুব ছোট হ্যাশ টেবিলগুলি ...
এই জাতীয় ম্যাচের জন্য 1 জিবি হ্যাশ টেবিল একেবারেই অগ্রহণযোগ্য। স্টকফিশ প্রায়শই হ্যাশের সংঘর্ষের মুখোমুখি হত। পুরানো হ্যাশ এন্ট্রিগুলি প্রতিস্থাপন করতে সিপিইউ চক্র লাগে।
- স্টকফিশ সেই সংখ্যক থ্রেড দিয়ে চালানোর জন্য ডিজাইন করা হয়নি। আমার আইওএস দাবা অ্যাপ্লিকেশনটিতে, কেবল কয়েকটি থ্রেড ব্যবহার করা হয়েছে। টর্ড লিখেছেন:
... এর চেয়ে বেশি অনুসন্ধানের থ্রেডের সাথে খেলছিল যা এখন পর্যন্ত কোনও উল্লেখযোগ্য পরিমাণ পরীক্ষার চেয়ে বেশি পেয়েছিল ...
- স্টকফিশ একটি খোলার বই বা 6-পিস সিজিজি এন্ডগেম টেবিলবেস ছাড়াই চলছিল। নমুনা আকার অপর্যাপ্ত ছিল। স্টকফিশ সংস্করণটি সর্বশেষ ছিল না। এখানে আলোচনা ।
উপসংহার
গুগল সন্দেহ ছাড়াই প্রমাণিত হয়নি যে তাদের পদ্ধতিগুলি স্টকফিশের চেয়ে উচ্চতর। তাদের সংখ্যা অতিপরিচয় এবং দৃpha়ভাবে আলফাজিরোর প্রতি পক্ষপাতদুষ্ট। তাদের পদ্ধতিগুলি একটি স্বাধীন তৃতীয় পক্ষ দ্বারা পুনরুত্পাদনযোগ্য নয়। Deepতিহ্যবাহী দাবা প্রোগ্রামিংয়ের চেয়ে ডিপ লার্নিং একটি উচ্চতর পদ্ধতি এটি বলার এখনও খানিকটা তাড়াতাড়ি।
সম্পাদনা (ডিসেম্বর 2017):
দাবাতে গভীরতর শক্তিবৃদ্ধি শেখার জন্য গুগল ডিপমাইন্ডের ( https://arxiv.org/pdf/1712.01815.pdf ) একটি নতুন কাগজ রয়েছে । বিমূর্ততা থেকে, বিশ্বের প্রথম স্থান স্টকফিশ দাবা ইঞ্জিন "দৃinc়ভাবে" পরাজিত হয়েছিল। আমি মনে করি 1997 এর ডিপ ব্লু ম্যাচের পর থেকে কম্পিউটার দাবাতে এটি সবচেয়ে উল্লেখযোগ্য অর্জন achievement আমি বিবরণে কাগজটি পড়ার পরে আমি আমার উত্তর আপডেট করব।
আসল (ডিসেম্বর 2017 এর আগে)
আসুন আপনার প্রশ্নটি পরিষ্কার করুন:
- না, দাবা ইঞ্জিনগুলি নিষ্ঠুর শক্তি ব্যবহার করে না ।
- আলফাগো বৃক্ষ সন্ধান ব্যবহার করে , এটি মন্টি কার্লো ট্রি অনুসন্ধান ব্যবহার করে । গুগল " মন্টে কার্লো ট্রি অনুসন্ধান আলফাগো " আপনি যদি বিশ্বাসী হতে চান।
দাবা ইঞ্জিনগুলির জন্য এএনএন ব্যবহার করা যেতে পারে:
এই প্রোগ্রামটি কি আজকের শীর্ষস্থানীয় দাবা-ইঞ্জিনগুলি (এবং দাবা প্লেয়ার) এর চেয়ে আরও ভাল পারফর্ম করবে?
জিরাফ ইন্টার্নেশন মাস্টার স্তরের প্রায় খেলে যায় যা প্রায় 2400 রেটিং সম্পর্কিত। তবে স্টকফিশ, হউদিনী এবং কোমোডো সকলেই প্রায় 3000 FIDE এ খেলেন play এটি একটি বড় ব্যবধান। কেন? কেন মন্টে-কার্লো ট্রি অনুসন্ধান নয়?
- দাবাতে ম্যাটেরিয়াল হিউরিস্টিক সহজ is বেশিরভাগ সময়, কোনও দাবা অবস্থান বোর্ডে কেবলমাত্র উপকরণ গণনা করে / জয়ী হয়। অনুগ্রহ করে গণনা উপকরণগুলি গো এর পক্ষে কাজ করে না। উপাদান গণনা হ'ল নিউরাল নেটওয়ার্কগুলি চালানোর চেয়ে দ্রুতগতির অর্ডার - এটি একটি 64-বিট পূর্ণসংখ্যার দ্বারা প্রতিনিধিত্ব করা বিটবোর্ডগুলির দ্বারা করা যেতে পারে। B৪ বিট সিস্টেমে এটি কেবল বেশ কয়েকটি মেশিনের নির্দেশাবলীর সাহায্যে করা যেতে পারে। প্রচলিত অ্যালগরিদম দিয়ে অনুসন্ধান করা মেশিন লার্নিংয়ের চেয়ে অনেক দ্রুত । প্রতি সেকেন্ডে উচ্চতর নোডগুলি গভীর অনুসন্ধানে অনুবাদ করে।
- একইভাবে, নাল মুভের ছাঁটাই, দেরীতে সরানো হ্রাস এবং ঘাতক চালগুলি ইত্যাদির মতো খুব দরকারী এবং সস্তার কৌশল রয়েছে They এগুলি চালানো সস্তা এবং আলফাগোতে ব্যবহৃত পদ্ধতির পক্ষে অনেক দক্ষ।
- দাবাতে স্থির মূল্যায়ন দ্রুত এবং দরকারী
- মেশিন লার্নিং অপরিহার্য পরামিতিগুলির জন্য দরকারী, তবে আমাদের দাবাতে এসপিএসএ এবং সিএলওপি রয়েছে।
- দাবাতে গাছ কমানোর জন্য প্রচুর দরকারী মেট্রিক রয়েছে। গো এর পক্ষে অনেক কম।
গবেষণা ছিল যে মন্টি কার্লো ট্রি অনুসন্ধান দাবা জন্য ভাল স্কেল না। দাবা করার জন্য গো এক আলাদা খেলা। দাবা আলগোরিদিমগুলি গো এর পক্ষে কাজ করে না কারণ দাবা নির্মম কৌশলের উপর নির্ভর করে। কৌশল দাবা যুক্তিযুক্তভাবে আরও গুরুত্বপূর্ণ।
এখন, আমরা প্রতিষ্ঠিত করেছি যে এমসিটিএস আলফাগোর পক্ষে ভাল কাজ করেছে তবে দাবাতে কম। গভীর শেখা আরও কার্যকর হবে যদি:
- সুরযুক্ত এনএন মূল্যায়ন প্রচলিত অ্যালগরিদমের চেয়ে ভাল than তবে ... গভীর শেখা যাদু নয়, প্রোগ্রামার হিসাবে আপনার এখনও প্রোগ্রামিং করতে হবে। উল্লিখিত হিসাবে, দাবাতে পরামিতিগুলির সুরের জন্য স্ব-খেলার জন্য আমাদের কাছে এসপিএসএর মতো কিছু রয়েছে।
- বিনিয়োগ, অর্থ! দাবাতে মেশিন শেখার জন্য খুব বেশি অর্থ নেই। স্টকফিশ বিনামূল্যে এবং ওপেন সোর্স, তবে সমস্ত মানব খেলোয়াড়কে পরাস্ত করতে যথেষ্ট শক্তিশালী। কেউ যদি বিনামূল্যে স্টক ফিশ ডাউনলোড করতে পারে তবে গুগল কেন লক্ষ লক্ষ ব্যয় করবে? সিপিইউ ক্লাস্টারদের জন্য কেন অর্থ প্রদান করা হচ্ছে? প্রতিভা জন্য কে দিতে যাচ্ছে? কেউ এটি করতে চায় না, কারণ দাবাটিকে "সমাধান করা" খেলা হিসাবে বিবেচনা করা হয়।
গভীর শিক্ষণ যদি নিম্নলিখিতগুলি অর্জন করতে পারে তবে এটি প্রচলিত অ্যালগরিদমকে পরাজিত করবে:
- দাবা পজিশন দেওয়া, এটি একটি মানব গ্র্যান্ডমাস্টারের মতো "অনুভব" করুন। উদাহরণস্বরূপ, একজন মানব গ্র্যান্ডমাস্টার অভিজ্ঞতায় - খারাপ লাইনে যাবে না। Theতিহ্যবাহী অ্যালগরিদম বা গভীর শিক্ষণ উভয়ই তা অর্জন করতে পারে না। আপনার এনএন মডেল আপনার অবস্থানের জন্য আপনাকে একটি সম্ভাবনা [0..1] দিতে পারে, তবে এটি যথেষ্ট ভাল নয়।
আমাকে উল্লেখ করা যাক:
নং জিরাফ (@ টিম পোস্ট করেছেন লিংক) মন্টি কার্লো ট্রি অনুসন্ধান ব্যবহার করে না। এটি নিয়মিত নেগা-ম্যাক্স অ্যালগোরিদম ব্যবহার করে। এটি যা করে তা হ'ল নিয়মিত মূল্যায়ন ফাংশনটি এনএন এর সাথে প্রতিস্থাপন করা হয় এবং এটি খুব ধীর হয়।
আরো একটা:
যদিও কাস্পারভ 1997 এর ম্যাচে ডিপ ব্লু দ্বারা পরাজিত হয়েছিল। ২০০৩-২০০৫ সালের দিকে "মানবতা" সত্যই হেরে গিয়েছিল, যখন ক্রমনিক কোনও জয় ছাড়াই ডিপ ফ্রিটজের কাছে একটি ম্যাচ হেরেছিল এবং মাইকেল অ্যাডামস একতরফা ম্যাচে একটি ক্লাস্টার মেশিনের কাছে হেরে গিয়েছিল। সেই সময়ে, রিবকা এমনকি বিশ্বের সেরা খেলোয়াড়দের জন্যও খুব শক্তিশালী প্রমাণিত হয়েছিল।
রেফারেন্স:
http://www.talkchess.com/forum/viewtopic.php?t=64096&postdays=0&postorder=asc&highlight=alphago+chess&topic_view=flat&start=0
আমি উদ্ধৃতি:
দাবাতে আমরা বস্তুগত ধারণাটি পেয়েছি যা ইতিমধ্যে একটি ইঞ্জিন কতটা ভাল করছে এবং তা দ্রুত গণনা করা যায় তার একটি অনুরণনযোগ্য অনুমান দেয়। তদ্ব্যতীত, গেমের আরও অনেক দিক রয়েছে যা স্থির মূল্যায়ন ফাংশনে এনকোড করা যায় যা গোতে করা যায় না। অনেক হিউরিস্টিকস এবং ভাল মূল্যায়নের কারণে, ইবিএফ (কার্যকর-শাখা-ফ্যাক্টর) বেশ ছোট। স্ট্যাটিক মূল্যায়ন ফাংশনের প্রতিস্থাপন হিসাবে নিউরাল নেটওয়ার্ক ব্যবহার করা ইঞ্জিনটি অবশ্যই অনেকটা কমিয়ে দেয়।