আলফাজিরো বনাম স্টকফিশ ম্যাচে ব্যবহৃত হার্ডওয়্যার


22

আমি বুঝতে পেরেছি যে নিয়মিত স্টকফিশের তুলনায় আলফাজিরোর জন্য আলাদা ধরণের হার্ডওয়্যার ব্যবহার করতে হবে। আমি আশা করব যে ইঞ্জিনের শক্তিতে হার্ডওয়ারটির একটি বড় প্রভাব রয়েছে। এ কারণেই আমি ভাবছি যে উভয়ের তুলনামূলক হার্ডওয়্যার সরবরাহ করার জন্য কোনও প্রচেষ্টা করা হয়েছে কিনা। এছাড়াও এখানে "তুলনীয়" অর্থ কী?

বিশেষত আমি পড়েছি যে লোকেরা অভিযোগ করে:

  • স্টকফিশকে কেবল 1 জিবি ক্যাশে দেওয়া হচ্ছে, এবং
  • 1 মিনিট / সরানোর সময়সীমা (কীভাবে এই স্টকফিশের ক্ষতি হবে?)

দৃশ্যমানভাবে হ্যাশের আকার, ক্যাশে নয়।
ফেডেরিকো পোলোনি

2
আমি জোরালোভাবে একটি প্রযুক্তিগত ফোরামে এটি জিজ্ঞাসা করার পরামর্শ দিচ্ছি ( এআই স্ট্যাক এক্সচেঞ্জের মতো , সম্ভবত "আলফাজেরো বনাম স্টকফিশের ম্যাচগুলিতে মূল্যায়নের ফেয়ারনেস" শিরোনাম), কারণ এখানে উত্তরগুলি ভাল না।
Veedrac

উত্তর:


20

এ কারণেই আমি ভাবছি যে উভয়ের তুলনামূলক হার্ডওয়্যার সরবরাহ করার জন্য কোনও প্রচেষ্টা করা হয়েছে কিনা।

এই গুগল আপনি কথা বলছেন! সুতরাং উত্তরটি অবশ্যই "না"।

আরম্ভ এবং প্রশিক্ষণের জন্য ব্যবহৃত মূল কাগজ হার্ডওয়্যার থেকে -

প্রশিক্ষণটি এলোমেলোভাবে শুরু হওয়া পরামিতি থেকে শুরু করে 700,000 পদক্ষেপের (4,096 আকারের মিনি-ব্যাচ) এগিয়ে চলেছে, স্ব-খেলাগুলি তৈরির জন্য 5000 টি প্রথম প্রজন্মের টিপিইউ (15) এবং নিউরাল নেটওয়ার্কগুলি প্রশিক্ষণের জন্য 64 টি দ্বিতীয় প্রজন্মের টিপিইউ ব্যবহার করে

এবং গেমগুলির জন্য ব্যবহৃত হার্ডওয়্যার -

আলফাজিরো এবং পূর্ববর্তী আলফাগো জিরো 4 টিপিইউ স্টকফিশ এবং এলমো সহ একটি শক্তিশালী দক্ষতার পর্যায়ে 64 টি থ্রেড এবং 1 জিবি আকারের হ্যাশ ব্যবহার করে একটি একক মেশিন ব্যবহার করেছে।

সুতরাং, আলফাওরো গুগল দ্বারা বিকাশিত বিশেষ হার্ডওয়্যার ব্যবহার করেছে। এটি বাণিজ্যিকভাবে উপলভ্য সাধারণ কেন্দ্রীয় প্রসেসিং ইউনিট (সিপিইউ) না হয়ে বিশেষায়িত টেনসর প্রসেসর ইউনিট (টিপিইউ) ব্যবহার করেছে।

উইকিপিডিয়া তাদের ব্যবহৃত দ্বিতীয় প্রজন্মের টিপিইউগুলি বর্ণনা করে -

দ্বিতীয় প্রজন্মের টিপিইউ মে ২০১ in সালে ঘোষণা করা হয়েছিল Google গুগল জানিয়েছিল যে প্রথম প্রজন্মের টিপিইউ ডিজাইনটি মেমরি ব্যান্ডউইথ সীমাবদ্ধ ছিল এবং দ্বিতীয় প্রজন্মের ডিজাইনে 16 গিগাবাইট উচ্চ ব্যান্ডউইথ মেমরি ব্যবহার করে ব্যান্ডউইদথ 600 গিগাবাইট / সেকেন্ডে উন্নীত হয়েছে এবং 45 টি টিএফএলপিএস হয়েছে। এরপরে টিপিইউগুলি 4-চিপ 180 টিএফএলপিএস মডিউলগুলিতে সাজানো হয়

তারা গেমসের জন্য 4 টিপিইউ ব্যবহার করেছে, তাই 180 টিএফএলপিএসের প্রক্রিয়াকরণ শক্তি। দ্রষ্টব্য TFLOPS = 1000 বিলিয়ন প্রতি সেকেন্ডে ভাসমান পয়েন্ট অপারেশন।

তুলনার জন্য ইন্টেলের সর্বশেষতম শক্তিশালী চিপটি কোর আই 9 এক্সট্রিম এডিশন প্রসেসর যা 1 টিএফএলওপি-তে রয়েছে। আই গেমের শীর্ষে আই 7 যা আপনি গেমিং মেশিনে পাবেন তা প্রায় 100 জিএফএলওপি (অর্থাত্ একটি টিএফএলওপির দশমাংশ) হবে।

আমি মনে করি এটা ঠিক আছে যে আলফাজেরো স্টকফিশের মাউসের তুলনায় একটি হার্ডওয়ার কনফিগারেশনের 800 পাউন্ড গরিলা ব্যবহার করছিল।


1
এফএলপিএস মানে প্রতি সেকেন্ডে ভাসমান পয়েন্ট অপারেশন। স্টকফিশ এবং আলফাজিরোর মূল অ্যালগরিদমে সম্ভবত ভাসমান পয়েন্ট গণিত ব্যবহার করা হয় না। সুতরাং এফএলপিএসের সংখ্যা প্রকৃতপক্ষে দাবা ইঞ্জিনের সাথে প্রসেসরের গতির একটি অর্থপূর্ণ পরিমাপ নয়।
রেনি পিজল

9
বিপরীতে, আমি বিশ্বাস করি যে নিউরাল জালগুলি বেশ নিবিড়ভাবে ভাসমান পয়েন্ট গণিত ব্যবহার করে। (তবে অবশ্যই আপনার মন্তব্যটি সঠিকভাবে উপলব্ধি করে এবং স্টকফিশের জন্য প্রযোজ্য))
ফেডেরিকো পোলোনি

3
আরও অনেক উপযুক্ত তুলনা হবে জিপিইউর সাথে; এনভিআইডিআইএ টেসলা ভি 100 আগের টি প্রজন্মের (পি 100) চেয়ে 120 টিএফএলপিএস করতে পারে যা কেবল প্রায় 20 করেছিল did
নিক টি 4 ই

12

আমি মনে করি যদি আমি আপনার দ্বিতীয় পয়েন্টটি আলফাজিরো এবং স্টকফিশের মধ্যে গেম 1-তে একটি উদাহরণ পদক্ষেপ সহ বিস্তারিতভাবে বর্ণনা করি যা আজ আমার কৌতূহলকে মেটানোর জন্যও কাজ করেছিল।

1 মিনিট / সরানোর সময়সীমা (কীভাবে এই স্টকফিশের ক্ষতি হবে?)

স্টকফিশের পারফরম্যান্স সময়সীমা এবং হার্ডওয়্যার কনফিগারেশন উভয়েরই উপর নির্ভরশীল , সুতরাং যখন কেউ সিপিইউ থ্রেডকে দ্বিগুণ করে, তখন স্টকফিশের প্রথম কনফিগারেশনের চেয়ে সমাধানটি খুঁজতে কম সময় (প্রয়োজনীয় অর্ধেক নয়) প্রয়োজন।

দাবা.কম-এ পোস্ট করা প্রথম প্রতিবেদনে কেউ দাবি করেছিলেন যে স্টকফিশ অনুকূলভাবে খেলছে না কারণ তিনি একই স্টকফিশটি কম্পিউটারে একই ফলাফল পুনরুত্পাদন করতে পারেননি। তিনি বলেছিলেন যে নীচের অবস্থানে (গেম 1 - মুভ 11) স্টকফিশ কেজি 1-এইচ 1 খেলেছে (এর রাজা স্থানান্তরিত হয়েছে) যা মোটেই কোনও অর্থবোধ করেনি। অন্যদিকে, তার কম্পিউটারের স্টকফিশ Be3 (অন্ধকার বর্গাকার বিশপটি সরান) এর মতো আরও বিকাশশীল পদক্ষেপ দেখিয়েছে, অবস্থানটি দেখতে দিন:

গেম 1 সরানো 11 এ

হ্যাঁ, এটি একটি প্যাসিভ পদক্ষেপ ছিল এবং মনে হয় স্টকফিশের আরও উন্নয়নশীল পদক্ষেপ নেওয়া উচিত ছিল। তবে সে ভুল ছিল। কেন? কারণ তিনি স্টকফিশটি 15 সেকেন্ডের জন্য দৌড়েছিলেন এবং যদি তিনি এটি এক ঘন্টা চালাতেন তবে তিনি কেজি 1-এইচ 1 অর্জন করতে পারতেন সেই অবস্থানের সেরা পদক্ষেপ হিসাবে। সম্ভাব্য সমস্ত পদক্ষেপগুলি আরও গভীরতার সাথে বিশ্লেষণ করলে স্টকফিশ তার সিদ্ধান্ত পরিবর্তন করে। আমার উত্তরে আমি মূলত যা বলেছিলাম তা এখানে :

আমি পজিশনে সর্বশেষ স্টকফিশটি চালিয়েছি (১১ পদক্ষেপে):

  • প্রথমদিকে, ইঞ্জিনটি প্রায় এক মিনিটের জন্য চলতে থাকলে এটি সর্বোত্তম পদক্ষেপ হিসাবে বি 4 দেয়। এর পরে, এটি সিদ্ধান্ত নেয় বি 3 আরও ভাল।
  • তবে আমার হার্ডওয়্যারে 5 মিনিটের পরে যা 1,400k নোড / গুলি চালিত হয় এটি Kh1 এর সাথে সর্বোত্তম পদক্ষেপ হিসাবে যাওয়ার সিদ্ধান্ত নেবে।

  • কাগজে বলা হয়েছে যে স্টকফিশ প্রতি সেকেন্ডে 70০,০০০ কে পজিশন গণনা করে এবং তা প্রতি মিনিটে এক মিনিটের জন্য চালানো হয়, এটি আমার হার্ডওয়ারের চেয়ে প্রায় 50 গুণ বেশি, তাই আমি আমার 50 মিনিটের জন্য চালিয়ে দেব ... কেজি 1-এইচ 1 এখনও আছে স্টকফিশ জন্য পছন্দ।

সময় সীমা কী

উপরের ক্ষেত্রে, স্টকফিশ দু'বার সময় দৌড়ালে সম্ভবত খুব বেশি কিছু যায় আসে না কারণ সিদ্ধান্তটি একই হত, তবে পরবর্তী পদক্ষেপে অবশ্যই তা হবে :

এখানে চিত্র বর্ণনা লিখুন

এই অবস্থানে স্টকফিশ বাম দিকে (এ 4-এ 5 ) প্যাঁচকে সরানো বেছে নিয়েছিল । আসুন ধরা যাক আমার কাছে একটি কম্পিউটার রয়েছে যা প্রতি সেকেন্ডে 1,400k নোডের গতিতে স্টকফিশ ইঞ্জিন চালায়, যা বাস্তব গেমের স্টকফিশের চেয়ে প্রায় 50 গুণ কম ( কাগজে লেখা আছে এটি 70,000kn / s)) সুতরাং আমি যদি প্রতি পদক্ষেপে 50 মিনিটের জন্য এটি চালাই তবে আমি গেমটি অনুকরণ করতে পারি। ঠিক আছে.

আমি উপরের অবস্থানের উপর স্টকফিশ বিশ্লেষণ চালিয়েছি এবং আমি নিম্নলিখিত ফলাফল পেয়েছি:

  • স্টকফিশ কিছু চালচলনের পরামর্শ দিয়েছিল, তবে আমার কম্পিউটারে 6 মিনিটের পরে ( রিয়েল গেমের স্টকফিশের সাথে 7.2 সেকেন্ডের সাথে মিলে যায়) গেমটি যেমন চলছে তেমন এটি a4-a5 পছন্দ করে

এটি ভাল, তবে আমি এই খেলায় স্টকফিশের গণনা পৌঁছাতে পুরো 50 মিনিটের জন্য এটি চালিয়ে রেখেছিলাম যাতে 1 মিনিটের অনুমতি ছিল:

দুঃখজনক সত্যটি আমি বিশ্বাস করি যে সময়সীমার কারণে স্টকফিশ তার সমস্ত গেম হারিয়েছিল। সময় পার হওয়ার সাথে সাথে স্টকফিশ আরও গভীরতর অনুসন্ধান এবং মূল্যায়ন পায় এবং গেমটিতে এটি একটি উদ্বোধনী বই ব্যবহার করার অনুমতি দেয় নি যা এটি অগভীর গভীরতায় বহু পদক্ষেপ বিবেচনা করে। নোট করুন যে আসল খেলায় a4-a5 খেলা হয়েছিল যা দেখায় যে (এটি ধরে নিয়ে যে প্রতি সেকেন্ডে 70 মিলিয়ন অবস্থানের মূল্যায়ন করতে পারে) গেমের স্টকফিশ এই পদক্ষেপে 21.6 সেকেন্ডের বেশি ব্যয় করেনি। অন্যথায়, এটি আসল গেমের অন্য তিনটি পদক্ষেপে তার সিদ্ধান্ত পরিবর্তন করে। এর কারণটি এখনও আমার কাছে স্পষ্ট নয় যেহেতু আমার স্টকফিশটিও কম স্মৃতি গ্রহণ করছিল ( মূল পেপারে উল্লিখিত 1 জিবি তুলনায় র্যামের প্রায় ~ ১৩০ এমবি, এটি ধরে নিচ্ছে যে এটির সবগুলি হ্যাশ টেবিলগুলিতে যায়)।


উপসংহার

স্টকফিশ যে হার্ডওয়্যারটি চালিয়েছিল, আমি উল্লেখ করেছিলাম, আমার বিশ্লেষণ করা চালনার উপর ভিত্তি করে খনি (আপডেট: একটি একক কোর) এর চেয়ে 18 গুণ বেশি দ্রুত ছিল। আমি নিশ্চিত নই যে আলফাজেরো 4 ঘন্টার মধ্যে তার নেটওয়ার্কগুলি প্রশিক্ষণের জন্য এই জাতীয় হার্ডওয়্যারটি সত্যই ব্যবহার করতে পারত, আমি কেবল দাবির মতো গেমের জন্য এটি খুব কম বলে ধরে নিতে পারি। তদতিরিক্ত, আলফাজেরো সেই ঘন্টাগুলি শেখার জন্য ব্যয় করেছিল যার মধ্যে দৃ solid় উদ্বোধনগুলিও অন্তর্ভুক্ত রয়েছে (এবং কাগজটি উল্লেখ করেছে যে নির্দিষ্ট খোলার চেয়ে পছন্দগুলি)। অন্যদিকে, স্টকফিশ খোলার ক্ষেত্রে প্রতিবন্ধী ছিল এবং এটি প্রতিটি পদক্ষেপে 60 সেকেন্ডের জন্য প্রতি সেকেন্ডে 70 মিলিয়ন অবস্থানের মূল্যায়ন করে না।

চূড়ান্ত নোট হিসাবে, আমি যা বলেছি সেগুলি আমার অনুমানের উপর ভিত্তি করে। অবশ্যই, আলফাজিরো এবং গেমগুলির ফলাফল আমার কাছে অত্যন্ত আকর্ষণীয় ছিল। তবে আমি এমন একটি খেলা দেখতে পছন্দ করতাম যেখানে আমার কম্পিউটারেও স্টকফিশের খেলা ঠিক একই রকম হয়। এটি হল, আরও সময় এবং একটি খোলার বই অনুমোদিত। প্রতিটি পদক্ষেপের উপর স্টকফিশ বিশ্লেষণের ফলাফলগুলি পাওয়াও সহজ, এবং আমি আশা করি তারা এটি কতটা কার্যকর করেছে তা প্রদর্শনের জন্য তারা এটি ছেড়ে দেয় release


1
সময়সীমা সম্পর্কে, আলফাজিরো কাগজে চিত্র 2 বিপরীতে দেখায়: স্টকফিশ কম বাজেটে ভাল, তবে আরও বিদ্যুৎ পাওয়া গেলে আরও আঁশযুক্ত। arxiv.org/pdf/1712.01815.pdf
old-

1
@ ওল্ড-ইউফো এটি নির্দেশ করার জন্য ধন্যবাদ Thanks আমি যেমন বলেছি, স্টকফিশের (এবং আলফাজিরো) পারফরম্যান্স হার্ডওয়্যার পাশাপাশি সময় সীমাতেও নির্ভর করে। উদাহরণস্বরূপ, যদি আমরা স্টকফিশকে আরও বেশি হার্ডওয়ার (এবং আলফাজিরো কম) দিয়ে থাকি এবং সেই চিত্রটি পুনরায় জেনারেট করি তবে এর লাইনটি এমনভাবে রূপান্তরিত হতে পারে যে এটি সর্বদা আলফাজিরো লাইনের উপরে থাকে। সুতরাং আমি অনুমান করি যে উভয় সিস্টেমের জন্য হার্ডওয়্যার তুলনা করার একটি ভাল পয়েন্ট যা মূল প্রশ্নের উত্তরও দেয়।
রেজিজটিটি

4

স্টকফিশের মূল লেখকদের একজন আপনার এখানে উল্লেখ করা নির্দিষ্ট অভিযোগের জবাব দেয়:

ইতোমধ্যে দাবা ডট কম একটি মূল স্টকফিশ লেখক, টর্ড রোমস্টাডের কাছ থেকেও একটি দীর্ঘ মন্তব্য পেয়েছে, যা আমরা সম্পূর্ণরূপে দেব:

সময় নিয়ন্ত্রণ এবং স্টকফিশের প্যারামিটার সেটিংসের পরিবর্তে অদ্ভুত পছন্দের কারণে ম্যাচের ফলাফলগুলি বিশেষভাবে অর্থবহ নয়: গেমগুলি 1 মিনিট / পদক্ষেপের একটি নির্দিষ্ট সময়ে খেলানো হয়েছিল, যার অর্থ স্টকফিশের সময় পরিচালনার হিউরিস্টিক্সের কোনও ব্যবহার নেই ( স্টকফিশ গেমের সমালোচনামূলক পয়েন্টগুলি চিহ্নিত করতে এবং কোনও পদক্ষেপে কখন অতিরিক্ত সময় ব্যয় করতে হবে তা স্থির করার ক্ষেত্রে প্রচুর প্রচেষ্টা করা হয়েছে; প্রতি চলার সময় একটি নির্দিষ্ট সময়ে শক্তিটি উল্লেখযোগ্যভাবে ক্ষতিগ্রস্থ হবে) will ব্যবহৃত স্টকফিশের সংস্করণটি এক বছরের পুরনো, এর চেয়ে বেশি অনুসন্ধানের থ্রেডের সাথে খেলছিল যা আগে কখনও উল্লেখযোগ্য পরিমাণে পরীক্ষার চেয়ে বেশি পেয়েছিল এবং থ্রেডের সংখ্যার জন্য খুব ছোট হ্যাশ টেবিল ছিল। আমি বিশ্বাস করি যে আরও স্বাভাবিক অবস্থার সাথে ম্যাচে ড্রয়ের শতাংশের পরিমাণ অনেক বেশি ছিল।

অন্যদিকে, এতে সন্দেহ নেই যে আলফাজিরো আরও ভাল কাজ করতে পারত যদি এই প্রকল্পে আরও কাজ করা হত (যদিও আপনি যখন প্রচুর পরিমাণে হার্ডওয়ার রিসোর্সগুলি ব্যবহার করে বিবেচনা করেন তখন কাগজে উল্লিখিত "4 ঘন্টা শেখার" বিষয়টি বিভ্রান্তিকর হয় এই 4 ঘন্টা সময়)। তবে যে কোনও ক্ষেত্রে, স্টকফিশ বনাম আলফাজেরো ওড়ানগুটানের সাথে আপেলের তুলনা খুব বেশি। একটি সাধারণ কম্পিউটারে চলমান একটি দাবা প্রোগ্রাম, অন্যটি মৌলিকভাবে বিভিন্ন কৌশল ব্যবহার করে এবং কাস্টম ডিজাইনের হার্ডওয়্যারে চলছে যা ক্রয়ের জন্য পাওয়া যায় না (এবং এটি যদি সাধারণ ব্যবহারকারীদের বাজেটের বাইরে চলে যায়)।

অন্য দৃষ্টিকোণ থেকে, আপেল বনাম ওরেঙ্গুটানস এ সম্পর্কে সবচেয়ে আকর্ষণীয় বিষয়: আমাদের এখন দুটি অত্যন্ত আলাদা (হার্ডওয়্যার এবং সফ্টওয়্যার উভয় দিকের) মনুষ্যনির্মিত সত্তা রয়েছে যা উভয়ই সুপার-হিউম্যান দাবা খেলার দক্ষতা প্রদর্শন করে। এটি আরও একটি দাবা প্রোগ্রামের চেয়ে আরও আকর্ষণীয় যা বিদ্যমান দাবা প্রোগ্রামগুলির মতো একই কাজ করে, এটি আরও কিছুটা ভাল। তদ্ব্যতীত, নতুন ডোমেনগুলিতে আলফাজিরো পদ্ধতির অভিযোজনযোগ্যতা ভবিষ্যতের জন্য উত্তেজনাপূর্ণ সম্ভাবনাগুলি খোলে।

দাবা খেলোয়াড়দের জন্য কম্পিউটার দাবা প্রোগ্রামগুলি একটি সরঞ্জাম হিসাবে ব্যবহার করে, সাশ্রয়ী মূল্যের জন্য উপযুক্ত হার্ডওয়ারের অভাবের কারণে কমপক্ষে স্বল্পমেয়াদে, এই ব্রেকথ্রুটির দুর্দান্ত প্রভাব পড়ার সম্ভাবনা নেই।

দাবা ইঞ্জিন প্রোগ্রামারদের জন্য - এবং আরও অনেক আকর্ষণীয় ডোমেনগুলিতে প্রোগ্রামারদের জন্য - মেশিন লার্নিং কৌশলগুলির উত্থান যা কার্যকর হওয়ার জন্য বিশাল হার্ডওয়ার রিসোর্সের প্রয়োজন হয় যা কিছুটা হতাশার বিষয়। কয়েক বছরে, এটি সম্পূর্ণ সম্ভব যে দাবা প্রোগ্রামের মতো একটি আলফাজিরো সাধারণ কম্পিউটারে চালানোর জন্য তৈরি করা যেতে পারে, তবে এগুলি তৈরি করতে প্রয়োজনীয় হার্ডওয়্যার সংস্থানগুলি শখের বা গড় আকারের সংস্থাগুলির বাজেটের বাইরেও থাকবে। স্বেচ্ছাসেবীদের দ্বারা পরিচালিত কম্পিউটারগুলির একটি বৃহত বিতরণ নেটওয়ার্কের সাথে একটি ওপেন সোর্স প্রকল্প কাজ করতে পারে তবে শত শত অনন্য দাবা ইঞ্জিনগুলির প্রত্যেকটি তাদের নিজস্ব স্বতন্ত্র এবং ব্যাক্তিত্বের সাথে চলে যাবে।

সূত্র: https://www.chess.com/news/view/alphazero-references-from-top-gms-stockfish-author


2

তুলনামূলকভাবে হার্ডওয়্যার চালানোর প্রয়োজন যদি গুগলের শেষ লক্ষ্যটি ছিল একটি উন্নত দাবা ইঞ্জিন তৈরি করা, তবে এই অনুশীলনটি দাবা সম্পর্কে সত্যই ছিল না। দাবা স্ক্র্যাচ থেকে জটিল কাজগুলি শিখার জন্য এআইয়ের ক্ষমতা প্রদর্শন করার জন্য একটি সহজ উপায়। এটি যদি স্টকফিশের কিছু অস্পষ্ট যুক্তিসঙ্গত কনফিগারেশনের বিরুদ্ধে ভাল পারফর্ম করতে পারে তবে এটি বক্সটি চেক করেছে।

আমি পূর্বাভাস দিচ্ছি গুগল দল দাবা নিয়ে বেশি প্রচেষ্টা ব্যয় করবে না; পরিবর্তে, তারা অন্যান্য সমস্যার দিকে এগিয়ে যাবে যা এআই কখনও অর্জন করতে সক্ষম হয় নি।


আমি +1 দিয়েছি কারণ আমার একই অনুভূতি রয়েছে।
স্মৃতিচেস

সম্ভাব্য বলে মনে হচ্ছে, যদিও তারা সন্দেহ করে যে তারা এটি প্রকাশ করত, যদি আলফাজেরো কেবলমাত্র একটি সামান্য ব্যবধানে হারাতে থাকে (যার অর্থ এটি এখনও স্টকফিশের সাথে তুলনীয় শক্তি হতে পারে)।
ব্যবহারকারী 1583209

@ user1583209 তারা সম্ভবত স্টকফিশকে নষ্ট করার জন্য প্রয়োজনীয় ন্যূনতম পরিমাণ শেখার সময় বের করার জন্য এটি প্রচুর পরিমাণে চালিয়েছিল। তারপরে তারা একটি চূড়ান্ত রান করেছে এবং সেগুলি প্রকাশ করেছে।
টি শেহেরার

1

আরও জানতে টকচেস ফোরাম দেখুন, সেখানে আপনি প্রায় 3000 প্রোগ্রামার পাবেন। এই সব ছিল একটি কেলেঙ্কারী। আলফা এসএফ এর চেয়ে 30 গুণ বড় হার্ডওয়ারে খেলল, 4 টিপিইউ বনাম 64 টি কোরের ores 4TPUs প্রায় 1000 কোর বা তারও বেশি হয়। আলফা অসংখ্য খোলার জিএম বিজয়ী গেমগুলির উপর প্রশিক্ষণপ্রাপ্ত ওপেনিং বইটি অনুকরণ করেছিলেন। এসএফের খুব কম হ্যাশ ছিল। টিসি চালুর প্রতি 1 মিনিটে স্থির করা হয়েছিল, এটি আবার এসএফের জন্য ক্ষতিকারক, যার সময় উন্নত সময় ব্যবস্থাপনার রয়েছে। টিপিইউতে আরও বেশি কোর সহ এসএমপি অদক্ষতার অভাব রয়েছে, তাই হার্ডওয়্যার সুবিধাটি আরও বড় ছিল। ইত্যাদি ইত্যাদি, তাই মূলত, গুগলের পক্ষ থেকে এটি ছিল একটি বিশাল প্রচারের স্টান্ট। বর্তমানে, আলফা সিঙ্গেল কোরের প্রায় 2800 এর কাছাকাছি, সুতরাং এসএফের নিচে 400 ইওলো এবং ভবিষ্যতে খুব বেশি অগ্রসর হবে না, এখন থেকে এটির জন্য এটি উন্নত মূল্যায়নের প্রয়োজন হবে যা এটি আবিষ্কার করতে সক্ষম হবে না। 4 ঘন্টা ইস্যু সম্পর্কিত, ভাল, LOL, এটি ছিল 48 ঘন্টা আগে, তাই এখন আলফা 5000 এলো এ কি? চলে আসো.


5
আপনি বিশ্বাস করছেন বলে মনে হয় যে আলফাজেরো স্টকফিশের মতো একই কাজ করে, মাত্র 1000 গুণ দ্রুত কারণ এটি 1000 গুণ শক্তিশালী হার্ডওয়্যার ব্যবহার করেছে। এই সব সত্য নয়। এটি একটি খুব পৃথক পদ্ধতির ব্যবহার করে এবং সেই পদ্ধতিরটি খুব সংস্থান নিবিড়। প্রকৃতপক্ষে, ম্যাচ চলাকালীন আলফাফেরো প্রতি সেকেন্ডে ৮০ হাজার পজিশনের মূল্যায়ন করছিল এবং স্টকফিশ প্রতি সেকেন্ডে million০ মিলিয়ন অবস্থান নিয়ে ছিল। এখন আমাকে বলুন যে একটি শক্তিশালী হার্ডওয়ারের কারণে আলফাজেরো জিতেছে। অবশ্যই CP৪ সিপিইউতে এটি ধীর হবে এবং এটি কীভাবে খেলবে কে জানে তবে মূল বিষয়টি হ'ল আলফাজিরো আরও ভাল ব্যয় করেও এটি আরও ভাল করে তোলে।
আইএ পেটর হারাসিমোভিচ

3
এসএফ হার্ডওয়্যারটির দাম 10 কেও কম হয়, আলফা একা 250 ডলারেরও বেশি। সিদ্ধান্তগুলি নিজেই আঁকুন। এনপিএস অর্থহীন, এবং প্রতিটি দাবা প্রোগ্রামার এটি জানে। আপনি সমস্ত ধরণের কৌশল করতে পারেন যাতে এনপিএস কম হয় তবে এর অর্থ এই নয় যে আপনি আরও শক্তিশালী খেলবেন। আমি এটি দেখতে চাই যে এটি এসএফ হার্ডওয়্যার এবং এসএফ-এর আলফা হার্ডওয়্যারে এই পদ্ধতির প্রয়োগ করে। ফলাফল অনুমান? এসএফের জন্য +85 -0 = 15। যদি তারা এত দুর্দান্ত হয় তবে তাদের কোডটি প্রকাশ করুন।
লিউডমিল সোয়েভকভ

3
"আলফা অসংখ্য খোলার জিএম জেতা গেমগুলির উপর প্রশিক্ষণপ্রাপ্ত ওপেনিং বইটি অনুকরণ করেছিলেন" " সিমুলেটেড খোলার বই, হ্যাঁ, তবে এটি জিএম গেমসে প্রশিক্ষিত? আপনি এই জন্য একটি উৎস আছে? আমার বোঝা ছিল আলফা পুরোপুরি বুটস্ট্র্যাপড।
আকাওয়াল

0

স্টকফিশ সিপিইউতে সীমাবদ্ধ তাই এটি জিপিইউ যে পর্যায়ে সক্ষম তা কখনই স্কেল করতে সক্ষম হবে না।

গোর ম্যাট্রিক্স গণনার জন্য এনপি সহ জিপিইউস স্কেল, যখন সিপিইউস স্কেল এন 3 , এই টেনসর কোরগুলি আরও অনুকূলিত করা হয়েছে এটি আপনার স্কেল করার সাথে সাথে সম্ভবত এটি আরও ভাল পারফরম্যান্স।


-2

প্রথম অনুচ্ছেদে আরও বিশদ, দ্বিতীয় সংক্ষিপ্ত এবং সহজ উত্তর তৃতীয় অনুচ্ছেদে পরিস্থিতি সম্পর্কে আমার মতামত

আলফাজিরো সহ হার্ডওয়্যারটির তার খেলার শক্তিতে 0 প্রভাব রয়েছে। এটি বেশি সময় নিতে পারে তবে এটি চিন্তা করার কারণে নয়। এটি একটি নিউরাল নেটওয়ার্ক, যার অর্থ আপনি এটি কোনও ভেক্টর (একক কলামের টেবিল) এ তথ্য ফিড করেন এটি কোনও দৈত্য টেন্সর (একটি 3 বা ততোধিক মাত্রার টেবিল) এর মাধ্যমে সাধারণ গণিত করে তবে উত্তরটি ছড়িয়ে দেয়। স্টকফিশের ভাল হওয়ার জন্য সময় প্রয়োজন কারণ এটি কোনও পদক্ষেপের পক্ষে সুবিধাজনক কিনা তা দেখার জন্য এটি সম্ভাব্য অবস্থানগুলি পরীক্ষা করে, তাই যত বেশি সমস্যা দেখায় তত বেশি অবস্থান / চলনগুলি এটি পরীক্ষা করতে পারে।

সত্যিকারের তুলনামূলক হার্ডওয়্যার সেটআপ নেই। তাদের বিভিন্ন চাহিদা রয়েছে বলে স্টকফিশকে আরও অবস্থান বিশ্লেষণ করতে হবে এবং আলফাওরোতে কেবল একটি পদক্ষেপ নেওয়া দরকার। এবং লোকজন বিচলিত হয়েছে কারণ আলফাজির কম্পিউটারটি প্রযুক্তিগতভাবে অনেক বেশি শক্তিশালী এবং তারা মনে করে যে সে ক্ষেত্রে তাদের সমান হওয়া উচিত। তবে, আলফাজ্জোর প্রশিক্ষণের পরে সেই সুপার কম্পিউটারের দরকার নেই।

আমার মতে তারা উভয় পক্ষকে কী দেয় তা বিবেচনাধীন নয়, যদি না স্টকফিশের অযৌক্তিক পরিমাণ সময় না পাওয়া যায় তবে সম্ভবত এটি আরও কয়েকটি গেম টাই করবে তবে সাধারণভাবে একইরকম প্রভাব ঘটবে effect এই কারণেই আমি এটি মনে করি, স্টকফিশ প্রাথমিকভাবে টুকরা এবং তাদের মানগুলির সাথে মূল্যায়ন করে যখন, আলফা কৌশলগতভাবে গুরুত্বপূর্ণ কী তা বুঝতে লক্ষ লক্ষ গেম খেলেছিলেন (সম্ভবত) games এজন্যই আলফা স্টকফিশের চেয়ে অনেক বেশি পরিমাণে ঝাঁকুনি খায় তবে বিশাল অবস্থানগত সুবিধা অর্জন করে।


এটা ঠিক ভুল। আলফাজিরো গাছের সন্ধান করে। আরও হার্ডওয়্যার এটিকে আরও শক্তিশালী করে তোলে। স্টকফিশের চেয়ে আরও ভাল খেলতে এটির জন্য এক টন হার্ডওয়্যার প্রয়োজন।
ব্লাইন্ডকংফিউমাস্টার

এই পোস্টে কিছুই ঠিক নেই ...
স্মার্টচেস

এই সিস্টেমটি 3 টি নিউরালনেট এবং আংশিক মনরো কার্লো ট্রি অনুসন্ধানের উপর ভিত্তি করে, সুতরাং আপনি বৃক্ষ অনুসন্ধান ব্যবহার করে এটি সম্পর্কে সঠিক। খেলার সময় এটিতে মান এবং নীতিমালার আলফাগোতে বিকশিত দুটি নিউরাল নেটওয়ার্ক নীতি ব্যবহার করা হয়। গো এমন একটি গেম যা গণনার ক্ষমতার মাধ্যমে করা যায় না কারণ এটি দাবা থেকে জ্যোতির্বিজ্ঞানের চেয়ে জটিল। সুতরাং যদি আমি বিশ্বাস করি যে এটি একটি ব্রুট ফোর্স অ্যালগরিদমের চেয়ে আরও বেশি কম্পিউটিং শক্তি প্রয়োজন তবে আপনি বিভ্রান্তিকর। বা মিস মিস। তৃতীয় নিউরাল নেট ব্যাক প্রসারণের পরিবর্তনগুলি অনুমান করে শেখার প্রক্রিয়াটি প্রসারিত করতে ও চেষ্টা করতে ব্যবহৃত হয়। আলফাজেরো শক্তি এমসিটি নয় নেটগুলিতে রয়েছে।
এজেকাল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.