আলফা জিরো কীভাবে "আরও বেশি মানুষ"?


35

আমি আলফা জেরো সম্পর্কে সম্ভবত একটি নির্বোধ প্রশ্ন আছে। আমি এটি অন্যান্য কম্পিউটারের তুলনায় "আরও বেশি মানুষের" রীতিতে খেলতে দেখলাম, তবে এটি যাই ঘটুক না কেন এটি প্রায় 100 ইএলও পয়েন্ট অর্জন করে। কাস্পারভ এবং আরও অনেকে দাবি করেছেন যে একটি কম্পিউটারের সহযোগিতায় একজন শক্তিশালী মানুষ একটি শক্তিশালী কম্পিউটারকে পরাজিত করবে (সম্ভবত প্রায় 100 ইএলও ??)? সুতরাং একটি সুস্পষ্ট প্রশ্ন হ'ল, আলফাজেরো কীভাবে "সেন্টার" সংমিশ্রণের সাথে তুলনা করবে?

কয়েকটি গেমের দিকে তাকিয়ে আমি কী লক্ষ্য করেছি যে বেশিরভাগ কম্পিউটারগুলি তাদের নিজস্ব গতিশীলতা সর্বাধিকতর করে প্রশস্ত উন্মুক্ত গেম খেলে তবে প্রতিপক্ষের গতিশীলতা সীমাবদ্ধ করতে আলফাজেরো খুব উদ্বিগ্ন বলে মনে হয়। কোনও মানব খেলোয়াড়ের মধ্যে আমি এটিকে শৈলীর বিষয় হিসাবে বর্ণনা করব, কম-বেশি মানুষের নয়।


4
এটি মূল্যবান কিসের জন্য, কাসপারভের দাবিটি খুব তারিখের। একটি মানবিক এবং সহযোগিতায় কম্পিউটার ("অ্যাডভান্সড দাবা" বা "সেন্টার দাবা") নিজের কম্পিউটার থেকে আর পারফরম্যান্স করতে পারে না - কম্পিউটারগুলি খুব ভাল - ম্যাগনাস কার্লসেনের জন্য 25 2825 এর তুলনায় স্টকফিশ 8 কোথাও 3400 আইআইআরসি-র কাছাকাছি রেট দেওয়া হয়েছে 8 ।
স্টিফেন টাউসেট

8
@ স্টেফেনটাইসট ইঞ্জিনগুলির জন্য ইলো রেটিং সম্পর্কে সতর্কতা অবলম্বন করুন। আমি যেগুলি সর্বাধিক দেখেছি সেগুলি হ'ল ইঞ্জিন বনাম ইঞ্জিনের তুলনা যা সত্যিকারের মানুষের কাছে মানক করা হয়নি। প্রাসঙ্গিক উইকিপিডিয়া উক্তি: "এই রেটিংগুলির [...] ফিড ইলো রেটিং বা মানব খেলোয়াড়দের দাবা ফেডারেশনের অন্যান্য রেটিংগুলির সাথে কোনও প্রত্যক্ষ সম্পর্ক নেই the আজকের স্তর থেকে), এই রেটিং তালিকার কোনও এবং প্লেয়ার পুলের মধ্যে কোনও ক্রমাঙ্কন নেই ""
এমব্রিগ

1
আমি মনে করি মানক সময় মান নিয়ন্ত্রণে পারে না। দীর্ঘ চিঠিপত্রের গেমগুলি ঠিক হওয়া উচিত।
স্মৃতিচেস

4
ওহ, আলফাজেরো একটি গুগল পণ্য। সুতরাং আশ্চর্যের কিছু নেই যে আপনি অন্যান্য সংস্থাগুলির পণ্যের চেয়ে এটি সম্পর্কে আরও প্রচার শুনতে পাবেন will আমি অনুমান করি যে তাদের লেখক এবং প্রকাশকদের সাথে আরও ভাল চুক্তি রয়েছে। ওয়েমো সম্পর্কে যে কোনও কিছুর মতো লবণের গাদা দিয়ে এটি নিন।
কোডারওয়ার্ক

উত্তর:


33

পেজে 5 পৃষ্ঠায় আপনার উত্তর রয়েছে:

... আলফা জেরো তার গভীর নিউরাল নেটওয়ার্ক ব্যবহার করে সবচেয়ে বেশি প্রতিশ্রুতিবদ্ধ বৈচিত্রের জন্য আরও বেশি নির্বাচনের জন্য ব্যয় করে নিম্নের মূল্যায়নের জন্য ক্ষতিপূরণ দেয় - সম্ভবত দাবা করার জন্য আরও "মানব-জাতীয়" পদ্ধতির ...

"সিলেক্টলি" হ'ল মূল শব্দ। ওটার মানে কি? আসুন আমাদের উদাহরণের জন্য নিম্নলিখিত অবস্থানটি ব্যবহার করুন:

https://chess24.com/en/read/news/london-classic-5-caruana-shows-how-it-s-done

মানসম্পন্ন

এটি লন্ডন দাবা ক্লাসিক 2017 সালে Caruana দ্বারা জিতেছে একটি সাম্প্রতিক খেলা। হোয়াইট বিশপের উপর আক্রমণ করা হয়েছে এবং আপনি জানেন যে আপনাকে এটি সরিয়ে নিতে হবে। তবে কোথায়?

সম্ভাবনা (এক টুকরো হারানো নয়):

  • BH4
  • Be3
  • Bd2
  • Bc1

কারুয়ানা কী ভাবছিল?

আমার মনে হয়েছিল আমি একসময় হেরে যাব, কিন্তু যখন দেখলাম, 25. বিসি 1 হঠাৎ আমার সম্ভাবনা সম্পর্কে আমি আরও কিছুটা আশাবাদী হতে শুরু করেছি। আমি বুঝতে পারি আমার অবস্থান খারাপ, তবে কমপক্ষে আমার একটি পরিকল্পনা ছিল এবং এই অবস্থান সম্পর্কে কিছুটা আত্মবিশ্বাসের জন্য আমার সত্যই দরকার ছিল। আমি যখন এই বি 3 দেখেছি, সি 4 অবস্থানটি দ্বিগুণ এবং আমার কিছু সম্ভাবনা রয়েছে।

এটি মানুষের চিন্তাভাবনা , এবং একটি "মানব পদক্ষেপ"। Caruana নি BH4, Be3 এবং Bd2 বিবেচিত কারণ তারা "লাগছিল" খারাপ। তিনি কেবল এবং কেবল বিসি 1 পদক্ষেপে মনোনিবেশ করেছিলেন ।

মানুষ খুব নির্বাচনীভাবে দাবা খেলা করে , আমরা অযৌক্তিক পদক্ষেপগুলি বাতিল করি কারণ সমস্ত সম্ভাবনা সমানভাবে পরীক্ষা করার আমাদের কাছে সময় নেই।

  • আমরা ভি 4 কে ত্যাগ করি কারণ এটি এইচ 6 প্যাডে উত্তেজনা প্রকাশ করে
  • আমরা বি 3 কে ফেলে দিই কারণ এটি তৃতীয় র‌্যাঙ্কে থাকা দুটি সাদা রুককে ব্লক করে
  • আমরা বিডি 2 ত্যাগ করি কারণ এটি হোয়াইট রানিকে রাজার পক্ষে অবরুদ্ধ করে

আলফাজেরো সেই কাগজে দাবি করার চেষ্টা করছে। তারা দাবি করে যে তাদের অ্যালগোরিদম স্টকফিশের চেয়ে ধীর হলেও অনুসন্ধানে স্টকফিশের চেয়ে বেছে বেছে বেছে বেছে নিতে সক্ষম । স্টকফিশটি দ্রুততর হলেও এটি খারাপ পদক্ষেপে সময় নষ্ট করে। আলফাজেরো ধীর গতির, তবে এটি আরও সুনির্দিষ্ট (কারুয়ানা যা করছিল তার মতো)।

উদাহরণস্বরূপ, আলফাজিরো বিসি 1 তে 80% সংস্থান এবং অন্যান্য সমস্ত বিশপ পদক্ষেপে 20% ব্যয় করতে পারে। স্টকফিশ প্রতিটি পদক্ষেপের জন্য 25% দিতে পারে (ভি 4, বি 3, বিডি 2, বিসি 1)।


1
সুতরাং, মূলত, প্লে শৈলীটি অগত্যা আরও বেশি মানুষের নয়, তবে কী খেলার পরবর্তী পদক্ষেপটি তা অনুসন্ধান করার পদ্ধতির। কমপক্ষে কাগজ অনুযায়ী। এছাড়াও, আমি এটি সম্পাদনা করতে পারি না, তবে আপনার কারুয়ানা উদ্ধৃতিতে বেশ বড় টাইপ রয়েছে: "যখন আমি তার বি 3 দেখলাম, সি 4" হওয়া উচিত "যখন আমি এই বি 3 দেখেছি, সি 4"
আর্থার

@ আর্থার কাগজ অনুসারে (এবং কেবল কাগজটি), খেলার শৈলীটি অগত্যা বেশি মানবিক নয়। আমি না বলছি না, তবে কাগজে কিছু নেই বলে।
স্মৃতিচেস

এক্স শোষণকে নিয়ন্ত্রণ করার জন্য মন্টি কার্লো অ্যালগরিদমগুলির একটি প্যারামিটার রয়েছে, যাতে আলফা-বিটা কখনই বিবেচনা করে না (এমন কারণে সময়ের কারণে), আলফা শূন্য করে।
ফার্নান্দো

@ ফার্নান্দো আপনি কি প্রতিক্রিয়া জানাতে পারেন? আমি বিষয়টি দেখতে লড়াই করি। এছাড়াও 'সময়ের কারণে কখনই বিবেচনা করবেন না' বলে আমি বিভ্রান্ত হয়ে পড়েছি। আলফা-বিটা অনুসন্ধানগুলি এমন শাখাগুলিকে অগ্রাহ্য করে যা ইতিমধ্যে অন্বেষণ করা কয়েকটি শাখার চেয়ে পরিষ্কারভাবে খারাপ। সময়ের সাথে এর কী করার আছে তা আমি দেখছি না।
আইএ পেটর হারাসিমোভিক 15

মূলত, যদি একটি লাইন +0.32 হয় এবং অন্যটি +0.13 হয়, তবে আলফাজিরো আগেরটির জন্য সময় ব্যয় করবে।
জেসি ক্যাল্ডারন

16

বেশিরভাগ শক্তিশালী ইঞ্জিনগুলি একটি অতিমাত্রায় মূল্যায়ন ফাংশন ব্যয় করে খুব গভীরভাবে দেখার উপর জোর দেয়। আলফাজিরো কাগজে, তারা বলেছে যে স্টকফিশ প্রতি সেকেন্ডে million০ মিলিয়ন অবস্থান দেখায়।

মানব গ্র্যান্ডমাস্টাররা প্রকৃতপক্ষে ইঞ্জিনের তুলনায় খুব কম পজিশনের দিকে তাকান, তবে তাদের দেওয়া অনুভূতি রয়েছে যে প্রদত্ত অবস্থানে আরও ভাল is

আলফাজেরো প্রতি সেকেন্ডে কেবলমাত্র ৮০,০০০ পজিশনের দিকে নজর রেখেছিল তাই এটি এর মূল্যায়ন কার্যক্রমে আরও বেশি সময় ব্যয় করে।

এটাই সেই অর্থে যার অর্থ তারা "আরও বেশি মানুষের মতো", এর চেয়ে বেশি কিছুই নয়।


11

আলফাজেরো ইতিমধ্যে মনে হচ্ছে একটি ইঞ্জিন সহায়তায় নিয়মিত "সেন্টার" -> করপোরেশন জিএম এর মতো খেলবে।

একটি এফএম হিসাবে আমি নিয়মিত ইঞ্জিন বনাম আলফাজিরো খেলতে আরও অনেক উপভোগ করতাম।

একটি তুলনা এটি কারপভের মতো খেলে যেমন নিখুঁত কৌশল নিয়ে আসে। (খেলা 9 আলফাজিরো 15 টাকার জন্য এক টুকরো খেলে যা খুব তালের মতো)।

এটি কেবল স্টাইল নয়, আলফাজেরো স্টকফিশের চেয়ে ভাল অবস্থানগুলি বোঝার একটি ধারণা দেয়।

আলফাজেরো হরিজন এফেক্টেও ভুগছে না যা এখন পর্যন্ত সমস্ত দাবা ইঞ্জিন ভোগ করেছে। বারবার এটি স্টকফিশের চেয়ে আরও নিচে অবস্থানের অবস্থানের সঠিকভাবে মূল্যায়ন করতে সক্ষম হয়।

এখানে একটি উদাহরণ:

আলফাজেরো - স্টকফিশ, আলফাজেরো বনাম স্টকফিশ: আলফাজারো - স্টকফিশ, 2017-12-05, 1-0
1. d4 e6 2. e4 d5 3. Nc3 Nf6 4. e5 Nfd7 5. f4 c5 6. Nf3 cxd4 7. Nb5 Bb4 + 8. Bd2 Bc5 9. b4 Be7 10. Nbxd4 Nc6 11. c3 a5 12. b5 Nxd4 13। cxd4 Nb6 14. A4 Nc4 15. Bd3 Nxd2 16. Kxd2 Bd7 17. Ke3 B6 18 G4 শিরোলেখ 5 19 Qg1 hxg4 20 Qxg4 Bf8 21. H4 Qe7 22. Rhc1 G6 23 Rc2 Kd8 24. Rac1 Qe8 25. Rc7 Rc8 26. Rxc8 + + Bxc8 27. Rc6 BB7 28. Rc2 Kd7 29 Ng5 Be7 30. Bxg6 Bxg5 31 Qxg5 fxg6 32 F5 Rg8 33. Qh6 Qf7 34. F6 Kd8 35 Kd2 Kd7 36 Rc1 Kd8 37। Qe3 Qf8 38. Qc3 Qb4 39. Qxb4 axb4 40. Rg1 b3 41. Kc3 Bc8 42. Kxb3 Bd7 43. Kb4 Be8 44. Ra1 Kc7 45. a5 Bd7 46. ​​axb6 + Kxb6 47. Ra6 + Kb7 48. Kc5 আরডি 8 49. রা 2 আরসি 8 + 50. কেডি 6 Be8 51. কে 7 জি 5 52. এইচএক্সজি 5 1-0

আলফাজিরো বাদশাহকে কেন্দ্র করে খেলছেন 16. কেএক্সডি 2! মাঝের খেলায় সঠিকভাবে বিচার করে যে কালো এটি কোনও সুবিধা নিতে পারবে না।

এটি কোনও অংশের ত্যাগের মূল্যায়ন সঠিকভাবে করতে সক্ষম 30. বিএক্সজি 6! নিয়মিত ইঞ্জিনগুলি দেখতে সক্ষম হয় না যে তারা বেশ কয়েকটি পদক্ষেপের জন্য হারিয়ে গেছে।

  1. এফ 5 খুব সুন্দর।

গেম 3 এ এক্সচেঞ্জ কোরবানির মতো আরও উদাহরণ রয়েছে।


8

ব্যান্ডওয়্যাগনে ঝাঁপ দেওয়া যেমন সহজ, তেমনি বিপরীত ওয়াগনে ঝাঁপিয়ে পড়ে আলফা-জিরোর নাটকটি পুরোপুরি 'এলিয়েন' বলে আলফা-জিরোর নাটকটি পূর্ববর্তী কম্পিউটার দাবা প্রোগ্রামগুলির চেয়ে 'বেশি' মানব। এটি স্পষ্ট নয় যে আলফা-শূন্যের নাটকটি 'মানবিক' বিশেষত নৃতাত্ত্বিকতার প্রতি আমাদের মানুষের প্রবণতা দেখায়।

দাবা (মানুষের) মনের লড়াই হিসাবে

তবে দাবাতে কি এই প্রবণতাটি সত্য? ম্যাগনাস কার্লসেন একবার 'traditional তিহ্যবাহী ' কম্পিউটারগুলিতে কীভাবে মানুষের সৃজনশীলতার অভাব বলে বলেছিলেন:

"দাবা সবই মানুষের মনের মধ্যে লড়াই সম্পর্কিত That's এটিই উত্তেজনাপূর্ণ করে তোলে Computer কম্পিউটার দাবা যান্ত্রিক, শুষ্ক এবং নরম। , কেবলমাত্র আপনি খুব উচ্চ দৃty়তার সাথে হারাবেন না, তবে আপনি প্রক্রিয়াতেও বিরক্ত হবেন।

ম্যাগনাস কার্লসেন styতিহ্যবাহী দাবা কম্পিউটারগুলিতে মানুষের স্টাইলের খেলার প্রমাণ দেখতে পান নি see সুতরাং আলফা-জিরোর সাম্প্রতিক অর্জন কী এই দৃষ্টিকোণটি পূর্বাবস্থায় ফেলেছে এবং আমাদের আরও নিজেকে স্মরণ করিয়ে দেওয়ার মতো কিছু দিকে নিয়ে গেছে কিনা তা পরীক্ষা করে দেখা যাক।

যদি 'মানব-জাতীয়' দ্বারা আপনি খেলাকে বোঝান "আচরণটি আচরণের আমাদের নৃতাত্ত্বিক বোধের প্রতি আকৃষ্ট হওয়ার সম্ভাবনা বেশি থাকে" তবে কি আলফা-শূন্যের স্টাইলটি আরও বেশি মানুষের মনে হচ্ছে? আমরা কীভাবে এই ব্যক্তিগত মায়োপিক মানুষকে মানবেতর জিনিসগুলির উপর নির্ভর করতে পছন্দ করি? আসুন জিজ্ঞাসা করি - এলগরিদম কি তার খেলার স্টাইলে 'বেছে বেছে আরও ভাল' বা 'আরও বেশি মানব সৃজনশীল পছন্দ' প্রদর্শন করে?

অ্যালগরিদমের নির্মাতারা ইঙ্গিত করে যে স্টকফিশ যা আলফা-বিটা অনুসন্ধান অ্যালগরিদম ব্যবহার করে তার বিপরীতে, আলফা-জিরো একটি মন্টে-কার্লো ট্রি সন্ধান (এমসিটিএস) অ্যালগরিদম নিয়োগ করে যা পূর্ববর্তী ফলাফলগুলি থেকে তৈরি ~ পৃষ্ঠা Master. শোগি বাই জেনারেল রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম সহ সেলফ-প্লে )।

সুতরাং অ্যালগরিদম পছন্দ মোটেও প্রদর্শন করে না। এটি প্রকৃতপক্ষে একটি এলোমেলো তবে সম্ভাব্য মন্টি-কার্লো অনুসন্ধানে জড়িত যেখানে এটি উপলভ্য সম্ভাব্য অনুসন্ধানের পথগুলি পূর্বের ফলাফলগুলির দ্বারা ক্রমবর্ধমানভাবে কুসংস্কারযুক্ত। আলফা-শূন্য কি তার খেলার স্টাইলটি এভাবেই অপ্টিমাইজ করতে বেছে নিয়েছিল বা এটিই এর প্রোগ্রামারদের পছন্দ?

আলফা-শূন্যের সবসময় বিবেচনার জন্য এটির জন্য সমস্ত সম্ভাব্য পদক্ষেপ পাওয়া যায় বা কিছু চালচলন অ্যালগোরিদমিকভাবে এমনভাবে হয় যে অভিজ্ঞতার নকল করে যা মানবতাত্ত্বিকভাবে ব্যাখ্যা করা যায়?

প্রথমদিকে এটিতে সমস্ত চাল উপলব্ধ ছিল তাই এর 'স্টাইল' পুরোপুরি এলোমেলো ছিল। যাইহোক এটির অনুসন্ধান ক্রমশ বাড়ছে এবং পূর্বের সাফল্য বা ব্যর্থতার দ্বারা সীমাবদ্ধভাবে এর শৈলীটি আসলে এর মোডের দিকে পরিবর্তিত হচ্ছে যা এর প্রোগ্রামাররা এটিকে বেঁধে রেখেছে। এটি কি 'বেশি মানব' তবে? এটি ম্যাগনাস কার্লেনের সাথে তুলনা করুন যারা কখনও কখনও কম অনুকূল পদক্ষেপগুলি বেছে নেবেন কারণ তারা আরও সৃজনশীল :

ম্যাগনাস কার্লসেন: "আমি অনন্য কিছু তৈরি করার প্রশংসা করি"

দাবা (স্ট্রাগল অফ মাইন্ড)

মানুষ তাদের নিজস্ব স্টাইলের চালনা করে এমন মানদণ্ড বেছে নিতে পারে (উদাহরণস্বরূপ আমি প্রায়শই আমার নিজস্ব স্টাইলে আবেগ এবং ত্রুটি বেছে নিয়েছিলাম)। অনেকে উভয় দাবাতে আলফা-শূন্যের খেলা দেখেন এবং সিদ্ধান্তযুক্ত এলিয়েন হিসাবে যান । এমআইটির কম্পিউটার সায়েন্স অ্যান্ড আর্টিফিশিয়াল ইন্টেলিজেন্স ল্যাবরেটরির (সিএসএআইএল) স্নাতক শিক্ষার্থী নিক হাইনেস লক্ষ করেছেন:

“আমরা এখানে যা দেখছি তা মানব পক্ষপাত এবং ধারণা থেকে মুক্ত একটি মডেল: এটি সর্বোত্তম যেটি নির্ধারণ করে তা শিখতে পারে, যা সত্যই আমাদের নিজস্ব ধারণাগুলি সম্পর্কে আরও সংক্ষিপ্ত হতে পারে। এটি একটি বিদেশী সভ্যতার মতো নিজস্ব গণিত আবিষ্কার করে যা এটি সময় ভ্রমণের মতো জিনিসগুলি করতে দেয় ... "

তেমনি জিএম পিটার হেইন নিলসন দা.কমকে বলেছেন :

"কাগজটি পড়ার পরে কিন্তু বিশেষত আমার মনে হওয়া গেমগুলি দেখার পরে, আমি সবসময় ভাবতাম যে কোনও উন্নত প্রজাতি পৃথিবীতে অবতরণ করে এবং তারা কীভাবে দাবা খেলায় তা দেখিয়ে দিলে কেমন হয়। আমি এখন বুঝতে পেরেছি।"

দেখে মনে হয় আলফা-শূন্যের উদীয়মান শৈলীর বেশিরভাগই 'এলিয়েন প্লে' হিসাবে খেলেন, এবং 'বেশি মানুষ' হিসাবে নয়।

সুতরাং উপরের উত্তরগুলির সাথে একমত হওয়ার কারণ রয়েছে যা 'হ্যাঁ' বলে।


3
আপনার উত্তরটি বেশ বিভ্রান্তিকর এবং জায়গায় ভুল c এমসিটিএসের ব্যবহার গুরুত্বপূর্ণ পার্থক্য নয়, এটি স্টকফিশকে পরাভূত করতে পারে না। তারা আলফা-বিটা অনুসন্ধানও ব্যবহার করতে পারে, তারা কেবল অনুভব করেছিল যে তাদের জন্য এমসিটিএস আরও ভাল কাজ করেছে। আলফাজিরো অ্যালগরিদমের প্রধান উপাদানগুলি হ'ল একটি গভীর সমঝোতা সংক্রান্ত নিউরাল নেটওয়ার্ক, রিইনফোর্সমেন্ট লার্নিং (অর্থাৎ নেটওয়ার্কটি স্ব-খেলায় সুরযুক্ত) এবং একটি গাছ অনুসন্ধান (যা এমসিটিএস হতে পারে তবে এটি প্রয়োজনীয় নয়)। এটিতে হস্তশিল্পের কোনও কিছুই নেই যা এইভাবে বলেছে যে "এর স্টাইলটি আসলে এর মোডের দিকে পরিবর্তিত হচ্ছে যা এর প্রোগ্রামাররা এটিকে বেঁধে দিয়েছে" ভুল is
আইএ পেটর হারাসিমোভিক 15

"দাবা সবই মানুষের মনের মধ্যে লড়াই সম্পর্কিত That's এটিই উত্তেজনাপূর্ণ করে তোলে Computer কম্পিউটার দাবা যান্ত্রিক, শুষ্ক এবং নরম। একজন বেনামে প্রতিপক্ষ বাজানো যে কোনও মানুষ বা কম্পিউটার হতে পারে, এমন একজন জিএম নিয়ে বেশ কয়েকটি জিএম নিয়ে কোনও ভালভাবে পরিচালিত ট্যুরিং-টেস্ট স্টাইল পরীক্ষা করেছেন?

আপনি যদি বিশ্বাস করেন যে আমার বক্তব্যটি হ'ল এমসিটিএস হ'ল গুরুত্বপূর্ণ পার্থক্য (আলফা-শূন্য এবং স্টকফিশের মধ্যে) - আপনি আমার বক্তব্য অনুপস্থিত। আমার বক্তব্যটি হ'ল মানুষ, আলগোরিদিম নয় আলফা-শূন্যের খেলার শৈলীর সিদ্ধান্ত নিয়েছে, আলফা-শূন্যের সিদ্ধান্ত নিয়েছে। আমার বক্তব্যটি হ'ল এই খুব মানবিক পছন্দগুলি এমন একটি প্লে স্টাইল দেয় যা GMs এবং অপেশাদারদের উপর দৃ decided়ভাবে সিদ্ধান্ত নেয় না হিসাবে মানব হিসাবে আঘাত করে।
ব্যবহারকারী 34445

ডাঃ ইভাল চেক আউট - cs.stackexchange.com/ প্রশ্নগুলি
68249

1
@ ব্যবহারকারী 34445 আসলে, আমি মনে করি যে অনুচ্ছেদের কোনও লাভ নেই, আমি কেবল এটি যুক্তিযুক্ত করার চেষ্টা করছিলাম। মানুষ আলফাজিরোর খেলার স্টাইলটি স্থির করেনি, তারা শিখার স্টাইলটি স্থির করেছিল। কীভাবে দাবা খেলতে হয় সে সম্পর্কে তাদের দৃষ্টিভঙ্গি তারা অবশ্যই এতে চাপিয়ে দেয়নি।
আইএ পেটর হারাসিমোভিক

5

এটি বেঁচে থাকার জন্য অবিশ্বাস্যভাবে আকর্ষণীয় সময়।

1970 এর দশক থেকে শুরু করা দাবা কম্পিউটারগুলি আলফা-বিটা ছাঁটাই ব্যবহার করে মিনিম্যাক্স-ট্রি ভিত্তিক অনুসন্ধান অ্যালগরিদম হয়েছে। কম্পিউটারের গতি এবং সমান্তরালতাতে অগ্রগতি এবং শাখাগুলি ছাঁটাই করার জন্য এবং লিফ নোডগুলি নির্বাচন করতে ব্যবহৃত হিউরিস্টিক evভাল ফাংশনের উন্নতির কারণে এই প্রোগ্রামগুলি আরও দৃ and় ও শক্তিশালী হয়েছিল। কিন্তু মানুষ দীর্ঘকাল লক্ষ্য করেছে যে কীভাবে বস্তুবাদী এবং বিরক্তিকর কম্পিউটার প্লে হয় এবং অনেক লোক (আমার অন্তর্ভুক্ত) মনে করেছিল যে "মানব" স্বজ্ঞাতটিকে সফ্টওয়্যারটিতে এনকোড করা অসম্ভব।

তবে আপনি কি এই গেমগুলি দেখেছেন?

দীর্ঘমেয়াদী অবস্থানগত সুবিধার জন্য উপাদান ত্যাগের বেশ কয়েকটি উদাহরণ সহ আলফাজেরো অবিশ্বাস্যভাবে সুন্দর নাটকটি প্রদর্শন করছে। এটি মানব মাস্টারদের কাছ থেকে কিছু সুন্দর গেমগুলির স্মরণ করিয়ে দিচ্ছে, তবে পাশাপাশি অদ্বিতীয় প্রযুক্তিগত নির্ভুলতাও রয়েছে। এটি আমার জীবনের প্রথম উদাহরণ যা আমি কম্পিউটার-উত্পাদিত এবং গভীর সৌন্দর্যও ধারণ করে এমন কোনও কিছু দেখেছি ।


সেন্টার দাবী:

আমি গ্যারিকে অনেকবার এটি বলতে শুনেছি, তবে এটি ঠিক সত্য নয়। বা কমপক্ষে, দৃশ্যে আলফাজিরোর সাথে এটি আর সত্য হবে না।

এটি কল্পনা করুন: এখানে একটি টুকরো থল রয়েছে যার 10,000 টি প্রাসঙ্গিক ধারাবাহিকতা রয়েছে, যেখানে তাদের 5000 টি খাঁটি কৌশলগত (তবে বেশিরভাগই একে অপরের সাথে সম্পর্কিত নয়) এবং আরও 5000 টি যা বেশিরভাগ অবস্থানগত (এখনও বেশিরভাগ সম্পর্কিত নয়)। কোনও ভুল না করে কীভাবে এই সমস্ত পরিবর্তনের মধ্য দিয়ে একজন মানুষ পাল্টাতে পারে? আলফাজেরো যদি এখন এই অত্যন্ত সৃজনশীল পদক্ষেপের দিকে নজর দিতে পারে তবে একজন মানুষ সম্ভবত কোন অবদান রাখতে পারে?


শেষ সীমান্ত:

একটি জায়গা বাকি আছে যেখানে নিখরচায় গণনা এখনও গভীর নিউরাল জালকে শেষ করবে: এন্ডগেমস। কোনও টেবিলবেসকে পরাস্ত করবে এমন কোনও অন্তর্দৃষ্টি নেই। তবে যেগুলি শেষের জন্য একটি টেবিলবেস প্রয়োজন (কারণ কোনও অনুসন্ধান ট্রি কেবল সঠিক পদক্ষেপের গণনা করতে গভীরভাবে যেতে পারে না) এটি খুব বিরল। এবং আপনি কেবল আলফাজিরোতে একটি টেবিলবেস প্লাগ করতে পারেন, তবে এটি "স্ব-শিক্ষিত" ইঞ্জিনের বিশুদ্ধতা নষ্ট করবে, তাই না?


3

যেহেতু মানুষের গভীর অনুসন্ধানের দক্ষতা নেই, যেমন traditionalতিহ্যবাহী কম্পিউটার দাবা প্রোগ্রামগুলি (ফ্রিজ, স্টকফিশ ইত্যাদি), তারা 'কৌশলগত নীতি' বা থাম্ব বিধি (কেন্দ্র নিয়ন্ত্রণ, বিকাশ, রাজা সুরক্ষা) এবং ধারণা বা কৌশলগুলি তৈরি করে যা বিস্তৃত বিভিন্ন ক্ষেত্রে প্রযোজ্য are পরিস্থিতি বিভিন্ন উপায়ে যেমন ত্যাগ, মুরগীর সাথে সংযুক্ত, বিশপ জুটি, নির্দিষ্ট সমাপ্তি উদাহরণস্বরূপ, কীভাবে রাজাকে একটি দড়ি ও পদ্ম দিয়ে কোণায়িত করা যায়।

আমি মনে করি যে আলফা শূন্য স্বতন্ত্রভাবে এরকম অনেকগুলি ধারণা (ধারণাগুলি এবং ধারণাগুলি) পুনরায় নতুনভাবে আবিষ্কার করেছে এবং এটি প্রচুর নতুন শিখেছে - কারণ এর জ্ঞানটি মানুষের মূল্যায়ন ফাংশন এবং শক্তিশালী মিনম্যাক্স অনুসন্ধানের ভিত্তিতে তৈরি করা প্রয়োজন ছিল না যা সর্বদা প্রতিপক্ষকে মনে করে যে প্রতিভা।

অবশ্যই এই জাতীয় নীতিগুলি কিছু পরিস্থিতিতে স্ববিরোধী হয়, এ কারণেই বিভিন্ন উদ্বোধনী নাটক এবং সমস্যাগুলি সাবধানতার সাথে অধ্যয়ন করা হয় - যেমন খুব শীঘ্রই রানীর বিকাশ হয় না।

অন্যদিকে, মানবেরা এও লক্ষ্য করে যে আপনি একবার এক টুকরো হারালে (বিনিময় ছাড়াই) আপনি আপনার বাহিনীকে দুর্বল করে দেন যাতে তারা ক্ষতিপূরণ ছাড়াই কোনও টুকরো না হারাতে অত্যন্ত সতর্ক হন।

আমি মনে করি যে আলফাজেরোর নাটকটি কম্পিউটার দাবা (এবং মানব দাবা) কে ছোট্ট উপাদান হারাতে এবং বই এবং খণ্ডের মানগুলি খোলার বিষয়ে অতিমাত্রায় হারানোর ভীতি থেকে মুক্তি পেয়েছে।

আলফাফেরো গেমস 'কৌশলগত নীতিগুলির' মতো কেন্দ্রগুলি নিয়ন্ত্রণ, উন্নয়ন, স্থান, উদ্যোগ যেমন আপনার প্রতিপক্ষকে খাপছাড়া করে তোলে তেমন জিনিসগুলি দেখায়। অন্য কথায়, 'ত্যাগ' আসলে ত্যাগ নয় বরং উদ্যোগ, অবস্থান, নির্দেশিত পদক্ষেপের জন্য লাভের জন্য এক টুকরো ব্যবসা করে।

আলফাগো (শূন্য নয়) মানবিক মূল্যায়নের উপর নির্ভর করেছিল, তবে আলফাজেরো 'অনুসন্ধান বা সিমুলেশন'-এর মূল্যায়নের পুরো শৃঙ্খলাটিকে একক প্রান্তের প্রক্রিয়া হিসাবে সেট করে এবং পুরোপুরি নতুনভাবে খেলার উপায় নিয়ে আসে।

আপনি যদি এটির বিষয়ে চিন্তা করেন তবে মরফি, ফিশার, কাস্পারভের মতো অতীতের দুর্দান্ত মাস্টাররা সাধারণত এই ধরণের -রকমার-স্বজ্ঞাত-খেলার জন্য প্রশংসা পেয়েছেন যেখানে বিশেষ পরিস্থিতির সুযোগ নিয়ে তারা লিখিত-প্রস্তর মূল্যায়নের দ্বারা আবদ্ধ নয় that উত্থান হয়। আমি মনে করি আলফা শূন্যের গেমগুলিতে এরকম 'বাহ' ফ্যাক্টর রয়েছে।

স্নায়বিক নেটওয়ার্ক কেন। কম্পিউটার প্রোগ্রামগুলি যেগুলি প্রতীকী উপস্থাপনা এবং স্বতন্ত্র অনুসন্ধান ব্যবহার করে কেবল 'এক' চিন্তার পদ্ধতি ব্যবহার করতে পারে, নিউরাল নেটওয়ার্কগুলি সমান্তরালভাবে বিকল্প, বিবাদী মূল্যায়ন সহ পরিস্থিতি প্রক্রিয়া করতে পারে এবং পরবর্তী স্তরগুলিতে আরও মূল্যবান দৃশ্যে চলে যায়।


2

আরও বেশি মানুষ যে অর্থে চালিত হয় তা মানুষের দৃষ্টিভঙ্গির সাথে কমবেশি মিলিত হয়: দীর্ঘমেয়াদী সুবিধা, অবস্থানগত ত্যাগ, টুকরো ক্রিয়াকলাপের জন্য খেলুন। মানব দাবা জ্ঞানের সাথে একটি আপাত সংমিশ্রণ রয়েছে এবং বহু শতাব্দী ধরে সংশোধিত গ্রহণযোগ্য কৌশলগত নীতিগুলি (উদাহরণস্বরূপ এটি অনেকগুলি একই উদ্বোধনকে "আবিষ্কার" করেছে)। আলফাজিরো মানব-নির্মিত দাবা জ্ঞানের সাথে বদ্ধমূল হয়নি এই বিষয়টি উল্লেখ করে এটি লক্ষণীয়।

তবে মিলগুলি এখানেই শেষ হয়। আলফাজেরো এটিকে পরবর্তী স্তরে নিয়ে যায় এবং এটি আরও ভাল করে তোলে এবং কোনও উপায়ে মানুষ কখনও কল্পনাও করতে পারেনি। কাগজটি উদ্ধৃত করার জন্য আলফাজেরোর কাছে "অতিমানবীয়" ক্ষমতা রয়েছে: "আলফাওরো একটি অতিমানবীয় নাটক অর্জন করেছে [...]" ( https://arxiv.org/pdf/1712.01815.pdf )। এছাড়াও এটি মানুষের মধ্যে সহজাত দুর্বলতাগুলি রাখে না: ঘনত্বের সমস্যা, ভয়, ক্লান্তি, অনুভূতি, অন্তর্দৃষ্টি ইত্যাদি যা মানুষের সীমাবদ্ধ করে। এবং এর সিলিকন মস্তিষ্ক যখন প্রয়োজন হয় তখন দক্ষতার বাইরে কৌশলগত সংমিশ্রণের অনুমতি দেয়।


2
তারপরে একটি প্যারাডক্স রয়েছে। স্টকফিশ মানুষের অভিজ্ঞতা থেকে উপকৃত হয়; আলফাজেরো হয় না। তবে আলফা শূন্যকে আরও বেশি মানব মনে হয়। অর্থ, সম্ভবত, যা আমরা করিনি, স্ট্যাকফিশ প্রজন্মের সাথে, আমাদের চিন্তাভাবনাগুলি ছড়িয়ে দেওয়ার খুব ভাল কাজ
ফিলিপ রো

1

যারা এই প্রশ্নের প্রতিক্রিয়া জানিয়েছেন তাদেরকে ধন্যবাদ জানাতে চাই, প্রায়শই সূক্ষ্মতা এবং অন্তর্দৃষ্টি দিয়ে। প্রতিক্রিয়াগুলির মধ্যে প্রধান পার্থক্য, এটি আমার কাছে মনে হয়, মানব শব্দের ব্যাখ্যায়।

আলফাজেরো তদারকি ও ভুল হিসাবের দিক থেকে মানব দাবা খেলেন না, তবে এর "চিন্তাভাবনা" প্রক্রিয়াটি আরও দৃ he় আকারে মনে হয় যে আমি কীভাবে সবচেয়ে শক্তিশালী খেলোয়াড়দের মনে করি। আপনি আঁকেন, মোটামুটি দ্রুত, "খেলতে চান এমন" প্রার্থী পদক্ষেপের একটি তালিকা "এবং শক্তিশালী খেলোয়াড়দের জন্য এই তালিকাটি আশ্চর্যজনকভাবে সঠিক, এমনকি এক মিনিটের মধ্যে একটি স্বীকৃত বুদ্ধিমান গেমের মতো কিছু খেলছে। বাকি সময়টি জিজ্ঞাসা করতে ব্যয় হয়, সেই তালিকার কোন পদক্ষেপটি সত্যই কাজ করে? পেট্রোসিয়ান বলেছিলেন যে অবশেষে তিনি যে পদক্ষেপটি খেলেন সেটাই তিনি ফর্মের মধ্যে সবচেয়ে বেশি অনুভব করেছিলেন যেটি তিনি প্রথমে ভেবেছিলেন। আমরা সবচেয়ে বেশি জানি যে আমরা সবচেয়ে বেশি যে পদক্ষেপটি খেলতে চেয়েছিলাম তা কৌশলগতভাবে খেলতে পারা যায়। আমি আলফাবেত্তর আলগোরিদমের সাথে আলফাবেটা অনুসন্ধানের চেয়ে আরও সহজেই সম্পর্কিত হতে পারি,

সবচেয়ে আকর্ষণীয় বলে মনে হচ্ছে মেশিনটি কীভাবে স্ব-খেলায় প্রতিশ্রুতিশীল প্রার্থীদের চিনতে সক্ষম হয়েছিল। সম্ভাবনাই প্রকৃত বিপ্লবের জন্য নিহিত যেখানে সেখানে। আমি অবাক হই যে এটি কেবল দাবা এবং যাওয়ার মতো ডোমেনগুলির পক্ষে সম্ভব, যেখানে উদ্দেশ্যগুলি স্পষ্টভাবে সংজ্ঞায়িত করা যায়। তবে আমার কাছে এটি আশ্চর্যজনক মনে হয়েছে যে আলফাজেরো উদ্দেশ্যমূলক খেলা প্রদর্শন করছে বলে মনে হচ্ছে, তবে স্টকফিশের কী চলছে সে সম্পর্কে কোনও ধারণা নেই।


0

আমি নিউরাল নেটওয়ার্কগুলি যেভাবে বুঝি, এ-এর আসল সুবিধা হ'ল বোর্ড পজিশনের উচ্চতর মূল্যায়ন। এই মূল্যায়নে স্বল্পমেয়াদী কৌশলগত জ্ঞান উভয়ই অন্তর্ভুক্ত করা হয়েছে (যা এক অর্থে পরীক্ষিত পজিশনের সংখ্যার গুণক হিসাবে কাজ করে) এবং কৌশলগত মানের উচ্চতর মূল্যায়ন।


1
দাবা এসই তে স্বাগতম! নিউরাল নেটওয়ার্কগুলি সেভাবে কাজ করে বলে আপনি কী কারণে দয়া করে একটি রেফারেন্স সরবরাহ করতে পারেন?
পাবলো এস। ওকাল

0

আমি সম্পূর্ণ আলোচনার হাতছাড়া করে অনুভব করেছি যে এ 0 দাবা, শোগি খেলতে পারে এবং যেতে পারে, সব কিছু খুব ভাল এবং সব কিছু স্ব-প্রশিক্ষণ থেকে। এটি অনেক বেশি মানব। তদুপরি, যেতে যেতে এটি শীর্ষ খেলোয়াড়দের কাছে গভীরভাবে নতুন ধারণা প্রকাশ করেছে (আমি এটি বুঝতে পারি)। অন্যান্য ইঞ্জিনগুলি খুব কার্য-নির্দিষ্ট, এ 0 অন্যথায় মনে হয়। আমি এটি দাবা 960 খেলা দেখতে চাই।


1
আমি দেখতে পাচ্ছি না কীভাবে এটি প্রশ্নের উত্তর দেয়।
স্মৃতিচেস

-2

আমি মনে করি না আলফা সম্পর্কে 'মানব' এর কিছু আছে। এটি সবেমাত্র আরও শক্তিশালী হার্ডওয়্যার ব্যবহার করেছে এবং উচ্চ মানের দাবা খেলেছে। ভাল উদ্বোধনী চলনগুলি এটি আবিষ্কার করে (উদাহরণস্বরূপ, বিজি 2 এর সাথে বাগদত্তের রাজা পাশে) সম্পূর্ণরূপে এর সিমুলেটেড খোলার বইয়ের কারণে। যে ধারণাগুলি আমাকে প্রভাবিত করেছিল এবং আমি ' দাবাটির গোপনীয়তা' তে রচনা করেছি: http://davidsmerdon.com/?p=1970 , যা আলফা প্রথমবারের জন্য শীর্ষ ইঞ্জিনগুলির মধ্যে ব্যবহার করে, সেগুলি দীর্ঘতর চেইন, উদাহরণস্বরূপ ডি 4 -e5-f6 চেইন যা উভয় ইঞ্জিনের মধ্যে ফরাসি প্রতিরক্ষা গেমগুলিতে দেখা গেছে, বিজি 6 বলি খেলায় এবং কেন্দ্রীয় পশ্চাদপদ-নির্মাতারা পুরো টুকরো টান দিয়েছিল। উভয় ধারণাটি গভীর গভীরতায় অনুসন্ধান করতে জড়িত এবং সম্ভবত এখানে আলফাটিকে তার দুর্দান্ত হার্ডওয়্যার দ্বারা সহায়তা করা হয়েছিল। অন্যথায়, আমি এর নাটক সম্পর্কে মানুষের কিছুই দেখছি না। গেমগুলির অনেকগুলি ছিল, স্বীকারোক্তিযুক্ত,


5
আপনার এই দুটি বিবৃতি ভুল: 1) "এটি সবেমাত্র শক্তিশালী হার্ডওয়্যার ব্যবহার করেছে" - হ্যাঁ, এটি স্টকফিশের চেয়ে অনেক বেশি শক্তিশালী হার্ডওয়্যার ব্যবহার করেছে তবে এই পার্থক্যটি নয়। এটি খুব আলাদা সফ্টওয়্যার যার শক্তিশালী হার্ডওয়্যার প্রয়োজন। 2) "এটি যে ভাল উদ্বোধন চালায় এটি সম্পূর্ণরূপে এটির সিমুলেটেড খোলার বইয়ের কারণে are" - এটি কোনও খোলার বই ব্যবহার করে না।
আইএ পেটর হারাসিমোভিক 15

এটি স্পষ্টতই পার্থক্য তৈরি করে: তাত্পর্যপূর্ণভাবে বড় আলফা হার্ডওয়্যার। প্রতিটি দাবা পরীক্ষক জানেন সফ্টওয়্যার উপর নির্ভর করে গতি দ্বিগুণ করা দাবা শক্তি প্রায় 70 বা আরও বেশি করে বৃদ্ধি করে। 32 কোরের এবং 4TPUs, 1000-2000 কোরের মধ্যে পার্থক্য 6 বা তার বেশি দ্বিগুণ। এটি 420 ইওলো জন্য তৈরি করবে। সুতরাং, আসলে, যখন এটি সেই হার্ডওয়্যারটিতে 100 ইলো শক্তিশালী সঞ্চালিত হয়েছিল, সমান শর্তে আলফা প্রায় 300 ইওল দুর্বল।
লিউডমিল সোয়েভকভ

এটি একটি উদ্বোধনী বই ব্যবহার করে, অবশ্যই তারা যাই দাবি করুক না কেন। আলফা শীর্ষস্থানীয় জিএম বিজয়ী গেম সম্পর্কে প্রশিক্ষণ পেয়েছে। আলফার উদ্বোধনী নির্বাচনটি যদি কেউ দেখতে পায় তবে তা স্পষ্টভাবে স্প্রাইস করে: সঠিকভাবে উদ্বোধনগুলি আধুনিক তত্ত্বটি সুপারিশ করে এবং সেইগুলি সুনির্দিষ্ট করে, যেখানে জয়ের সম্ভাবনা সবচেয়ে ভাল। আপনি ঠিক বিজি 2 এর সাথে বাগদত্তা করবেন না।
লিউডমিল সোয়েভকভ

3
@ লুডমিল, গুগল আলফা জিরোতে অবাক করার মতো কিছু অর্জন করেছে। এটি কেবল গেমের নিয়মগুলি জেনে নিজের বিরুদ্ধে খেলে এই চালগুলি শিখিয়েছিল! আলফা জিরো দলকে প্রতারণার অভিযোগ এনেছে যে আপনি তাদের কৃতিত্ব বা তাদের লক্ষ্যটি মোটেই বুঝতে পারেন নি - তারা এআই এর সীমান্তকে এগিয়ে দিচ্ছেন এবং পথের পাশাপাশি একটি ছোট অঙ্গভঙ্গি হিসাবে একটি বিকেলের কাজে সমস্ত দাবা ইঞ্জিন এবং মানব প্রতিভাকে পরাজিত করেছেন!
saille

1
@ লুডমিলটিসভেটকভ আপনি সম্পূর্ণ ভুল incor আলফা জিরো (এবং এটি এর মূল বিষয়) কোনও মানবিক গেম ছাড়াই প্রশিক্ষিত । এটি নিয়মগুলি বলা হয়েছে এবং তারপরে তার খেলার প্রতিটি দিকই আবিষ্কার করেছে কোনও নতুন বাহিরের ডেটা ছাড়াই নিজে খেলে চার ঘন্টা ।
ম্যাভেরিক
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.