একটি নতুন এআই যেতে যেতে জয়ী। দাবাতে কি একই জাতীয় এআই জিততে পারে? এটি খাঁটি স্ব-প্রশিক্ষণ অর্জন করতে পারে?


20

এই সাইটে জিজ্ঞাসিত আরও জনপ্রিয় প্রশ্নগুলির মধ্যে একটি খাঁটি স্ব-প্রশিক্ষিত দাবা এআইয়ের সম্ভাবনা সম্পর্কিত।

আজ, দাবাবেস এফআইডিই প্রার্থীদের টুর্নামেন্টের কাভারেজ থেকে বিভ্রান্ত হয়েছে যে রিপোর্ট করার জন্য একটি নতুন এআই প্রথমবারের মতো বরং বিভিন্ন খেলায় শীর্ষস্থানীয় মাস্টারকে পরাজিত করেছেন, যেটি বেশ কয়েক বছর ধরে দাবা স্টাইলের এআইদের প্রতিরোধ করেছিল। প্রতিবেদনের প্রাথমিক পাঠ থেকে জানা যায় যে নতুন গো এআই দাবা এআই এর চেয়ে ভিন্ন, তবে এটি প্রায় সাধারণ-গেম-প্লেয়িং (জিজিপি) এআই। দাবাবেসের নিবন্ধটি জিজিপি শব্দটি ব্যবহার করে না, তবে এটি সম্ভবত এআই গো সাধারণ ভিডিও গেমসে জিততে পারে বলে মনে হয়

দাবাতে এই জাতীয় জয় এআই সামান্য সামঞ্জস্যও জিততে পারে না এমন কোনও কারণ আছে? যদি তা হয়, তবে এই জাতীয় এআই কি পূর্ববর্তী প্রশ্নের বেশ কয়েকটি চমত্কার উত্তর পূর্বে আলোচিত খাঁটি স্ব-প্রশিক্ষণ অর্জনের প্রতিশ্রুতি দেয়, যা তখনকার সময়ে সম্ভব ছিল না? কেন অথবা কেন নয়?

আমি সন্দেহ করি যে আমার প্রশ্নের সত্যিকার অর্থে কোনও সম্পূর্ণ, সম্পূর্ণ জ্ঞাত উত্তর এখনও উপলভ্য নয়, সুতরাং সম্পর্কিত দক্ষতার উপর ভিত্তি করে একটি আংশিক উত্তরও প্রশংসিত হবে।

অতিরিক্ত রেফারেন্সের জন্য, এই সম্পর্কিত প্রশ্ন এবং উত্তরগুলিও দেখুন।

হালনাগাদ

উপরোক্ত প্রশ্নটি যখন পাঁচ দিন আগে প্রথম পোস্ট করা হয়েছিল এবং নীচে কিছু সূক্ষ্ম উত্তর দেওয়া হয়েছিল, গো এআইয়ের বিজয় সম্পর্কিত প্রথম সংবাদটি সবেমাত্র উপস্থিত হয়েছিল। তার পর থেকে অতিরিক্ত তথ্য এবং ভাষ্য প্রকাশিত হয়েছে।

বিশেষত তখন থেকে আকর্ষণীয় একটি বেশ পঠনযোগ্য, পাঁচ-পক্ষের গোলটেবিল আলোচনার বিষয় যা একটি জনাথন শ্যাফার মন্তব্য করেছিলেন:

মানব গেমগুলি থেকে শিক্ষা প্রোগ্রামের শেখাকে ত্বরান্বিত করতে সহায়তা করে। আলফাগো মানব গেমগুলি ব্যবহার না করে নিজেই শক্তিশালী খেলোয়াড় হতে শিখতে পারে। শেখার প্রক্রিয়াটি আরও বেশি সময় নিতে পারে।

গোলটেবিলের হোস্টের মতে, শ্যাফার হলেন "[সি] অ্যালবার্টা বিশ্ববিদ্যালয়ের কম্পিউটার বিজ্ঞান অধ্যাপক এবং যে ব্যক্তি চেকারদের সমাধান করেছিলেন"; সুতরাং, সম্ভবত, তিনি মন্তব্য করার যোগ্য হতে পারে।

আরও তথ্যের জন্য, এখানে অন্যটি, মুক্ত আলোচনার রেকর্ড রয়েছে, যার অংশগ্রহণকারীদের বেশিরভাগই স্বাভাবিকের চেয়ে আরও ভালভাবে অবহিত বলে মনে হয়। ম্যাচ চলাকালীন আলোচনা হয়।

আরও আপডেট, দেড় বছর পরে: মন্তব্যকারী @ মার্কস। লিখেছেন:

এটি কেবল একটি মন্তব্য কারণ এটি দাবাজ নয়, গো সম্পর্কে রয়েছে, তবে কে জিতেছে (এবং চূড়ান্ত স্কোর নয়) বলা থেকে আলফাগো জিরো "খাঁটি স্ব-প্রশিক্ষণ" অর্জন করেছেন এবং লি সেদলকে পরাস্ত এআইয়ের চেয়ে শক্তিশালী এবং ব্যাপকভাবে দক্ষ । আরও তথ্যের জন্য, ডিপমাইন্ড.com/blog/alphago-zero-firening-scratch দেখুন


আমি আপনাকে আরও প্রযুক্তিগত ফোরামে এটি জিজ্ঞাসা করার পরামর্শ দিচ্ছি। এআই একটি জটিল বিষয় এবং এটি বোঝার জন্য কারও কাছে একটি গুরুত্বপূর্ণ দক্ষতা থাকা উচিত। এখানে উত্তরগুলি খুঁজছেন, আমি নিশ্চিত নই যে আপনি যুক্তিসঙ্গত উত্তর পেয়েছেন।
সালভাদোর ডালি

5
দেওয়া উত্তরগুলি অনেক প্রশংসা করা হয়। আমি একাধিক upvated হয়েছে। আমি যদি এখনও কোনও গ্রহণ না করে থাকি তবে এটি উত্তরগুলির সমালোচনা নয়, তবে প্রশ্নটি এত শক্ত এবং বিষয়টি এতই নতুন যে এটি গ্রহণযোগ্য উত্তরটি উপলভ্য নাও হতে পারে এমন একটি স্বীকৃতি। এই প্রশ্নটি কিছু সময়ের জন্য ছেড়ে দেওয়া যাক, সময়ের পরে, আজ কোনও উত্তর পরে পাওয়া যায় না কিনা। ধন্যবাদ।
thb

1
এটি কেবল একটি মন্তব্য কারণ এটি দাবাজ নয়, গো সম্পর্কে রয়েছে, তবে কে জিতেছে (এবং চূড়ান্ত স্কোর নয়) বলা থেকে আলফাগো জিরো "খাঁটি স্ব-প্রশিক্ষণ" অর্জন করেছেন এবং লি সেদলকে পরাস্ত এআইয়ের চেয়ে শক্তিশালী এবং ব্যাপকভাবে দক্ষ । আরও তথ্যের জন্য, ডিপমাইন্ড.com
মার্ক এস।

1
@thb আমি মনে করি আলফাজেরো এমন একটি এআই।
হ্যারি ওয়েজলি

1
ডিসেম্বর 2017 পর্যন্ত AlphaZero নিজেই শুধুমাত্র খেলার নিয়ম থেকে দাবা একটি স্টাইল শেখানো arxiv.org/pdf/1712.01815.pdf এবং প্রানবন্ত StockFish খারিজ করা হয়েছে।
সেল

উত্তর:


14

বেশ বেশ বেশ! ডিপমাইন্ড একটি কাগজ প্রকাশ করেছে যাতে তারা বলেছে যে তারা স্টকফিশকে পরাস্ত করার জন্য একটি নিউরাল নেটওয়ার্ক কম্পিউটার প্রোগ্রাম করেছে এবং প্রশিক্ষিত করেছে।

প্রতি সরানোর জন্য 1 মিনিটের চিন্তাভাবনার সাথে তাদের আলফাজিরো কম্পিউটার স্টকফিশকে +25, = 25, -0 দিয়ে সাদা এবং + 3, = 47,0- কে কালো হিসাবে পরাজিত করে।

তারা দাবা, শোগি এবং গো খেলতে 3 টি পৃথক কম্পিউটারকে "প্রশিক্ষিত" করেছিল এবং তাদের সিলিকন প্রতিদ্বন্দ্বীদের দৃ conv়ভাবে পরাজিত করেছিল।

কাগজটি প্রশিক্ষণ এবং মূল্যায়নের বর্ণনা এখানে দেয় -

মূল্যায়ন পদক্ষেপ এবং সেরা খেলোয়াড়ের নির্বাচন বাদ দিয়ে এই নিউরাল নেটওয়ার্কের সর্বশেষতম পরামিতিগুলি ব্যবহার করে স্ব-খেলাগুলি তৈরি করা হয়।

আলফাগো জিরো তার অনুসন্ধানের হাইপার-প্যারামিটারটি বেয়েসিয়ান অপ্টিমাইজেশান দ্বারা সুর করেছে। আলফাজেরোতে আমরা গেম-নির্দিষ্ট টিউনিং ছাড়াই সমস্ত গেমের জন্য একই হাইপার-প্যারামিটারগুলি পুনরায় ব্যবহার করি। একমাত্র ব্যতিক্রম হ'ল গোলমাল যা অনুসন্ধান নিশ্চিত করার জন্য পূর্ব নীতিতে যুক্ত করা হয়; এটি সেই গেমের ধরণের জন্য আইনী পদক্ষেপের সাধারণ সংখ্যার অনুপাতে মাপা হয়।

আলফাগো জিরোর মতো, বোর্ডের রাজ্য প্রতিটি গেমের মূল নিয়মের ভিত্তিতে স্থানিক প্লেন দ্বারা এনকোড করা হয়। ক্রিয়াগুলি স্থানিক প্লেন বা একটি সমতল ভেক্টর দ্বারা এনকোড করা হয়, কেবলমাত্র প্রতিটি গেমের প্রাথমিক নিয়মের ভিত্তিতে (পদ্ধতিগুলি দেখুন)।

আমরা দাবা, শোগি এবং গোতে আলফাজিরো অ্যালগরিদম প্রয়োগ করেছি। অন্যথায় সুনির্দিষ্ট না করে, একই অ্যালগরিদম সেটিংস, নেটওয়ার্ক আর্কিটেকচার এবং হাইপার-প্যারামিটারগুলি তিনটি গেমের জন্যই ব্যবহৃত হয়েছিল। আমরা প্রতিটি গেমের জন্য আলফাজিরোর একটি পৃথক উদাহরণ প্রশিক্ষণ দিয়েছি। প্রশিক্ষণটি এলোমেলোভাবে প্রাথমিকভাবে পরামিতিগুলি থেকে শুরু করে 700,000 পদক্ষেপের (4,096 আকারের মিনি-ব্যাচ) অগ্রসর হয়েছে, স্নায়ু খেলাগুলি তৈরির জন্য 5000 টি প্রথম প্রজন্মের টিপিইউ এবং নিউরাল নেটওয়ার্কগুলি প্রশিক্ষণের জন্য 64 টি প্রজন্মের টিপিইউ ব্যবহার করে। প্রশিক্ষণ পদ্ধতির আরও বিশদ পদ্ধতিতে সরবরাহ করা হয়।

চিত্র 1 এলো স্কেল (10) এ প্রশিক্ষণ পদক্ষেপগুলির একটি কার্য হিসাবে স্ব-প্লে পুনর্বহাল শেখার সময় আলফাজিরোর কার্যকারিতা দেখায়। দাবাতে, আলফাজিরো মাত্র 4 ঘন্টা (300k পদক্ষেপ) পরে স্টকফিশকে ছাড়িয়ে যায়; শোগীতে, আলফাওয়েরো 2 ঘণ্টারও কম সময় ধরে (১১০ কে ধাপ) পরে এলমোকে ছাড়িয়ে যায়; এবং গো-তে, আলফাজিরো 8 ঘন্টা (165k পদক্ষেপ) পরে আলফাগো লি (29) কে ছাড়িয়ে গেল।

আমরা স্টকফিশ, এলমো এবং আলফাগো জিরোর পূর্ববর্তী সংস্করণ দাবা, শোগি এবং গোতে যথাক্রমে আলফাজিরোর পুরো প্রশিক্ষিত উদাহরণগুলির মূল্যায়ন করেছি, প্রতি পদক্ষেপের এক মিনিটের টুর্নামেন্টের সময় নিয়ন্ত্রণে 100 গেম ম্যাচ খেলে। আলফাজিরো এবং পূর্ববর্তী আলফাগো জিরো 4 টিপিইউ সহ একটি একক মেশিন ব্যবহার করেছিল। স্টকফিশ এবং এলমো তাদের শক্তিশালী দক্ষতার পর্যায়ে 64 থ্রেড এবং 1 জিবি হ্যাশ আকার ব্যবহার করে খেলল। আলফাজিরো দৃ opponents়তার সাথে সমস্ত প্রতিপক্ষকে পরাভূত করেছিল, স্টকফিশের কাছে শূন্য গেম এবং এলমোর কাছে আটটি গেম হারিয়েছে (বেশ কয়েকটি উদাহরণস্বরূপ গেমগুলির পরিপূরক উপাদান দেখুন) পাশাপাশি আলফাগো জিরোর পূর্ববর্তী সংস্করণকে পরাস্ত করে (টেবিল 1 দেখুন)।

তাদের কম্পিউটারটি মেশিন লার্নিংয়ের জন্য গুগল দ্বারা বিকাশিত " টিপিইউ " ( টেনসর প্রসেসিং ইউনিট ) নামে একটি নতুন রূপের চিপ ব্যবহার করেছে।

তারা আরও দাবি করে যে তাদের মন্টি কার্লো ট্রি অনুসন্ধান অ্যালগরিদম alতিহ্যবাহী আলফা-বিটা অনুসন্ধান অ্যালগরিদমের চেয়ে আরও ভাল এবং "মানবের মতো" -

আমরা স্টকফিশ এবং এলমো দ্বারা ব্যবহৃত অত্যাধুনিক আলফা-বিটা অনুসন্ধান ইঞ্জিনগুলির সাথে তুলনা করে আলফাজিরোর এমসিটিএস অনুসন্ধানের আপেক্ষিক কার্য সম্পাদনও বিশ্লেষণ করেছি। আলফাজেরো দাবাতে প্রতি সেকেন্ডে মাত্র ৮০ হাজার এবং শোগিতে ৪০ হাজার অবস্থান অনুসন্ধান করেছে, স্টকফিশের জন্য million০ মিলিয়ন এবং এলমোর জন্য ৩৫ মিলিয়ন। আলফায়েজোর সর্বাধিক প্রতিশ্রুতিবদ্ধ বৈচিত্রগুলিতে আরও বেশি নির্বাচন করে ফোকাস করার জন্য তার গভীর নিউরাল নেটওয়ার্ক ব্যবহার করে মূল্যায়নের কম সংখ্যার জন্য ক্ষতিপূরণ দেয় - মূলত শ্যানন দ্বারা প্রস্তাবিত, অনুসন্ধানের জন্য যুক্তিযুক্তভাবে আরও একটি "মানব-সদৃশ" দৃষ্টিভঙ্গি রয়েছে। চিত্র 2 স্টকফিশ বা এলমোর সাথে 40 মিমি চিন্তাভাবনার সময়ের সাথে সম্পর্কিত, ইলো স্কেলে পরিমাপের চিন্তাভাবনার সাথে সম্পর্কিত প্রতিটি খেলোয়াড়ের স্কেলাবিলিটিটি দেখায়। আলফাজিরোর এমসিটিএস স্টকফিশ বা এলমো এর চেয়ে বেশি সময় চিন্তা করার সাথে আরও কার্যকরভাবে মাপা হয়েছে,

এখানে কিছু গেমস রয়েছে -

স্টকফিশ - আলফাজেরো, 0-1
1. E4 E5 2. Nf3 Nc6 3. BB5 Nf6 4. D3 Bc5 5. Bxc6 dxc6 6. OO যেমন পণ্য Nd7 7. Nbd2 OO যেমন পণ্য 8. Qe1 F6 9. Nc4 Rf7 10. A4 Bf8 11. Kh1 Nc5 12. A5 NE6 13। Ncxe5 fxe5 14. Nxe5 Rf6 15. Ng4 Rf7 16. Ne5 Re7 17. A6 C5 18 F4 Qe8 19 axb7 Bxb7 20 Qa5 Nd4 21. Qc3 Re6 22. Be3 Rb6 23 Nc4 Rb4 24. B3 A5 25. Rxa5 Rxa5 26. Nxa5 Ba6 27. Bxd4 Rxd4 28. Nc4 Rd8 29 G3 শিরোলেখ 6 30. Qa5 Bc8 31 Qxc7 Bh3 32 Rg1 Rd7 33. Qe5 Qxe5 34. Nxe5 Ra7 35 Nc4 G5 36 Rc1 Bg7 37। Ne5 Ra8 38. Nf3 Bb2 39. Rb1 Bc3 40 Ng1 Bd7 41. NE2 Bd2 42. Rd1 Be3 43. Kg2 Bg4 44. Re1 Bd2 45. Rf1 Ra2 46. h3 Bxe2 47. Rf2 Bxf4 48. Rxe2 Be5 49. Rf2 Kg7 50. G4 Bd4 51. Re2 Kf6 52. E5 + + Bxe5 53. Kf3 Ra1 54. Rf2 Re1 55. Kg2 + + BF4 56. C3 Rc1 57. D4 Rxc3 58. dxc5 Rxc5 59. B4 rc3 60 H4 Ke5 61 । hxg5 hxg5 62. Re2 + + Kf6 63. Kf2 Be5 64. Ra2 rc4 65. Ra6 + + Ke7 66 Ra5 Ke6 67. Ra6 + + Bd6 0-1

খেলা

স্টকফিশ - আলফাজেরো, 0-1
1. E4 E5 2. Nf3 Nc6 3. BB5 Nf6 4. D3 Bc5 5. Bxc6 dxc6 6. OO যেমন পণ্য Nd7 7. C3 OO যেমন পণ্য 8. D4 Bd6 9. Bg5 Qe8 10. Re1 F6 11. BH4 Qf7 12. Nbd2 A5 13। Bg3 Re8 14. Qc2 Nf8 15. C4 C5 16 D5 B6 17. Nh4 G6 18 Nhf3 Bd7 19 Rad1 Re7 20 h3 Qg7 21. Qc3 Rae8 22. A3 শিরোলেখ 6 23 BH4 Rf7 24. Bg3 Rfe7 25. BH4 Rf7 26. Bg3 A4 27. Kh1 Rfe7 28. BH4 Rf7 29 Bg3 Rfe7 30. BH4 G5 31 Bg3 Ng6 32 Nf1 Rf7 33. NE3 Ne7 34. Qd3 h5 35 H4 Nc8 36 Re2 G4 37। Nd2 Qh7 38. Kg1 Bf8 39. Nb1 Nd6 40 Nc3 BH6 41. Rf1 Ra8 42. Kh2 Kf8 43. Kg1 Qg6 44. F4 gxf3 45. Rxf3 Bxe3 + + 46. Rfxe3 Ke7 47. Be1 Qh7 48. Rg3 Rg7 49. Rxg7 + + Qxg7 50. Re3 Rg8 51. Rg3 Qh8 52. Nb1 Rxg3 53. Bxg3 Qh6 54. Nd2 Bg4 55. Kh2 Kd7 56. B3 axb3 57. Nxb3 Qg6 58. Nd2 Bd1 59. Nf3 Ba4 60 Nd2 Ke7 61 । Bf2 Qg4 62. Qf3 Bd1 63. Qxg4 Bxg4 64. A4 Nb7 65. Nb1 Na5 66 Be3 Nxc4 67. Bc1 Bd7 68. Nc3 C6 69. Kg1 cxd5 70. exd5 Bf5 71. Kf2 Nd6 72. Be3 NE4 + + 73. Nxe4 Bxe4 74. A5 bxa5 75. Bxc5 + + Kd7 76. d6 Bf5 77. Ba3 Kc6 78. Ke1 Kd5 79 Kd2 Ke4 80. Bb2 Kf4 81. Bc1 Kg3 82. Ke2 A4 83. Kf1 Kxh4 84। কেএফ 2 কেজি 4 85. বা 3 বিডি 7 86. বিসি 1 কেএফ 5 87. কে 3 কে 6 0-1

সাদা: আলফাজিরো কালো: স্টকফিশ

আলফাজেরো - স্টকফিশ, 1-0
1. Nf3 Nf6 2. C4 B6 3. D4 E6 4. G3 Ba6 5. Qc2 C5 6. D5 exd5 7. cxd5 BB7 8. Bg2 Nxd5 9. OO যেমন পণ্য Nc6 10. Rd1 Be7 11. Qf5 Nf6 12. E4 G6 13। Qf4 ও-হে 14. E5 Nh5 15. Qg4 Re8 16. Nc3 Qb8 17. Nd5 Bf8 18 BF4 Qc8 19 h3 Ne7 20 NE3 Bc6 21. Rd6 Ng7 22. Rf6 Qb7 23 BH6 Nd5 24. Nxd5 Bxd5 25. Rd1 NE6 26. Bxf8 Rxf8 27. Qh4 Bc6 28. Qh6 Rae8 29 Rd6 Bxf3 30. Bxf3 Qa6 31 H4 Qa5 32 Rd1 C4 33. Rd5 Qe1 + + 34. Kg2 C3 bxc3 35 Qxc3 36 শিরোলেখ 5 Re7 37। বিডি 1 কিউ 1 38. বিবি 3 আরডি 8 39. আরএফ 3 কিউ 40 40. কিউডি 2 কিউ 4 41. বিডি 1 কিউ 42 42. এইচ 6 এনসি 7 43. আরডি 6 নে 6 44. বিবি 3 কিউএস 5 45. আরডি 5 কিউ 8 46. ​​কিবি 4 এনসি 5 47. আরএক্সসি 5 বিএক্সসি 5 48. কিউএইচ 4 Rde8 49. Rf6 Rf8 50. Qf4 A5 51. G4 D5 52. Bxd5 Rd7 53. Bc4 A4 54. G5 A3 55. Qf3 Rc7 56. Qxa3 Qxf6 57. gxf6 Rfc8 58. Qd3 Rf8 59. Qd6 Rfc8 60 A4 1- 0

শুধু কাগজ পড়ুন। সত্যিই আশ্চর্যজনক. অবশ্যই এর অর্থ এই নয় যে আপনি চিরাচরিত আলফাজিরোর সাথে যুক্ত কৌশলগুলি দিয়ে আরও শক্তিশালী কিছু তৈরি করতে পারেননি, তবে এখনও ...
ব্লাইন্ডকংফিউমাস্টার

10

ঠিক আছে, আমাকে ভুল স্বীকার করতে হবে। যদিও আমি বজায় রাখব যে এটি বিশেষজ্ঞের মতামতের জ্ঞানের কারণে ছিল, সাধারণ অবসন্নতা নয়: কাগজের উদ্ধৃতি দেওয়ার জন্য : "তবে, চিরাচরিত এমসিটিএস ব্যবহার করে দাবা প্রোগ্রামগুলি আলফা-বিটা অনুসন্ধান প্রোগ্রামগুলির চেয়ে অনেক দুর্বল ছিল, যখন (৪, ২৪); নিউরাল নেটওয়ার্কের উপর ভিত্তি করে বিটা প্রোগ্রামগুলি পূর্বে দ্রুত, হস্তশিল্পের মূল্যায়ন ফাংশনগুলির সাথে প্রতিযোগিতা করতে অক্ষম ছিল "

স্পষ্টতই, দাবা কৌশলগতভাবে যথেষ্ট গভীর, আপনি কাউকে কৌশল করতে পারেন, যিনি আপনাকে গণনা করতে সক্ষম হবেন। আমার কাছে এটি একটি বিস্ময়কর কারণ দাবা ইঞ্জিনগুলির উন্নয়ন বিপরীত দিকে চলেছিল। (স্পষ্টতই আলফাজিরো স্টকফিশের চেয়ে সত্যই শক্তিশালী কিনা তা নিয়ে এখনও কিছুটা সতর্কতা রয়েছে: স্টকফিশ হ্যাশ টেবিলের জন্য মাত্র 1 জিবি নিয়ে খেলেছে এবং T৪ টি কোর সত্যিকার অর্থে চারটি টিপিইউয়ের জন্য ম্যাচ নাও হতে পারে)

এটি ঘটতে সত্যই, সত্যই উত্তেজনাপূর্ণ একটি জিনিস, কারণ আলফাজেরোর সম্ভবত প্রথাগত ইঞ্জিনগুলির থেকে খুব আলাদা শক্তি রয়েছে।

এর অর্থ হ'ল আমি আলফাগোর তাত্পর্য সম্পর্কে আমার বিশ্বাসকে অনেকটা প্রযুক্তিগত যুগান্তকারী হিসাবে আপডেট করি। মূলত শোগিকে ধড়ফড় করা, গো এবং দাবা একটি একক সেটআপ পুরোপুরি আশ্চর্যজনক, আলফাজিরোর দ্বারা অতিমানবীয় স্তরে সম্ভবত কয়েকজন অন্যান্য গেমস খেলতে পারে বলে উল্লেখ না করা।

আলফা-বিটা অনুসন্ধানের (কাগজ থেকে) তুলনায় এমসিটিএস আসলে দাবারের জন্য কেন একটি দুর্দান্ত ধারণা হিসাবে এটি সম্পর্কে একটি সুন্দর ব্যাখ্যা রয়েছে: "আলফাফেরো লিনিয়ারের পরিবর্তে গভীর নিউরাল নেটওয়ার্কের ভিত্তিতে অ-লিনিয়ার ফাংশন সান্নিধ্য ব্যবহার করে অবস্থানগুলি মূল্যায়ন করে সাধারণ দাবা প্রোগ্রামগুলিতে ফাংশন অনুমান ব্যবহৃত হয় This এটি অনেক বেশি শক্তিশালী উপস্থাপনা সরবরাহ করে তবে তাত্পর্যপূর্ণ আনুমানিক ত্রুটিগুলিও প্রবর্তন করতে পারে M MCTS এই আনুমানিক ত্রুটির তুলনায় গড় গড়ে, যা একটি বৃহত্তর সাবট্রির মূল্যায়ন করার সময় বাতিল হয়ে যায় cancel বিপরীতে, আলফা-বিটা অনুসন্ধান একটি সুস্পষ্ট মিনি-ম্যাক্স গণনা করে, যা সাবট্রির গোলে সবচেয়ে বড় আনুমানিক ত্রুটিগুলি প্রচার করে "" (আমার জোর দিয়ে)

বাস্তবতা দ্বারা উপবিষ্ট হওয়া সত্ত্বেও এখানে আমার পুরানো উত্তর, এখনও কিছু বৈধ পয়েন্ট রয়েছে।

সবার আগে আলফাগো কোনও সাধারণ গেম প্লে করার ব্যবস্থা নয়। এটি এমন একটি প্রোগ্রাম যা পুরোপুরি গোপনে ডিজাইন করা এবং অন্য কিছুই নয়। তবে এটি নির্দিষ্ট কিছু বিল্ডিং ব্লকগুলি থেকে তৈরি করা হয়েছে যার বিস্তৃত প্রয়োগযোগ্যতা রয়েছে, যেমন কনভোলশনাল নিউরাল নেটওয়ার্কগুলি , যা চিত্রের স্বীকৃতি হিসাবে ব্যবহার করা হয়েছে এবং যা মেডিকেল ডায়াগনস্টিকগুলিতে তাত্ক্ষণিক প্রয়োগ রয়েছে, এবং অ্যাটারি গেমগুলিতে আয়ত্ত করার জন্য পুনর্বহাল শেখার ব্যবহার করা হয়েছিল প্রবন্ধ.

এছাড়াও, বর্তমান ইঞ্জিনগুলি স্ব-খেলায় "শিখুন" করে : "রাতারাতি, লেফ্লারের ছয়টি কম্পিউটার আট ঘন্টার সময়কালে প্রতিটি ১৪,০০০ এরও বেশি গেমের মধ্য দিয়ে খেলা করে।" ছয়টি মেশিন বার 14,000 গেমগুলি প্রচুর গেমস হয়, "ও বলে with প্রতিটি খেলা খেলে ডেটাবেস আরও গভীর ও সমৃদ্ধ হয়। কম্পিউটারের একে অপরের বিরুদ্ধে খেলা দেখার আগ্রহও এখানে রয়েছে লেফলারের ব্যস্ততার সাথে ঘূর্ণিত মেশিনগুলির ফলাফল কমোডোর ক্রমবর্ধমান দক্ষতা ""

আপনার প্রশ্নের সর্বাধিক আসতে:

দাবা এবং যাওয়ার মধ্যে একটি গুরুত্বপূর্ণ পার্থক্য রয়েছে, কমপক্ষে প্রোগ্রামারের দৃষ্টিকোণ থেকে। দাবা কৌশলগত খেলা বেশি, অন্যদিকে কৌশলগত খেলা বেশি game এর অর্থ হ'ল দাবা গণনায় গভীরতার অবস্থানগত মূল্যায়ন ট্রাম্প করে। এটি মূলত অন্তর্দৃষ্টি যা ফ্রিটজ, শ্রেডার, জুনিয়র এবং ফলের মতো নতুন প্রজন্মের, রাইবকা, হাউদিনী, স্টকফিশ, কোমোডোর মতো "পুরাতন" ইঞ্জিনগুলিকে আলাদা করে। কারণ প্রতিটি লাইনের শেষে আপনাকে অবস্থানটি মূল্যায়ন করতে হবে এবং আপনি প্রচুর লাইন গণনা করতে চান এবং মূল্যায়নের গুণাগুণ অনুসন্ধানের গভীরতার মতো গুরুত্বপূর্ণ নয়, দাবা ইঞ্জিনগুলিতে হাতা এবং দ্রুত মূল্যায়ন কার্য রয়েছে functions

অন্যদিকে কৌশলগত জটিলতা কম্পিউটারের জন্যও অনেক বড়। ফলস্বরূপ অবস্থানগুলি মূল্যায়ন করা এবং নির্ভুলভাবে সরানো চাবিকাঠি। আলফাগো গেমটিতে নতুন কী নিয়ে আসে তা হ'ল এই মূল্যায়ন শক্তি, যা কনভোলশনাল নিউরাল নেটওয়ার্কের উপর ভিত্তি করে ।

অবশেষে আমার বক্তব্যটি পৌঁছানোর জন্য: দাবা মূল্যায়ন ফাংশনগুলি যেখানে হাতা এবং দ্রুত, নিউরাল নেটওয়ার্কগুলিতে কয়েক মিলিয়ন, কখনও কখনও কয়েক বিলিয়ন প্যারামিটার রয়েছে। যেহেতু এই প্রসঙ্গে "শেখার" অর্থ প্যাকেটগুলি টুইট করা, স্ব-শিক্ষার গো প্রোগ্রামগুলির জন্য আরও অনেক বেশি সম্ভাবনা রয়েছে।

সুতরাং, হ্যাঁ আপনি দাবা ইঞ্জিন তৈরি করতে আলফাগোর মতো একটি সেটআপ ব্যবহার করতে পারেন তবে এটি বিশেষ ভাল হবে না। মূল্যায়নের ক্রিয়াকলাপটি চালাতে এত বেশি সময় লাগবে, আপনাকে প্রয়োজনীয় অনুসন্ধানের গভীরতায় (যা আলফাগো যা করে তা) পেতে জিপিাসের একটি বিশাল ক্লাস্টারটি ব্যবহার করতে হবে। আপনি একটি খুব ভাল মূল্যায়ন ফাংশন তৈরি করতে পারেন , কিন্তু গতি ট্রেডঅফ এটি উপযুক্ত নয়।


1
আমি এতে আপনার সাথে একমত নইলে আপনি দাবা ইঞ্জিন তৈরি করতে আলফাগোয়ের মতো একটি সেটআপ ব্যবহার করতে পারেন তবে এটি বিশেষ ভাল হবে না । আমি এই বিষয়ে কিছুটা বাজি ধরতে পারি যে এক বছরেরও কম সময়ের মধ্যে, এমন একটি দাবা ইঞ্জিন থাকবে যা এনএনকে খুব বেশি নির্ভর করে (এটি সম্ভবত একটি গাছের সন্ধান এবং মন্টি কার্লো থাকবে, তবে এটি গুরুত্বপূর্ণ নয়), যা খুব কাছাকাছি থাকবে will অত্যাধুনিক স্টকফিশ এবং এই ইঞ্জিনটি সুপার কর্পোরেশন থেকে উদ্ভূত হবে না (কারণ দাবা সম্পর্কে আগ্রহ দীর্ঘকাল আগে এআই গবেষকদের কাছ থেকে দূরে সরে গিয়েছিল), বরং শক্তিশালী শখবিদদের কাছ থেকে।
সালভাদোর ডালি

মন্টি কার্লো দাবাতে সম্পূর্ণ অকেজো। এবং যখন এনএনগুলি অকেজো নয় তবে এগুলি কেবল ধীরে ধীরে।
ব্লাইন্ডকংফুমাস্টার

3
কেন এমসিটিএস অকেজো? বর্তমান বোর্ডের অবস্থান থেকে শুরু করা, 5 টি নোডের গভীরতা সহ 1000 গেমস চালানো এবং নোডের কী কী আরও ভাল সম্ভাবনা রয়েছে তা দেখার পক্ষে এটি প্রচুর অর্থবোধ করে। এটি আপনি যা করেন তার সাথে খুব মিল, যখন আপনি ডাটাবেজে চলনের পরিসংখ্যানগুলি দেখুন এবং দেখুন 14 এর পরে K আপনার কাছে কি সম্পূর্ণরূপে অকেজো বাক্যাংশের প্রমাণ রয়েছে ?
সালভাদোর ডালি

2
এমসিটিএস এলোমেলোভাবে নয়, এটি সিমুলেশন সম্পর্কে। এমসি সম্পর্কে প্রাথমিক সূচনা বইগুলি আপনাকে কেবল বিন্দুটি দেখানোর জন্য এলোমেলোতার উদাহরণ দেয়। আপনি 6 এর নোড গভীরতার সাথে অনেক সময় একটি তীক্ষ্ণ অবস্থান খেলতে পারেন যা সুপার দ্রুত (এবং এখনও বেশ নির্ভরযোগ্য), এবং কোনটি সরানো ভাল তা প্রায় অনুমান করার অনুমতি দেবে।
সালভাদোর ডালি

1
আমার বক্তব্য সাহসী নয়, এগুলি মূলধারার। কিছু দাবা প্রোগ্রামিং সাইট পড়ুন, আপনি আমার যুক্তি কমবেশি খুঁজে পাবেন। এমসিটিএস এক দশক ধরে পরিচিত এবং দাবাতে অন্যান্য জিনিসগুলি আরও ভাল কাজ করে। অন্যদিকে আমি মনে করি না যে আপনার বক্তব্যগুলি অন্ত্র অনুভূতির চেয়ে বেশি কিছু নির্ভর করে, সুতরাং এটি আমার শেষ মন্তব্য হবে।
ব্লাইন্ডকংফিউমাস্টার

5

স্পাকফিশ নামে একটি প্রকল্প রয়েছে যা কেবল এটি করার চেষ্টা করে। এটি একটি নিউরাল নেটওয়ার্ক-ভিত্তিক ইঞ্জিন যার উদ্দেশ্য "কম্পিউটার গো-র সাম্প্রতিক অগ্রগতি কম্পিউটার দাবা বিশ্বে কীভাবে প্রয়োগ করা যেতে পারে" তা আবিষ্কার করা।

এটি একটি তরুণ প্রকল্প এবং ইঞ্জিনটি এখনও বেশ দুর্বল। এটি বাজানো আকর্ষণীয়, কারণ এর অবস্থানগত খেলাটি তার কৌশলগুলির চেয়ে ভাল।


2
আপনি শেষ বাক্যটি নিয়ে মজা করছিলেন না। আমি কেবল এর বিরুদ্ধে কয়েকটি গেম খেলেছি, এবং প্রত্যেকে একেবারে পর্যাপ্ত এন্ডগামে ভালভাবে জিতেছে, কেবল স্পোকফিশকে হঠাৎ করেই ড্রপ পড়ার সামগ্রী দেখতে পাওয়া যায় (এক ক্ষেত্রে কেবল কোথাও না ছড়িয়ে থাকা)। স্ট্রেঞ্জ।
ইটিডি

আপনি যেহেতু উত্তর দিয়েছেন, গো এআই সম্পর্কিত নতুন তথ্য প্রকাশিত হয়েছে বলে মনে হয়। আমি খবরের সাথে লিঙ্ক করতে প্রশ্নটি আপডেট করেছি, যদি এটি আপনার আগ্রহী হয়।
thb

স্পোকফিশের জন্য ওয়েবসাইটটি অদৃশ্য হয়ে গেছে বলে মনে হচ্ছে ...
hkBst

4

দাবাতে কি একই জাতীয় এআই জিততে পারে? এটি খাঁটি স্ব-প্রশিক্ষণ অর্জন করতে পারে?

সংক্ষিপ্ত উত্তর হলো 'না!"

দাবা এবং গো তাদের তুলনামূলক সরলতা এবং আপেক্ষিক জটিলতায় মূলত আলাদা, যা তাদের জ্যামিতি এবং আপনি কীভাবে জিতেন তা থেকে প্রাপ্ত। এগুলি একটি প্রোগ্রাম তৈরি করতে একত্রিত হয় যা অন্যটিতে অপ্রয়োজনে ভাল।

দাবাতে আপনি প্রতিপক্ষকে চেক করে জয়ী হন, পয়েন্টগুলি গণনা করা হয় না। অবশ্যই আপনি চেকমেট সরবরাহ করার আগে একটি বুদ্ধিমান প্রতিপক্ষ প্রায়ই পদত্যাগ করবে তবে নীতিটি একই। যেতে যেতে আপনি খেলা শেষে আরও পয়েন্ট পেয়ে জিতেন। আমার যদি কোনও রাজা এবং রানী থাকে এবং আপনার একটি রাজা, রুক এবং প্যাঁস আছে তবে আপনি একটি দুর্গটি তৈরি করেছেন তবে রানীর জন্য আমার 9 পয়েন্ট রয়েছে এবং আপনার রোক এবং প্যাঁচের জন্য আপনার কাছে মাত্র 6 পয়েন্ট রয়েছে। খেলাটি একটি ড্র।

দাবা এবং যাওয়ার মধ্যে জটিলতায় এটি একটি মৌলিক পার্থক্য তৈরি করে। যেতে যেতে আপনি কেবল স্কোর রাখতে পারেন এবং আপনি জানতে পারবেন কে জিতছে। দাবাতে একমাত্র উপায় আপনি জানতে পারবেন কে জিতছে তা খাঁটি গণনা দ্বারা। এই অর্থে দাবা যাওয়ার চেয়ে অনেক জটিল।

একই সময়ে, দুটি গেমের জ্যামিতির কারণে, দাবাতে না গিয়ে আরও বেশি সম্ভাবনার সম্ভাবনা রয়েছে। এই অর্থে গো দাবার চেয়ে অনেক জটিল is

একটি দাবা প্রোগ্রাম একটি নির্দিষ্ট গভীরতা পর্যন্ত সমস্ত সম্ভাব্য পদক্ষেপের নিষ্ঠুর বল গণনা দ্বারা কাজ করে যা এর শক্তি নির্ধারণ করে। একটি গো প্রোগ্রামটি এর মতো কাজ করতে পারে না এবং শিক্ষানবিশ স্তরের গোড়ার চেয়ে আরও উন্নত কিছু খেলতে পারে না।

যাওয়ার মূল লক্ষ্যটি আপনার প্রতিপক্ষের চেয়ে বেশি অঞ্চল নিয়ন্ত্রণ করা। গেমের শেষে পার্থক্যটি 1 পাথর বা 100 পাথর, উভয়ই জয়যুক্ত কিনা তা বিবেচ্য নয়। প্রতিবার আপনি পাথর রাখলে আপনি দুটি কাজ করেন। আপনি আপনার অঞ্চলটি সম্ভাব্য বা প্রকৃত বাড়াতে এবং আপনি আপনার প্রতিপক্ষকে হ্রাস করেছেন।

কখনও কখনও, যখন এটি অঞ্চলে প্রকৃত বৃদ্ধি বা হ্রাস হয়, তখন পদক্ষেপের মূল্য গণনা করা সহজ, তবে যখন এটি সম্ভাব্য হয় তখন মূল্যায়ন করা খুব কঠিন। দুর্বল গো খেলোয়াড় হিসাবে আমি "সম্ভাব্য" তুলনায় "প্রকৃত" আরও ভাল বুঝতে পেরেছি এবং একটি শক্তিশালী খেলোয়াড় কেন্দ্রে এবং কোণে ছোট ছোট প্রকৃত অঞ্চল তৈরি করার সময় কেন্দ্রে আরও বেশি সম্ভাব্য অঞ্চল তৈরি করে আমাকে মারবে। শক্তিশালী খেলোয়াড় প্রচুর গেম খেলতে এবং "সম্ভাব্য" অঞ্চল কীভাবে তৈরি করতে পারে তা স্বীকৃতি দিয়ে অন্তর্দৃষ্টি দিয়ে বিচার করার এবং অনুভব করার ক্ষমতা তৈরি করবে।

এর আগে আমি বলেছিলাম প্রতিবার আমি যখন পাথর রাখি এটি আমার অঞ্চল বাড়ায় (প্রকৃত বা সম্ভাব্য) এবং আমার প্রতিপক্ষের হ্রাস পাবে (আসলে যদি এটি একটি নির্বোধ পদক্ষেপ হয় তবে এটি বিপরীত হবে!)। যে কোনও অবস্থানে সমস্ত চাল এক রকম হয় না। একটি অবস্থানে রাখা পাথরের মূল্য অন্য জায়গায় রাখা পাথরের চেয়ে অনেক বেশি বা অনেক কম হতে পারে।

সাধারণত একটি গেমটিতে ছোট "মারামারি" হবে যেখানে খেলোয়াড়রা তাদের পাথর একে অপরের কাছে রাখে, তাদের অঞ্চল চিহ্নিত করে এবং প্রতিপক্ষকে সীমাবদ্ধ করে। ইতিমধ্যে বোর্ডের অন্য অংশে অঞ্চল সরিয়ে নেওয়া বা অন্য কোথাও লড়াইয়ে যাওয়ার সম্ভাবনা রয়েছে যেখানে উভয় খেলোয়াড়ের ইতিমধ্যে পাথর রয়েছে।

এই পরিস্থিতিতেগুলির মধ্যে যা গুরুত্বপূর্ণ তা হ'ল একটি লড়াই কখন বন্ধ করা উচিত তা জেনে রাখা, কারণ সম্ভাব্য লাভ হ্রাস পেয়েছে এবং হয় অন্য লড়াইয়ে যেতে বা সম্ভবত কুমারী অঞ্চলে প্রবেশ করা। কখনও কখনও এটি কঠিন গণনার উপর নির্ভর করে তবে প্রায়শই এটি অনেক বেশি নেবুলাস এবং গণনার সাপেক্ষে নয়। একজন দুর্বল খেলোয়াড় হিসাবে এখানেই একজন শক্তিশালী দাতা আমাকে প্রতিবার পিষ্ট করবে।

কম্পিউটার এই পরিস্থিতিতে কী করে তা হ'ল একটি নির্দিষ্ট পদক্ষেপের জন্য একটি প্রত্যাশিত স্কোর তৈরি করতে সম্ভাব্য পদ্ধতিগুলি ব্যবহার করে। কখনও কখনও আসল মানটি আরও খানিকটা কম হয়ে যায়, কখনও কখনও কিছুটা বেশি তবে দীর্ঘ পর্যায়ক্রমে এটি আরও কম বা কম হয়ে যায়। এটি একটি প্রত্যাশার সাথে সর্বাধিক প্রত্যাশিত মান সহ এই পদক্ষেপটি বাছাই করে রাখবে যে কোনও গেমের দীর্ঘ মেয়াদে ছোট ত্রুটিগুলি বাতিল হয়ে যাবে এবং এর কৌশলটি জিতবে।

এটি এমন কোনও কৌশল নয় যা দাবা খেলোয়াড়দের কাছে পরিচিত বলে মনে হয় এবং দাবাতে যে কাজ করবে তা নয় is এটি এমন কিছু যা পরিচিত বাজারগুলির মধ্যে যা চলে তার অনুসরণ করে এমন কারও কাছে পরিচিত বলে মনে হচ্ছে। এটি "হাই ফ্রিকোয়েন্সি ট্রেডিং" নামক কিছুটির সাথে খুব মিল বলে মনে হচ্ছে কম্পিউটারগুলি প্রতি সেকেন্ডে হাজার হাজার ছোট বেট বা কেবল প্রস্তাবিত বেটকে "নিকেল এবং ডাইম" বাজারে তুলবে এবং সম্ভবত এটি মিলসেকেন্ডের সময়কালে তাদের পক্ষে খুব প্রান্তিকভাবে সরিয়ে ফেলবে।

ইতিমধ্যে আর্থিক বাজারগুলিতে এই ধরণের অ্যালগরিদমিক ট্রেডিংয়ের আধিপত্য রয়েছে যা বোঝায় যে এই জাতীয় প্রোগ্রামটি ইতিমধ্যে বোর্ড গেমের চেয়ে অনেক বেশি লাভজনক অঞ্চলে জয় লাভ করেছে।


4
উচ্চ ফ্রিকোয়েন্সি ট্রেডিং খেলতে যাওয়ার মতো কিছুই নয়। সম্পূর্ণ ভিন্ন অ্যালগোরিদম আফাইক। এছাড়াও, আপনার উত্তরে প্রচুর আকর্ষণীয় জিনিস রয়েছে তবে মূল বিষয়টি দেখা একরকম শক্ত, সম্ভবত একটি টিএল; ডিআর যোগ করুন। ;-)
অন্ধকাংফুমাস্টার

@ ব্লিন্ডকংফুমাস্টার এইচএফটি এবং আলফাগোর পিছনের অন্তর্নিহিত নীতিটি একটি সম্ভাবনাময় একটি। এই "পদক্ষেপ" থেকে প্রত্যাশিত লাভ x%। দীর্ঘমেয়াদে এই জাতীয় চাল / বেটের জমে থাকা আলফাগোর জন্য গেমটি জিততে বা এইচএফটি ব্যবসায়ীদের জন্য একটি ভাগ্য তৈরি করতে চলেছে। তবে এখন এবং তারপরে লি লি-ডল থেকে একটি "ফ্ল্যাশ ক্র্যাশ" বা "আশ্চর্য পদক্ষেপ" আসবে যা একটি জয় / লাভকে লোকসানে পরিণত করবে। এটি কোনওভাবেই এর প্রোগ্রামিংকে অকার্যকর করে না। এটি প্রতিবার নিখুঁত সেরা পদক্ষেপ খুঁজে পাওয়ার জন্য প্রোগ্রাম করা হয় না। এটি ভ্রমণের বিক্রয়কর্মের সমস্যার জন্য সিউডো সমাধানগুলির মতো যা সর্বোত্তম 5% এর মধ্যে যাওয়ার চেষ্টা করে।
ব্রায়ান টাওয়ার্স

আপনি যেহেতু উত্তর দিয়েছেন, গো এআই সম্পর্কিত নতুন তথ্য প্রকাশিত হয়েছে বলে মনে হয়। আমি খবরের সাথে লিঙ্ক করতে প্রশ্নটি আপডেট করেছি, যদি এটি আপনার আগ্রহী হয়।
thb

1
@thb, আমি বিশ্বাস করি এই উত্তর কিছুটা অপ্রচলিত AlphaZero নতুন বিজয় দেওয়া এখন, হিসাবে arxiv.org/abs/1712.01815
মার্ক এস

@ উইল নং কেন? নিজের অগভীর মানদণ্ডে অন্যের বিচার করবেন না।
ব্রায়ান টাওয়ারস

4

(আলফাগোর জন্য যে কোনও গভীর প্রযুক্তিগত আলোচনা চায় সে যে কেউ আমার পোস্টটি দেখতে পারেন )

সংক্ষিপ্ত উত্তর : না

দীর্ঘ উত্তর :

প্রথমত, আমাদের বুঝতে হবে কেন গুগল আলফা-বিটা আলফাগোতে প্রয়োগ করেনি। স্টকফিশ এবং কোমোডো (এবং সমস্ত দাবা ইঞ্জিন) এর আলফা-বিটা আছে, কেন আলফাগো হবে না?

কারণ : কোনও সহজ এবং নিখুঁত উপায় নেই যা কোনও গো অবস্থানকে স্থিরভাবে মূল্যায়ন করতে পারে।

দাবাতে, আমরা সবসময় উপকরণগুলি গণনা করতে পারি, কোনও অবস্থানকে স্থিতিশীলভাবে মূল্যায়নের একটি খুব কার্যকর উপায়। নিখুঁত না হলেও, এটি দাবারের জন্য খুব দ্রুত এবং খুব ভাল প্রক্সি।

মন্টে-কার্লো দিয়ে রাষ্ট্রীয় স্থান অনুসন্ধান করা আলফা-বিটাতে একটি নিকৃষ্ট পদ্ধতি। গুগল তারা পারলে আলফা-বিটা প্রয়োগ করত, তবে তারা তা করতে পারেনি। সুতরাং, তারা বেশ ধীর গতিতে কিছু ব্যবহার করতে বাধ্য হয়েছিল।

দাবা ইঞ্জিন মন্টি-কার্লোর সাথে আরও ভাল খেলবে না।


পুনর্বিবেচনার সময়, নাকি এখনও ঠিক হয়নি?
ইভারগালো

3

আমি অন্যান্য উত্তরগুলির সাথে একমত নই। আমি কম্পিউটার বিজ্ঞানী যারা কৃত্রিম বুদ্ধিমত্তার ক্ষেত্রে পেশাগতভাবে কাজ করি এবং দাবাতে একজন প্রার্থী মাস্টার এবং আইগোতে 3 জন ড্যানিশও আছি।

আমি মনে করি ডিপ মাইন্ডের পদ্ধতিগুলি দাবাতে প্রয়োগ করা যেতে পারে কিনা তা এই মুহূর্তে অস্পষ্ট, তবে আমি মনে করি এটি সম্ভব।

বর্তমানে, দাবা খেলার শীর্ষস্থানীয় প্রোগ্রামগুলি ক্রমবর্ধমানভাবে হিউরিস্টিক্সের উপর নির্ভর করছে এবং দাবা জন্য আলফাগো আর্কিটেকচারটি ব্যবহার করার চেষ্টা কিছু উপায়ে একই ধরণের চিন্তায় থাকবে।

আলফাগোর একটি মূল স্থাপত্য বৈশিষ্ট্য যা পরিবর্তন করতে হবে তা হ'ল মূল স্কোয়ারগুলি সনাক্ত করার পদ্ধতি (বা তাপের মানচিত্র), যা ইগোর মতো গেমগুলির জন্য বিশেষ এবং এটি দাবাতে সরাসরি প্রযোজ্য নয়। আলফাগো আর্কিটেকচারকে দাবাতে প্রাসঙ্গিক করতে এই পদ্ধতির কিছু অ্যানালগ বিকাশ করতে হবে। উদাহরণস্বরূপ, আমরা কী স্কোয়ারের চেয়ে "কী টুকরা" ধারণাটি ধারণ করতে পারি।

আমি মনে করি যে আলফাগো আর্কিটেকচার দাবাটির সাথে প্রাসঙ্গিক নয় কারণ দাবা আরও কৌশলগত খুব ভাল দাবি নয় কারণ শেষ পর্যন্ত উভয়েরই এমন অনুসন্ধানের গাছ রয়েছে যা আকারে যথেষ্ট পরিমাণে আলফাগো দাবাতে অবশ্যই অভিযোজিত হতে পারে।


আপনার দাবি সঠিক হতে পারে বলে আমি আপনাকে একটি +1 দিয়েছি তবে কেউ কাগজ প্রকাশ না করা পর্যন্ত আমরা নিশ্চিতভাবে জানি না know
স্মৃতিচেস

উহ? ব্রায়ান টাওয়ার দ্বারা নির্দেশিত হিসাবে কাগজ ইতিমধ্যে বিদ্যমান। উত্তর হ্যাঁ।
থার্মোম্যাগনেটিক কনডেন্সড বোসন

দেখে মনে হচ্ছে আমি ঠিক আছি, হি।
সিসিল দে ভেরে

@ সিসিলডি অন্যান্য উত্তরগুলির সাথে একমত নন, তাদের মধ্যে 2 সঠিক উত্তরটি নির্দেশ করেছেন। এবং এই মুহুর্তে এটি অস্পষ্ট বলে উল্লেখ করে নয়, যদিও এটি ক্রিস্টাল স্পষ্ট যে উত্তরটি হ্যাঁ (সম্ভবত নয়)।
থার্মোম্যাগনেটিক কনডেন্সড বোসন

3

উত্তরটি হল হ্যাঁ! গতকাল গুগল এটি প্রমাণ করেছে, যখন আলফাজিরো কোনও দাবা জ্ঞান ব্যবহার না করে নিয়ম এবং খাঁটি স্ব প্রশিক্ষণ সম্পর্কে কেবল জ্ঞান ব্যবহার করে সেরা দাবা প্রোগ্রামকে পরাজিত করে। গৃহীত উত্তরটি ভুল। নিবন্ধটির লিঙ্কটি এখানে: লিঙ্ক


আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.