কম্পিউটার দাবাতে কীভাবে কৃত্রিম বুদ্ধিমত্তা ব্যবহার করবেন


19

কিছু (historicalতিহাসিক) গবেষণাপত্রে দাবাটিকে কৃত্রিম বুদ্ধিমত্তার দ্রোফিলা হিসাবে উল্লেখ করা হয়েছে। যদিও আমি অনুমান করি যে বর্তমান গবেষণায়, সন্ধানের অ্যালগরিদমের নিখুঁত প্রয়োগই সেরা উন্নত কম্পিউটার বিজ্ঞান , আমি বিশ্বাস করি যে এখনও এমন কিছু ক্ষেত্র রয়েছে যেখানে প্রয়োগ (এবং অনুশীলন) এআই-কৌশলগুলি করা যেতে পারে।

একটি সহজ উদাহরণ বই খোলার উদ্বোধন হবে যেখানে কেউ প্রোগ্রামটি শেখাতে পারে যে উদ্বোধনটিতে নির্দিষ্ট পদক্ষেপগুলি ব্যবহার করতে হবে বা না করা উচিত কারণ প্রোগ্রামটি নির্দিষ্ট ধরণের অবস্থানের জন্য অসমর্থিত। আমরা পুনরায় প্রয়োগের শেখার একটি ফর্ম ব্যবহার করতে পারি এবং এটি স্বয়ংক্রিয়ভাবে ব্যবহার করতে পারি: আমি মনে করি আমি নিজেই এই প্রোগ্রামটি খেলতে পারি এবং লাইন জয়ের সম্ভাবনা বাড়িয়ে তুলতে পারি এবং লাইন হারাবার সম্ভাবনা হ্রাস করতে পারি।

আরও জটিল উদাহরণটি হল একটি লার্নিং মূল্যায়ন ফাংশন ব্যবহার করা (উদাহরণস্বরূপ, টুকরা-বর্গক্ষেত্রের টেবিলগুলির মানগুলি টুইঙ্ক করতে পারে )। তবে, আমি ভাবছি:

  • বাস্তববাদী অবস্থানের বিশাল পরিমাণ থাকার কারণে সমস্ত গোলমাল দেওয়া হয়েছে (বাস্তব উদ্বোধনের লাইনের পরিমাণের বিপরীতে)
  • এবং একটি কম্পিউটার দাবা গেমের ব্যয় (সময়কাল) এবং লোডগুলি খেলার প্রয়োজন সহ

কেউ কীভাবে কার্যকরভাবে এটি করতে পারে? (বা আমার অন্যান্য কৌশলগুলির দিকে নজর দেওয়া উচিত, উদাহরণস্বরূপ নিউরাল নেটওয়ার্কগুলি))


3
স্ট্যান্ডার্ড অ্যাপ্রোচটি হ'ল আলফা-বিটা ছাঁটাই করা মিনিম্যাক্স। একটি heuristic সঙ্গে। এটি মেশিন-লার্নিং পরিবার থেকে নয়, এআইয়ের অনুসন্ধান পরিবার থেকে এসেছে।
লিন্ডন হোয়াইট

2
আসল দাবা মাস্টাররা মূলত কেবল সমস্ত খেলাগুলি মনে রাখবেন যা তারা এর আগে খেলেছে ... সুতরাং তাদের শক্তিশালী স্মৃতি রয়েছে।

2
পাল্টা দাবিও রয়েছে। কে এটা বলেছিল তা আমি মনে করতে পারি না তবে এটি এরকম হয়। জীববিজ্ঞানীরা দেহবিজ্ঞান, জেনেটিক্স ইত্যাদির আরও গভীর ও গভীর উপলব্ধি অর্জনের জন্য ড্রোসোফিলায় পরীক্ষা-নিরীক্ষা করেন। এআই লোকেরা দাবা খেলার ক্ষেত্রে আরও ভাল ও ভাল হওয়ার জন্য দাবা কম্পিউটার লেখেন। এটি কম্পিউটার বিজ্ঞান সম্পর্কে আমাদের তেমন কিছু শেখায় না; এটি জীববিজ্ঞানীদের মতো অতি দ্রুত, অতি-শক্তিশালী ড্রোসোফিলার প্রজনন করে এবং একে অপরের সাথে লড়াই করতে বাধ্য করে।
ডেভিড রিচার্বি

রূপকটি ছড়িয়ে দেওয়া, এটি অনুমানযোগ্যভাবে "কৃত্রিম বুদ্ধিমত্তার ড্রোসোফিলা" এর চেয়েও বেশি বিভিন্ন বিষয়, কারণ ১৯ it~ সাল পর্যন্ত এটি শীর্ষ মানবকে নির্ধারিতভাবে পরাজিত করতে পারেনি এবং এ নিয়ে গবেষণা অব্যাহত রয়েছে ইত্যাদি
vzn

উত্তর:


16

দাবা জন্য পুরো রাজ্য স্থান বিপুল - এটি প্রায় 10 43 হিসাবে অনুমান করা যায় (শ্যানন সংখ্যা (শ্যানন, 1950) , ( উইকিপিডিয়া )।

আপনি যে ধারণাটি উপস্থাপন করছেন - রেইনফোর্সমেন্ট লার্নিং এজেন্টরা গেমটি শিখতে একে অপরের সাথে খেলছেন - সফলভাবে ব্যাকগ্যামন - টিডি-গ্যামন (টেসোরো, 1995) , ( স্যাটন এবং বার্তো রিইনফোর্সমেন্ট লার্নিং-এর অধ্যায় ) সফলভাবে প্রয়োগ হয়েছিল । এটি গেমের মান ফাংশনটি অনুমান করতে নিউরাল নেটওয়ার্কগুলিও ব্যবহার করে। এই সমস্যাটি আরও সহজ, কারণ ব্যাকগ্যামনে রাজ্যের সংখ্যা দাবা-র তুলনায় উল্লেখযোগ্যভাবে ছোট, যথা: 18,528,584,051,601,162,496 ( ব্যাকগ্যামন ফোরাম আর্কাইভ থ্রেড )।

তবে, আপনি যদি প্রাথমিক কয়েকটি পদক্ষেপের পরে গেমটি শেষ করেন এবং কেবলমাত্র "ভাল উদ্বোধন" শেখার লক্ষ্য রাখেন তবে আপনি অনুরূপ পদ্ধতির সাথে সাফল্য অর্জন করতে পারেন। মূল সমস্যাটি উদ্বোধনী গেমের পরে গেমটি মূল্যায়ন করা হবে, যা কঠিন বলে মনে হচ্ছে। সুপরিচিত খোলার পরে প্রতিষ্ঠিত পজিশনের সাথে কেবল মিলের পরিমাণই যথেষ্ট নয়, কারণ প্রতিপক্ষ যদি নির্বোধ পদক্ষেপ নেয় তবে অবস্থান তাদের থেকে অনেক দূরে থাকতে পারে (সুতরাং এটি এজেন্টের ভুল শেখার কারণে হবে না, সুতরাং অবস্থানটি "ভুল হলেও" "একটি ভাল ফলাফল হিসাবে মূল্যায়ন করা উচিত)।

তথ্যসূত্র:


1
সর্বাধিক শক্তিশালী অংশটি উদ্বোধনের ফলাফলকে স্কোর করার জন্য একটি অভিজ্ঞতামূলক উপায়ে নিয়ে আসছে। বিভিন্ন প্রারম্ভিক বিভিন্ন উপায়ে ভাল হয়, তাই সম্ভবত গ্রহণযোগ্য খোলার একটি ভিড় আছে।
জেডং

3

আমি পুরোপুরি নিশ্চিত যে পাঠ্যপুস্তকগুলিতে এআই বা এমএল এর যে কোনও সম্ভাব্য (বা অদ্ভুত) পদ্ধতির চেষ্টা করা হয়েছে এবং সাধারণ উদ্বেগ শক্তির তুলনায় বেশ ব্যর্থ।

আমার ব্যক্তিগত দৃষ্টিভঙ্গি হ'ল প্রতি দাবা আর আধুনিক এআই এর পক্ষে আর আগ্রহী নয় ... কেবল, কারণ এটি সমাধান হয়েছে : কেবলমাত্র একটি আধুনিক কম্পিউটার এবং জন্তু শক্তি ব্যবহার করে। সুতরাং, আমি মনে করি না যে এটি আরও দক্ষতার সাথে সমাধান করার জন্য একটি "বুদ্ধিমান" সিস্টেম তৈরি করার দরকার আছে (আমার সেলফোনে ঠিক কাজ করে), এবং আমি বিশ্বাস করি যে এমনকি কিছু অজানা এবং আরও কিছু প্রয়োজন নেই "বুদ্ধিমান" অস্তিত্ব বিদ্যমান।


1
আমি কেন নিশ্চিত হলাম না কেন এটিকে হ্রাস করা হয়েছে। দাবাটি "সমাধান" করা হচ্ছে এমন যুক্তিটি কিছুটা ভুল, এটি বলেছিল, ইলিয়াসফ্ল স্পট-অন যে এটি দাবা এআই গবেষণার জন্য তার বেশিরভাগ আবেদন হারিয়েছে। একটি জিনিস, সর্বোত্তম কম্পিউটার দাবা প্রোগ্রামগুলি এখন পর্যাপ্ত প্রক্রিয়াকরণ শক্তি এবং সময় প্রদত্ত সেরা মানুষের চেয়ে অনেক বেশি শক্তিশালী। এটি প্রোগ্রামারদের এমনকি একটি অ্যালগরিদম কতটা ভাল কাজ করে তা মূল্যায়ন করা ক্রমশ কঠিন করে তোলে।
এলেক্সেনাইড

1
ধন্যবাদ, আমি বোঝাতে পেরেছি যে অর্থে জোর শক্তিই একটি সমাধান। অবশ্যই এআই সম্প্রদায় (সাধারণভাবে এখানে নয়) সেই "সমাধান" দিয়ে খুশি নয়। যাইহোক, আমাদের ইতিমধ্যে একটি কম্পিউটেশনাল সিস্টেম রয়েছে যা এই কার্যটি সমাধান করার জন্য "বুদ্ধিমান" আচরণ উপস্থাপন করে এবং সেরা মানব, কালকে জয় করে। ব্যক্তিগতভাবে, আমি বিশ্বাস করি যে কয়েক বছর পরে দাবার এআই-এর জন্য অফ-টপিক হবে যখন বর্তমান শিক্ষাবাহিনী যারা এই আক্রমণে ক্যারিয়ার ব্যয় করেছিল অবসর গ্রহণ করবে।

আমি বর্তমান কম্পিউটার দাবা বাস্তবায়নগুলিকে 'ব্রুট ফোর্স দ্বারা সমাধান করা' হিসাবে কল করব না - তারা এখনও প্রচুর পরিমাণে গেমস্টেটগুলি অনুসন্ধান করছে, তবে সেখানে অ-নিষ্ঠুর বাহিনীর অনেকগুলি উপাদান রয়েছে। অবশ্যই, তারা কোনও "মানব-ধাঁচের" সমাধান নয় যা অন্যান্য সমস্যাগুলির পক্ষে ভাল রূপায়িত করবে তবে আমি অবাক হব না যে আমাদের যদি "মানব-ধাঁচের" দাবা এআই থাকত তবে এটি কম মাত্রার একাধিক আদেশ হত বর্তমানের বিশেষায়িত সমাধানগুলির চেয়ে দক্ষ, এটিকে সহজতর নিকৃষ্ট করে তোলা।
পিটারিস

আমি এই উত্তর মনে করি এবং এর মন্তব্য বেশ পরিষ্কারভাবে গুগলের AlphaZero দ্বারা খণ্ডন করা হয়েছে: en.wikipedia.org/wiki/AlphaZero এমনকি আপনি যদি একটি সিস্টেম Stockfish জন্য সেটআপ সম্পর্কে সমালোচনা গ্রহণ এবং তারা সব ম্যাচ ড্র করেছিল যে স্তর পেয়েছিলাম কয়েক ঘন্টা প্রশিক্ষণের সাথে স্পষ্টভাবে উচ্চতর।
কামাল

2

আমি মনে করি এটি লক্ষণীয় যে এআই সমস্যা সমাধান করতে কীভাবে তা নির্ধারণ করতে আপনাকে অবশ্যই এটি সংজ্ঞায়িত করতে হবে। এটি সম্পূর্ণ পর্যবেক্ষণযোগ্য বা আংশিকভাবে পর্যবেক্ষণযোগ্য , এবং এটি নির্ধারক বা স্টোকাস্টিক / চান্স কিনা ।

দাবা সম্পূর্ণরূপে পর্যবেক্ষণযোগ্য, (ব্যাকগ্যামন, একচেটিয়া বা পোকারের মতো নয়) এটি নির্ধারকও (যেমন চেকারস, এবং গো এর উদাহরণস্বরূপ) শেষ পর্যন্ত, শত্রুরা উপস্থিত থাকে এবং এরপরে পরবর্তী সেরা পদক্ষেপ নির্ধারণের সময় এটি অ্যাডভারসিয়াল সার্চ টাইপের ধরণের ব্যবহারের জন্য দরকারী মিনিম্যাক্সের মতো অ্যালগরিদম। কোনও সমস্যার শ্রেণিবদ্ধকরণ আমাদের কী ধরণের অনুসন্ধান অ্যালগরিদম প্রয়োগ করতে চাই তা নির্ধারণ করতে সহায়তা করতে পারে। এবং দাবা ক্ষেত্রে অ্যাডভারসিয়েরিয়াল অনুসন্ধান ফিট হবে।

মিনিম্যাক্স বিশেষত ক

O(bn)

O(bm)

দাবা ক্ষেত্রে, বি হবে 35, এবং মি 100 হবে তার চারপাশে উপায় আছে বা এটিকে আরও দক্ষ করে তোলার কৌশল, যেমন আলফা-বিটা কাট অফ।


এই প্রসঙ্গেও লক্ষণীয় যে, দাবারের জন্য কয়েকটি টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টানা ইতিমধ্যে টেবিলারাইজড - আরও অপ্টিমাইজেশন।
বার্টোসকেপিপি

এটি সাধারণ পদ্ধতির তবে কোনও মেশিন-লার্নিং পদ্ধতির নয়। প্রশ্নটি মেশিন-লার্নিং ট্যাগ ব্যবহার করে।
লিন্ডন হোয়াইট

@ অক্সিনাবক্স যদিও এটি সত্যই ব্যবহৃত হত, তবে প্রশ্নকর্তা শিরোনাম বা শরীরে কোথায়ও উল্লেখ করেননি যে তিনি মেশিন লার্নিং পদ্ধতির প্রতি আগ্রহী ছিলেন, কেবল তার শেষে যেখানে তিনি মনে রেখেছিলেন এমন একটি পদ্ধতির একটি উদাহরণ ভাগ করে নিচ্ছেন। সমস্যাটি মেশিন লার্নিং বা একটি একক শিক্ষার অ্যালগরিদম (এনএন) এ সীমাবদ্ধ করার দরকার নেই।
ইয়ানকোভিচি

আসলে, এটি ভাল
লিন্ডন হোয়াইট

সুনির্দিষ্টভাবে বলতে গেলে দাবা সম্পূর্ণ পর্যবেক্ষণযোগ্য নয়, যেহেতু আমরা জানি না এমন একটি অবস্থান দেওয়া যেমন উদাহরণস্বরূপ, একজন রাজা বা রুক ইতিমধ্যে সরানো হয়েছে কি না, যদিও এটি মুভ জেনারেশনের জন্য গুরুত্বপূর্ণ (কী ক্যাসলিং এখনও সম্ভব?), তবে কোনও প্রোগ্রামার এটিকে কিছুটা যুক্ত করার পরেও নন-মুভড কিং / রুক এবং মুভি কিং / রুককে আলাদা আলাদা ব্যক্তিত্ব হিসাবে আলাদা করে অবস্থানের উপস্থাপনা পরিবর্তনের মাধ্যমে এটি সম্পূর্ণ পর্যবেক্ষণযোগ্য করে তুলতে পারে।
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.