কম্পিউটার বিরোধীদের কাছে একটি স্কোরিং পদ্ধতির যাতে ভারসাম্য বজায় রাখা দরকার


16

এই প্রশ্নটি আমি তৈরি করেছি এবং বর্তমানে বেশিরভাগ কম্পিউটার গেমগুলিতে ব্যবহৃত হচ্ছে, বা ব্যবহার করার পরিকল্পনা রয়েছে এমন কম্পিউটার বিরোধীদের কাছে এমন একটি পদ্ধতির বিষয়ে।

পটভূমি

গত বছর, যখন "মাইনসুইপার ফ্ল্যাগস" নামে একটি গেমের জন্য কম্পিউটার প্রতিপক্ষকে উন্নত করার চেষ্টা করার সময় (সংক্ষিপ্ত বিবরণ: মাইনসুইপারের একটি টার্ন-ভিত্তিক মাল্টিপ্লেয়ার সংস্করণ যেখানে আপনাকে আপনার প্রতিপক্ষের চেয়ে আরও খনি গ্রহণ করতে হবে ) , আমি আমার অ্যালগরিদমগুলি যেভাবে কাজ করেছি তার দৃ strongly়তার সাথে পরিবর্তন করেছি I । If-else-if-else এর মতো একটি পদ্ধতির ব্যবহার না করে, সেরা পদক্ষেপটি কী তা নির্ধারণ করতে আমি নির্দিষ্ট ওজনযুক্ত "স্কোরার" এর একটি সেট ব্যবহার করছি।

আপনি ভাবতে পারেন মাইনসুইপার ফ্ল্যাগগুলির মতো একটি খেলার জন্য, এটি কেবল এমন চালগুলি তৈরি করা যা আপনাকে খনি গ্রহণের সর্বোচ্চ সম্ভাবনা দেয় তবে এটি এতটা সহজ নয়। কম্পিউটারটি কোন পদক্ষেপটি তৈরি করবে তা বর্তমান গেমের স্থিতিতে নির্দিষ্ট পদক্ষেপের জন্য বেশ কয়েকটি বৈশিষ্ট্যের উপর নির্ভর করে। বৈশিষ্ট্যগুলির উদাহরণ:

  • খনি চালানোর এই পদক্ষেপের সম্ভাবনা কী?
  • এখানে আমার প্রতিপক্ষের কাছে কিছু প্রকাশ করার সম্ভাবনা কী?

সিস্টেমের বিবরণ

সিস্টেমটি মূলত এইভাবে কাজ করে:

  1. "প্রাক-স্কোরারস": বর্তমান গেমের রাজ্যের জন্য কিছু প্রাক-বিশ্লেষণ করা হয় (মাইনসুইপার পতাকাগুলির ক্ষেত্রে, এটি সাধারণত: সমস্ত সম্ভাবনার গণনা করা হয়)
  2. "স্কোরারস": সাধারণ স্কোরারদের একটি সেটকে প্রতিটি সম্ভাব্য পদক্ষেপের জন্য স্কোর নির্ধারণ করতে বলা হয়, প্রতিটি স্কোরার নিজস্ব মানদণ্ড অনুযায়ী স্কোর প্রয়োগ করে। স্কোরাররা তৈরি করা প্রাক-বিশ্লেষণের ফলাফলগুলি পরীক্ষা করতে পারে।
  3. উপরের ধাপে গণনা করা স্কোরগুলি একসাথে সংক্ষিপ্ত করে এবং সরানো জন্য স্কোর হিসাবে সেট করা হয়।
  4. চালগুলি তাদের স্কোর অনুসারে বাছাই করা হয় এবং র‌্যাঙ্ক করা হয় যাতে একই স্কোর সহ সমস্ত চাল একই র‌্যাঙ্ক পায়।
  5. "পোস্ট-স্কোরারস": উপরের ফলাফলটি "পোস্ট-স্কোরার "গুলিতে প্রেরণ করা যেতে পারে যা পোস্ট-স্কোরারের নিজস্ব নিয়ম অনুসারে যে কোনও ক্ষেত্রের স্কোরকে তারা যেভাবে চায় পরিবর্তন করতে পারে।

প্রাক স্কোরার, স্কোরার (তাদের ওজন সহ) এবং পোস্ট-স্কোরারদের একগুচ্ছ সংমিশ্রণের সময়, এটি আমি স্কোর কনফিগারেশন বলি ।

উদাহরণ ফলাফল

এটি মিনিসওয়েপার পতাকাগুলিতে প্রয়োগ করা স্কোরগুলির একটি উদাহরণ। এটি মানচিত্র যা স্কোর হয়েছিল:

মাইনসুইপার পতাকা মানচিত্র যা স্কোর হয়েছিল

এবং এটি একটি আসল স্কোর কনফিগারেশনের আউটপুট। এটি সম্ভাব্য পদক্ষেপের র‌্যাঙ্কটি দেখাচ্ছে, যেখানে 1 সেরা র‌্যাঙ্ক এবং সাদা রঙে হাইলাইট করা হয়েছে:

স্কোরিং পদ্ধতির উদাহরণ আউটপুট

অত্যন্ত নমনীয় কোড রচনা করার জন্য ধন্যবাদ, এআই-তে এই পদ্ধতির পাশাপাশি অন্যান্য গেমগুলিতেও .োকানো যেতে পারে।

সুবিধাগুলি এবং অসুবিধাগুলি

এই সিস্টেমটির কিছু সুবিধা এবং অসুবিধাগুলি নীচে আমি নিজেকে ভাবতে পারি

সুবিধাদি

  • এআইগুলির জন্য সম্পূর্ণ বিভিন্ন কনফিগারেশন তৈরি করা খুব সহজ।
  • জেনেটিক অ্যালগরিদম দিয়ে এটি ব্যবহার করা সম্ভব: প্রতিটি স্কোরারের একটি যুক্ত ওজন থাকে, ওজন জিনে পরিণত হতে পারে।
  • কিছু সরঞ্জাম ব্যবহার করে, একটি নির্দিষ্ট পদক্ষেপ কেন করা হয়েছিল এবং কোন স্কোরাররা মূলত এই পদক্ষেপের জন্য দায়ী ছিল তা পরীক্ষা করা সম্ভব
  • সরঞ্জামগুলি ব্যবহার করে, সম্ভাব্য পদক্ষেপের সামগ্রিক স্কোর / র‌্যাঙ্কের একটি মানচিত্র তৈরি করা সম্ভব (উপরের স্ক্রিনশটের মতো)
  • মানুষ যেভাবে খেলছে তাতে স্কোর প্রয়োগ করে, একটি "# এআই_আরর" তৈরি করা সম্ভব যা এমন পদক্ষেপের চেষ্টা করে যা মনে করে যে মানুষ তৈরি করবে

অসুবিধেও

  • যতটা সম্ভব এআই খেলাকে ভাল করে তুলতে স্কোর কনফিগারেশনকে "সঠিকভাবে" সামঞ্জস্য করা অত্যন্ত কঠিন হতে পারে।

প্রশ্নাবলি

  • আমি এখানে নির্মিত সিস্টেমটি কি এআই বিশ্বে বহুল পরিচিত? এটিকে বাস্তব এআই পদে কী বলা হবে?

  • এই পদ্ধতির কোনও অর্থ রয়েছে কি না বা আপনার প্রস্তাব দেওয়ার মতো কোনও ভিন্ন পদ্ধতি রয়েছে?

  • এমন কোন উপায় রয়েছে যা স্কোর কনফিগারেশনটি টুইট করার প্রক্রিয়াটিকে সহজ করে তুলতে পারে?

শেষ প্রশ্নটি সম্পর্কে, আমি জেনেটিক অ্যালগরিদমগুলি ব্যবহারের সম্ভাবনা সম্পর্কে সচেতন, আমি সারসএ সম্পর্কেও হালকাভাবে সচেতন (এবং আমার মনে হয় যে আমার স্কোরারগুলি ওজনের সাথে সাইটের বৈশিষ্ট্যগুলির বর্ণনার সাথে সাদৃশ্যপূর্ণ, তবে আমার বোঝা থেকে আমি ঠিক এটি তৈরি করেছি না এখানে). আমি মনে করি যে সারসায় একটি সমস্যা হ'ল গেমটি শেষ না হওয়া পর্যন্ত আপনি পুরষ্কারটি জানেন না, সেরা পদক্ষেপটি প্রায়শই এমন একটি পদক্ষেপ যা কোনও পুরস্কার দেয় না (একটি খনি)। আপনার জয়ের সম্ভাবনাগুলি বর্তমান স্কোর উভয় (আপনি এবং আপনার প্রতিপক্ষের কতটি খনি নিয়েছেন) এবং বর্তমান মানচিত্রটি কেমন তা নির্ভর করে।


এই প্রশ্নটি মূলত একটি এখন অবরুদ্ধ কৃত্রিম বুদ্ধিমত্তা সাইটে পোস্ট করা হয়েছিল ।
এই পদ্ধতির জন্য ব্যবহৃত (জাভা) কোডটি এখন কোড পর্যালোচনাতে পোস্ট করা হয়েছে ।

উত্তর:


7

একটি প্রসারিত এ এটি একটি বিশেষজ্ঞ সিস্টেম (যেমন ফাজি যুক্তি)। যেহেতু আপনি আউটপুটের ভিত্তিতে সিদ্ধান্তের পরামিতিগুলিতে প্রতিক্রিয়া জানানোর জন্য অ্যালগরিদম চালাচ্ছেন না, এটি সত্যই শেখা যাচ্ছে না। যাইহোক, প্রতিক্রিয়া সম্পাদন করা কেবলমাত্র একটি আলগোথার্ম এআই হয় কিনা তা সূচক নয়। যে কেউ তর্ক করতে পারে যে এটি যদি এমনভাবে কাজ করে যা বুদ্ধিমান প্রদর্শিত হয়, তবে এটি সবচেয়ে গুরুত্বপূর্ণ especially বিশেষত যখন কোনও খেলা প্রতিপক্ষের দ্বারা খেলা হয়।

আপনি যে ধরণের অ্যালগরিদম নির্দিষ্ট করেছেন তা হ'ল একটি প্যারামিটারাইজড সমীকরণ, যা আপনি বীমা গণনায় পাবেন। প্রতিটি পদক্ষেপের পরে, ইনপুট স্থান পরিবর্তিত হয় তবে অ্যালগরিদমের আগের অবস্থার কোনও স্মৃতি প্রয়োজন না, সুতরাং এটি প্রতিটি পদক্ষেপকে একটি নতুন, পৃথক বোর্ড হিসাবে বিবেচনা করে।

জেনেটিক অ্যালগরিদম ব্যবহার করে

জেনেটিক অ্যালগরিদমের জন্য দুটি পরিষ্কার বিকল্প রয়েছে:

  • জিনোমের জন্য প্যারামিটারগুলি ব্যবহার করুন (যেমন আপনি পরামর্শ দিয়েছেন)। আপনার যে নিয়ম রয়েছে সেগুলি আপনি অপ্টিমাইজ করবেন তবে আপনি এখনও একটি বিশেষজ্ঞ সিস্টেমের সাথে রয়ে গেছেন।
  • আপনার জন্য নিয়মগুলি চয়ন করতে লার্নিং ক্লাসিফায়ার সিস্টেম (এলসিএস) ব্যবহার করুন। এলসিএস হ'ল এক ধরণের জেনেটিক অ্যালগরিদম যেখানে আপনি নিয়মগুলি পাশাপাশি প্যারামিটারগুলি এনকোড করেন। এগুলি একত্রিত হতে আরও বেশি সময় নেয় এবং ফিটনেস ফাংশনে সংবেদনশীল। আমি মনে করি ফলাফলের খেলার পদ্ধতিটি এর জন্য আরও আকর্ষণীয় হতে পারে।

কৃত্রিম পোড়ানো

সমস্যাটি সমাধানের আরেকটি উপায় হ'ল সিমুলেটেড অ্যানিলিং use (এসএ) ব্যবহার করা। আপনার সমস্যাটি একটি সীমাবদ্ধ ইনপুট স্পেস এবং আপনি বিশ্লেষণ করে এমন একটি ফাংশন লিখতে পারেন যা কোনও প্রদত্ত দৃশ্যের চয়ন করার জন্য সেরা বর্গ খুঁজে পায় finds সিমুলেটেড অ্যানিলিং ব্যবহার করা আপনার পরামিতিগুলির জন্য একটি গ্লোবাল সর্বোত্তম find

এটি খুব ভাল করার উপর

আমি জানি আপনি চাইছেন অ্যালগরিদমটি সর্বোত্তম হতে পারে তবে ভুলে যাবেন না যে কোনও মানুষ এর বিরুদ্ধে খেলছে। এই ধরণের ডিটারমিনিটিক গেমস খেলতে একটি কৌশলগতভাবে নিখুঁত উপায় রয়েছে এবং যদি এআই প্লেয়ার এটি গ্রহণ করে তবে এটি কেবল খাঁটি ভাগ্যের জন্য যার অর্থ খেলোয়াড় জিতবে।


আপনার উত্তর আমাকে অনেক পড়াশোনা করেছে, অনেক অনেক ধন্যবাদ! যদিও আমি এতটা নিশ্চিত নই যে আমি এই নির্দিষ্ট গেমটিকে "
নির্বিচারক

যে কারণটি আমি বলি যে এটি নির্বিচারবাদী তা হ'ল যে কোনও প্রদত্ত গেমের সম্ভাবনার সংখ্যা সীমাবদ্ধ এবং যদিও মানব খেলোয়াড় এলোমেলো পছন্দগুলি বেছে নিতে পারে তবে তারা এমন দৃ tight় সংজ্ঞায়িত স্থানের মধ্যে এমনটি করছেন যে এটি নির্বিচারক is থাম্বের একটি নিয়ম হ'ল আপনি যদি এলোমেলো সংখ্যার জেনারেটর ব্যবহার করেন (বা বাহ্যিক ফ্যাক্টর আপনি নিয়ন্ত্রণ করেন না) তবে এটি স্টোকাস্টিক। যদি তা না হয় তবে তা নির্বিচারক।
ডাঃ রব ল্যাং

ওয়েল, শত্রু কর্তৃক স্থাপিত মাইন সরইয়া ফেলিবার কাজে নিযুক্ত জাহাজ হয় আমি বলতে হবে না হওয়া পর্যন্ত আপনি এটা প্রকাশ করতে একটি পদক্ষেপ করেছেন একটি ক্ষেত্র বিষয়বস্তুর জানি না যেমন সম্ভাব্যতার সূত্রাবলি।
সাইমন ফোরসবার্গ

1
আইএমএইচও এটি স্টোকাস্টিক করে না। এটি স্টোকাস্টিক হবে যদি: একই শুরুর শর্ত দেওয়া (লুকানো বোর্ড) প্রতি বর্গ ক্লিক করার পরে ফলাফলটি ভিন্ন হতে পারে।
ডাঃ রব ল্যাং

2
স্টোকাস্টিক / ডিটারমিনিস্টিক এবং সম্পূর্ণ পর্যবেক্ষণযোগ্য / আংশিকভাবে পর্যবেক্ষণযোগ্য কঠোরভাবে পৃথক, অর্থোগোনাল বৈশিষ্ট্য। সংজ্ঞা অনুসারে (বলুন, রাসেল / নরভিগ "যদি পরিবেশের পরবর্তী অবস্থা পুরোপুরি বর্তমান রাষ্ট্র দ্বারা নির্ধারিত হয় এবং এজেন্ট দ্বারা সম্পাদিত ক্রিয়া ...") মাইনসুইপার নির্বিচারক, যদিও এটি সম্পূর্ণ পর্যবেক্ষণযোগ্য নয়।
পিটারিস

0

হ্যাঁ, পজিশনের কয়েকটি দিকের উপর ভিত্তি করে স্কোর বরাদ্দের কৌশলটি খেলাগুলি খেলতে এআই লেখার মান is উদাহরণস্বরূপ, প্রায় সমস্ত দাবা প্রোগ্রামগুলি পজিশনের উপর ভিত্তি করে ছোট ছোট বোনাসগুলির সাথে পজিশনের উপর ভিত্তি করে পজিশনগুলি স্কোর করে কাজ করে (উদাহরণস্বরূপ, পন্ডগুলি একে অপরকে রক্ষা করে)। তারপরে তারা আলফা-বিটা-এর মতো অ্যাডভারসিয়াল সার্চ অ্যালগরিদম ব্যবহার করে সেরা উপলভ্য পদক্ষেপ গণনা করার চেষ্টা করে।

বিরাট অনুসন্ধান এখানে জটিল হতে পারে কারণ বৃহত শাখা ফ্যাক্টরের কারণে - যে কোনও অবস্থাতেই আইনী পদক্ষেপগুলি কোনও অজানা বর্গ চিহ্নিত করতে বা প্রকাশ করতে হয়। অন্যদিকে, সম্ভবত আপনি হিউরিস্টিক্স দ্বারা ব্রাঞ্চিং ফ্যাক্টরটি অনেকগুলি কেটে ফেলতে পারেন। উদাহরণস্বরূপ, কোনও বর্গক্ষেত্র চিহ্নিত বা প্রকাশ করা যা আপনি কিছুই জানেন না খুব কমই সেরা পদক্ষেপ হতে চলেছে। বিপরীতে, যদি আপনি কিছু চিহ্নবিহীন খনিগুলির অবস্থানগুলি জানেন তবে তার মধ্যে একটি চিহ্নিত করা সম্ভবত বেশিরভাগ সময় সেরা পদক্ষেপ হিসাবে বিবেচিত হবে। একটি স্থানান্তর টেবিল বজায় রাখা সম্ভবত সাহায্য করবে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.