অ্যাংরি পাখি খেলতে আপনি কীভাবে একটি মেশিন লার্নিং সিস্টেম ডিজাইন করবেন?


22

খুব বেশি অ্যাংরি পাখি খেলার পরে, আমি নিজের কৌশলগুলি পর্যবেক্ষণ করতে শুরু করেছি। দেখা যাচ্ছে যে আমি প্রতিটি স্তরে 3 তারা পাওয়ার জন্য খুব নির্দিষ্ট পদ্ধতির বিকাশ করেছি।

এটি অ্যাগ্রি পাখি খেলতে সক্ষম হবে এমন একটি মেশিন লার্নিং সিস্টেম বিকাশের চ্যালেঞ্জগুলি সম্পর্কে আমাকে অবাক করে দিয়েছে। গেমটির সাথে ইন্টারঅ্যাক্ট করা এবং পাখিদের লঞ্চ করা অত্যন্ত নগণ্য। তবে আমার কাছে একটি প্রশ্ন ছিল সিস্টেমটির "বিল্ডিং ব্লক" সম্পর্কে।

মেশিন লার্নিং সিস্টেমগুলি সাধারণ ধারণা বা সমস্যা সম্পর্কে বোঝার সাথে কাজ করে বলে মনে হচ্ছে। এটি প্রায়শই ইনপুট হিসাবে বৈশিষ্ট্য হিসাবে এনকোড করা হয়। সুতরাং দেখে মনে হয় যে কৌশলটি তৈরির জন্য সিস্টেমটির কিছু উচ্চ স্তরের ধারণা বোঝার ক্ষমতা থাকা দরকার।

এটা কি সত্য? এছাড়াও, এই জাতীয় সিস্টেম বিকাশের চ্যালেঞ্জ বা কঠিন অংশগুলি কী কী?

সম্পাদনা # 1:

এখানে কিছু ব্যাখ্যা আছে। 3 তারা প্রাপ্তি একটি কঠিন সমস্যা কারণ আপনাকে পয়েন্টগুলি সর্বাধিক করতে হবে। এটি দুটি অ-একচেটিয়া উপায়ে করা যেতে পারে: 1) ব্যবহৃত পাখির সংখ্যা হ্রাস করা (আপনি প্রতিটি অব্যবহৃত পাখির জন্য 10,000 পয়েন্ট পাবেন)। 2) গ্লাস, কাঠ এবং অন্যান্য জিনিসগুলির সর্বনাশ সর্বাধিক। ধ্বংস হওয়া প্রতিটি বস্তু আপনাকে পয়েন্ট দেয়। একটি পাখির সাহায্যে 10,000 টিরও বেশি মূল্যের অবজেক্টকে ধ্বংস করা সম্ভব।

"উচ্চ স্তরের ধারণাগুলি" সম্পর্কে এখানে আরও কিছুটা ব্যাখ্যা। উপরে বর্ণিত পয়েন্টগুলি সর্বাধিক করতে, আপনাকে প্রতিটি পাখির বিশেষ ক্ষমতা ব্যবহার করতে হবে। সুতরাং, এর অর্থ মানচিত্রের বিন্যাসের উপর নির্ভর করে বিভিন্ন ট্র্যাজেক্টরি দিয়ে বিভিন্ন পাখি চালু করা। এবং, খেলার সময় আমি একটি কৌশল বিকাশ করি যা একটি নির্দিষ্ট ক্রমে নির্দিষ্ট পাখি সহ নির্দিষ্ট অঞ্চলকে ধ্বংস করে দেয়।

দেখে মনে হচ্ছে যে নির্দিষ্ট পাখিটিকে কীভাবে ধ্বংস করতে প্রতিটি পাখি ব্যবহার করা যায় তা না বুঝেই সিস্টেম 3 তারা পেতে শিখতে পারে না। সুতরাং, আপনি কীভাবে এমন কিছু পরিচালনা ও এনকোড করবেন? আপনি কীভাবে নিশ্চিত হন যে সিস্টেমটি এই উচ্চ স্তরের ধারণাগুলি শিখতে পারে?

উত্তর:


13

ধরে নিই যে আপনি সফটওয়্যারটিতে সঠিক হুক পেতে পারেন (বা আপনি নিজের মক-আপ নিয়ে কাজ করেন), কিছু জিনিস এখানে সহজ হবে এবং কিছু কম less আমার মনে হয় এটি বেশ শক্ত সমস্যা। কার্লোসডিসি যেমন উল্লেখ করেছেন, রিইনফোর্সমেন্ট লার্নিং (আরএল) একটি সম্ভাব্য উপায়, যদিও আমি নিশ্চিত নই যে এটি সঠিক।

আপনি যখন শুরু করবেন, আপনাকে নির্ধারণ করতে হবে আপনার রাষ্ট্রীয় স্থান , অ্যাকশন স্পেস , ট্রানজিশন ডায়নামিক্স এবং পুরষ্কার কার্য কী। রাষ্ট্র / ক্রিয়া স্পেসগুলি অবিচ্ছিন্ন বা বিযুক্ত হতে পারে এবং সংক্রমণের গতিবিদ্যা সমস্যা বা মডেলিংিতভাবে গাণিতিকভাবে দেওয়া যেতে পারে। অবশেষে পুরষ্কারের ক্রিয়াকলাপটিকে একটি অগ্রাধিকার দেওয়া যেতে পারে , বা নমুনা দেওয়া যেতে পারে (শোরগোল সহ বা बिना)।

অ্যাকশন স্পেসটি সহজ: আপনি বর্তমান পাখিকে যেভাবে অঙ্কুর করেছেন এটি কেবল সেই দিক এবং শক্তি। মানুষের জন্য এটি একটি বিচ্ছিন্ন সমস্যা (মাউস / টাচস্ক্রিন একটি ডিজিটাল ইনপুট ডিভাইস) - আসুন ধরা যাক (উদাহরণস্বরূপ) 32 টি সম্ভাব্য দিকনির্দেশ এবং 10 সম্ভাব্য শক্তি রয়েছে, 320 সম্ভাব্য ক্রিয়া দেয়।

পুরষ্কারের কাজটিও অর্জন করা মোটামুটি সহজ: লক্ষ্যটি হ'ল কয়েকটি সংখ্যক পাখির সাহায্যে সমস্ত শূকর থেকে মুক্তি পাওয়া ( সবচেয়ে ভাল কথাটি যদি আমরা জানতাম যে শুয়োরগুলি হত্যার মাধ্যমে পয়েন্টগুলি উত্পন্ন করে এমন আসল ফাংশনটি (শুয়োরের আকারের উপর নির্ভর করে IIRC) - তবে একক স্তরের জন্য এটিকে পুরোপুরি মডেল করা যেতে পারে।

রাষ্ট্রীয় স্থান এবং স্থানান্তরের গতিবিদ্যা আরও অনেক কঠিন। এটি সঠিকভাবে মডেল করার জন্য, আমাদের মানচিত্রের পুরো বিন্যাস এবং গেমের পদার্থবিজ্ঞান জানতে হবে। রূপান্তরটি গতিবিদ্যা বলে "যদি আমি রাষ্ট্র am এক্স এবং আমি ক্রিয়াটি Y , আমি রাজ্যের অবতরণ করবে z- র "। আপনি এর অসুবিধা দেখতে পাচ্ছেন, প্রথমত সিস্টেমের জটিল পদার্থবিজ্ঞানের অর্থ হ'ল সঠিকভাবে মডেল করা এটি অত্যন্ত কঠিন হবে এবং দ্বিতীয়ত, প্রথম রাউন্ড (320) এর পরেও অনেকগুলি সম্ভাব্য ফলস্বরূপ রাষ্ট্র রয়েছে এবং এটি যদি হয় আমরা ধরে নিই যে পদার্থবিজ্ঞানের ইঞ্জিনে কোনও স্টোকাস্টিসিটি নেই , যা এটি খেলেই আমি সন্দেহ করি। আমি মনে করি এই পর্যায়ে আপনি হাল ছেড়ে বাড়িতে চলে যেতেন।

আরেকটি পদ্ধতি হ'ল একে একে একে একে একে শুরু করার মতো আচরণ করা - অর্থাত্ পরীক্ষা এবং ত্রুটি। কমপক্ষে শুরু হওয়া মানবটি কার্যত এলোমেলোভাবে আগুন লাগায় (যদিও পাখিদের শুকরের দিকে প্রেরণ করার আগে যথেষ্ট শক্তিশালী হলেও এটি সহজেই কোডিং করা যেতে পারে), যতক্ষণ না বেশ কয়েকটি ভাল ক্রিয়াকলাপ খুঁজে পাওয়া যায়। এটি আরও বহু-সশস্ত্র ডাকাতের মতোবিন্যাস. এখানে ডাকাতদের "বাহু" হ'ল সম্ভাব্য ক্রিয়া। অ্যালগরিদম অনুসন্ধান এবং শোষণের ভারসাম্য বজায় রাখার চেষ্টা করে - অর্থাত্ ক্রিয়া স্থানটি সন্ধান করতে এবং যখন সন্ধান হয় তখন ভাল ক্রিয়াগুলি ব্যবহার করে। এর জন্য আপনাকে অন্তর্নিহিত গতিশীলতা সম্পর্কে কিছু জানার দরকার নেই - আপনাকে কেবল ক্রিয়া এবং পুরষ্কার সম্পর্কে জানতে হবে। এটি সম্পূর্ণরূপে করার জন্য আপনার সমস্ত চক্রের প্রতিটি সম্ভাব্য ক্রিয়াটির জন্য একটি বাহু থাকতে হবে (যেমন আপনার 5 পাখি রয়েছে * 320 ক্রিয়া = 320 ^ 5 = আনুমানিক 10 ^ 12 ক্রিয়া), তাই ক্রিয়া স্থানটি খুব বড়! তবে আপনি কিছুটা জানা থাকলে এটি উন্নত করতে কিছু কৌশল ব্যবহার করতে পারেনরাষ্ট্র স্থান সম্পর্কে। উদাহরণস্বরূপ, আপনি সম্ভবত এমন কোনও ক্রিয়াকলাপ বাতিল করতে পারেন যা পাখিকে শুকর থেকে দূরে, মাটিতে নামিয়ে দেয় বা তাদের কোনওর কাছে পৌঁছানোর পর্যাপ্ত শক্তি ছাড়াই পাঠায়। এছাড়াও আপনি কেবলমাত্র 5 তম পাখির কাছে পৌঁছাতে হবে যদি আপনি পূর্বের রাউন্ডগুলিতে শূকরগুলি না খোলেন, সুতরাং ক্রিয়াকলাপের রাজ্যের একটি অংশটি আসলে সম্ভব নয়। এটি কিছুটা অ্যালগোরিদম মোগোতে ব্যবহৃত এপ্রোচটির স্মরণ করিয়ে দেয় , যা বৃক্ষগুলিতে প্রয়োগ হওয়া উচ্চ আত্মবিশ্বাসের সীমানার ভিত্তিতে গো খেলার জন্য একটি কম্পিউটার প্রোগ্রাম , বহু-সশস্ত্র ডাকাত সমস্যা সমাধানের এক পদ্ধতির।


1
দুর্দান্ত উত্তর! আমি মনে করি যে 320 সম্ভাব্য ক্রিয়াগুলির চেয়ে অ্যাকশন স্পেসটি অনেক বড় larger অনুভূমিক বাম থেকে উলম্ব নীচে সম্ভবত .7 ইঞ্চি (আইপ্যাডে) এর একটি চাপ দিয়ে প্রবাহিত প্রতিটি পিক্সেল একটি পৃথক ট্র্যাজেক্টরি এবং ফলাফল উত্পন্ন করবে। আইপ্যাডটির রেজোলিউশন 132 ডিপিআই রয়েছে, সুতরাং এটি থেকে প্রবর্তন করতে বেছে নেওয়া প্রায় 8,000 পিক্সেল হতে পারে। আমি বিশদটি বিবেচনা করতে চাইনি, তবে কি ক্রিয়া স্থানটি 8,000 করে উত্তরটি পরিবর্তন করবে? আপনি আরও বড় অ্যাকশন স্পেস দিয়ে কীভাবে কাজ করতে পারেন?
বি সেভেন

গতিশীলতার অনুকরণ করার চেষ্টা করা সম্পূর্ণ ভিন্ন (এবং কঠিন) প্রশ্ন। আমি মনে করি এই আলোচনার জন্য আমাদের ধরে নেওয়া উচিত যে আমাদের উত্স কোডে অ্যাক্সেস রয়েছে এবং সঠিকভাবে রাষ্ট্রের তথ্য পেতে পারি। এছাড়াও, পুরষ্কারের কাজটি কেবলমাত্র আপনি কতগুলি শূকর হত্যা করেন তা নয়। একটি স্তরে 3 তারা পেতে, আপনাকে আরও কিছু কঠিন কিছু করতে হবে। প্রশ্নে সম্পাদনা দেখুন।
বি সেভেন

@ বিভেন নীতিমালায় না, বৃহত্তর অ্যাকশন স্থান উত্তরটি পরিবর্তন করে না, যদিও আপনাকে আরও ছাঁটাই করতে হবে এবং আরও অনেক বেশি কম্পিউটিং শক্তি ব্যবহার করতে হবে ;-) নোট করুন যে এটি সমান্তরাল প্রক্রিয়াকরণের জন্য নিখুঁত প্রার্থী। তারকাদের প্রশ্নটি জটিল, কারণ এর দ্বারা বোঝা যায় যে কিল থেকে তারা পর্যন্ত কোনও সাধারণ ম্যাপিং নেই, যদিও আমি ভেবেছিলাম যে আপনি আরও বেশি তারা পেয়েছেন কেবল পয়েন্ট থ্রেশহোল্ডগুলি অতিক্রম করে (সাধারণত এটি কম পাখি ব্যবহার করে করা হয়)। যদি তা না হয় তবে খুব তাড়াতাড়ি সাবপটিমাল পাথের উপর স্থিতিশীল হওয়া এড়াতে আপনাকে কৃত্রিমভাবে অনুসন্ধানের পরিমাণ বাড়াতে হবে।
tdc

8

কুল প্রশ্ন!

দেখে মনে হচ্ছে এই প্রশ্নটি এই ধরণের সমস্যার প্রাকৃতিক কৌশল সম্পর্কে। আমি মনে করি যে এই ধরণের সমস্যার প্রাকৃতিক কৌশল হ'ল রিইনফোর্সমেন্ট লার্নিং (আরএল)। আরএল সম্পর্কে কীভাবে কোনও এজেন্টকে পরিবেশে পদক্ষেপ গ্রহণ করা উচিত যাতে ক্রমবর্ধমান পুরষ্কারের কিছুটা ধারণা বাড়ানো যায়। সম্ভবত আরএল জন্য সর্বাধিক পরিচিত অ্যালগরিদম হল কিউ-লার্নিং । আমি মনে করি এটি পুনর্বহাল শেখার বিষয়ে এই সাইটের প্রথম প্রশ্ন।

আমি মনে করি আপনি যা জিজ্ঞাসা করছেন তা সত্য, যদি আপনি এটি শ্রেণিবদ্ধকরণ / রিগ্রেশন হিসাবে পৌঁছানোর চেষ্টা করেন তবে সেগুলি এই সমস্যার সঠিক সরঞ্জাম বলে মনে হয় না। এটি স্বাভাবিকভাবেই একটি আরএল সমস্যা যেখানে ক্রিয়া এবং ফলাফলগুলির ক্রমগুলি বিবেচনায় নেওয়া দরকার।


5

অন্যরা এটি কীভাবে করছে বা এখানে নিজেকে অংশগ্রহণ করছে তা এখানে দেখুন: অ্যাংরি বার্ডস এআই চ্যালেঞ্জ http://ai2012.web.cse.unsw.edu.au/abc.html


সম্ভবত আপনি সংক্ষিপ্তসারটি করতে পারেন লিঙ্কটি কী এবং কীভাবে প্রশ্নটি সম্পর্কিত। যেমনটি এখন, আপনার উত্তরটি মন্তব্য হিসাবে ভাল।
ফ্রেডরিকড

4

সবেমাত্র মেটাতে এটি উল্লেখ করেছেন। ভিডিও গেম প্যাকম্যানকে সমাধান করতে কোজা কর্তৃক জেনেটিক অ্যালগরিদমের একটি অগ্রণী ব্যবহার ছিল। তিনি অ্যালগরিদমিক আদিমগুলি তৈরি করেছিলেন যা অনুধাবন করতে পারে এবং অভিনয় করতে পারে। যেমন আমি মনে করি এগুলি লিস্প-জাতীয় গাছগুলিতে আরও বড় অ্যালগরিদম তৈরির জন্য একত্রিত হয়েছিল। লিস্প গাছের সাথে ক্রসওভারের মধ্যে অ্যালগোরিদম এক্সপ্রেশনগুলি উপস্থাপন করে এমন সাবট্রির প্রতিস্থাপন বা বিনিময় জড়িত। সাফল্য ফাংশন হ'ল "বিন্দু খাওয়া" বা "বিন্দুগুলি ভূত খাওয়া" বা "সময় বেঁচে থাকে" এর মতো। এই এলাকায় এখনও কিছু কাজ আছে। নিম্নলিখিত এই কাগজে একটি কোজা রেফ আছে। এই ধরণের সমস্যার জন্য প্রশিক্ষণের সময় খুব দীর্ঘ এবং "রূপান্তর" খুব ধীরে ধীরে হতে পারে।

প্যাক-ম্যান খেলতে শেখা: একটি বিবর্তনীয়, গালাগার এবং রায়ান রুল-ভিত্তিক পদ্ধতি

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.