সমস্যার জায়গাগুলি অনেক বড় হলে এআই কীভাবে অভিনয় করতে শিখবে


10

আমি পরীক্ষা এবং উদাহরণের মাধ্যমে সবচেয়ে ভাল শিখি। আমি স্নায়ুবহুল নেটওয়ার্কগুলি সম্পর্কে শিখছি এবং (আমার মনে হয়) শ্রেণিবিন্যাস এবং প্রতিরোধের সম্পর্কে খুব ভাল বোঝাপড়া এবং তদারকি করা এবং নিরীক্ষণযোগ্য শিক্ষণও রয়েছে, তবে আমি এমন কিছু বিষয়টিতে হোঁচট খেয়েছি যা আমি চুপ করতে পারি না;

আমি যদি কোনও এআইকে একটি জটিল খেলা খেলতে প্রশিক্ষণ দিতে চাইতাম; আমি আরটিএসের মতো কিছু ভাবছি (উদাঃ সাম্রাজ্যের বয়স, সাম্রাজ্যের আর্থ ইত্যাদি)। এই ধরণের গেমগুলিতে সাধারণত খেলোয়াড় (ইউনিট, বিল্ডিং) বিভিন্ন ক্ষমতা সহ নিয়ন্ত্রিত বেশ কয়েকটি সত্ত্বা থাকে। দেখে মনে হচ্ছে যে এআই এর সমস্যাটি শ্রেণিবদ্ধ হবে (উদা। Choose ইউনিটটি বেছে নিন, এবং সেই ক্রিয়াটি), তবে যেহেতু ইউনিটের সংখ্যা একটি পরিবর্তনশীল তাই এইভাবে কোনও শ্রেণিবিন্যাসের সমস্যাটিকে কীভাবে পরিচালনা করতে পারে?

আমি কেবলমাত্র একাধিক নেটওয়ার্কের কথা চিন্তা করতে পারি যা বিভিন্ন ধাপগুলি করে (সামগ্রিক কৌশলগুলির জন্য একটি, এই ধরণের ইউনিট নিয়ন্ত্রণের জন্য একটি, সেই ধরণের বিল্ডিংয়ের জন্য একটি)); তবে মনে হচ্ছে আমি সমস্যাটিকে জটিল করে তুলছি।

জটিল গেমস শিখার জন্য মেশিন লার্নিং / নিউরাল নেটওয়ার্কগুলির কোনও বিশেষ উদাহরণ রয়েছে (বিশেষত আরটিএস নয়, তবে মারিও আরও জটিল )?



উত্তরের পক্ষে কার্যকর হতে পারে: ijcai.org/papers07/Papers/IJCAI07-168.pdf এবং একই পর্যালোচনা: aigamedev.com/open/review/transfer-firening-rts
নীল স্লেটার

আপনি কি cs.toronto.edu/~vmnih/docs/dqn.pdf দেখেছেন ?
xgdgsc

উত্তর:


4

এটি একটি ভাল প্রশ্ন এবং বিশ্বজুড়ে অনেক বিজ্ঞানী একই প্রশ্ন করছেন। ঠিক আছে, প্রথমে এজ অফ এম্পায়ার্সের মতো একটি খেলাকে খুব বড় সমাধানের স্থান হিসাবে বিবেচনা করা হয় না, এমন অনেকগুলি জিনিস আপনি করতে পারেন না। মারিও ব্রোসের মতো খেলাগুলিতেও এটি একই রকম। আটারি গেমসের মতো সহজ গেমসে শেখার সমস্যাটি ডিপমাইন্ডের ছেলেরা (এখানে কাগজটি ) সমাধান করেছিল, যা গুগল অধিগ্রহণ করেছিল। তারা ডিপ লার্নিংয়ের সাথে রিইনফোর্সমেন্ট লার্নিংয়ের একটি প্রয়োগকরণ ব্যবহার করেছে।

আপনার প্রশ্নে ফিরে যাচ্ছি। একটি সত্যই বড় সমস্যা হ'ল কীভাবে একজন মানুষ প্রতিদিন সিদ্ধান্ত নেয় তার পরিমাণ অনুকরণ করে। জেগে উঠুন, প্রাতঃরাশ করুন, গোসল করুন, আপনার বাড়ি ত্যাগ করুন ... এই সমস্ত ক্রিয়াকে বিকাশের জন্য সত্যই উচ্চ স্তরের বুদ্ধি এবং অনেক ক্রিয়া প্রয়োজন।

এই সমস্যা নিয়ে কাজ করছেন অনেক লোক, আমি তাদের মধ্যে একজন। আমি সমাধানটি জানি না তবে আমি আপনাকে বলতে পারি যে আমি কী উপায়ে দেখছি। আমি মারভিন মিনস্কির তত্ত্বগুলি অনুসরণ করি, তিনি এআই এর অন্যতম বাপ। ইমোশন মেশিন নামের এই বইটি সমস্যার খুব ভাল দৃষ্টিভঙ্গি দেয়। তিনি পরামর্শ দিয়েছিলেন যে মানুষের আচরণ অনুকরণ করে এমন একটি যন্ত্র তৈরির উপায় কৃত্রিম বুদ্ধিমত্তার একীভূত কমপ্যাক্ট তত্ত্ব তৈরি করে নয়। বিপরীতে, তিনি যুক্তি দিয়েছিলেন যে আমাদের মস্তিস্কে এমন সংস্থান রয়েছে যা একই মুহুর্তে বিভিন্ন লক্ষ্য পূরণের জন্য একে অপরের মধ্যে প্রতিযোগিতা করে। তারা এই চিন্তার উপায় বলে ।


1

দুর্দান্ত প্রশ্ন। এটি জটিলতার বিষয়, এবং আপনার ব্যবহার করা পদ্ধতির উপর নির্ভর করবে সমস্যাটি কতটা জটিল। যে কোনও সমস্যা আমরা সমাধান করার চেষ্টা করি তার সাথে কিছুটা জটিলতা যুক্ত থাকে, যা কথোপকথনে "ইন্টারঅ্যাক্ট করার বিষয়গুলির সংখ্যা, বা যে বিষয়গুলি বিবেচনা করা দরকার" হিসাবে সংজ্ঞায়িত হয়। তদারকি করা এবং নিরীক্ষণযোগ্য শিক্ষায় আমরা বিবেচনা করার মতো জিনিসগুলির সংখ্যা নির্দিষ্টভাবে নির্দিষ্ট করি।

উদাহরণস্বরূপ, একাধিক লিনিয়ার রিগ্রেশন-এ আমরা শিখার অ্যালগরিদমকে বলি যে কোনও মডেল ফিট করার সময় আপনার কতগুলি বৈশিষ্ট্য বিবেচনা করা উচিত (আপনার প্রশিক্ষণ সংস্থায় কলামগুলির সংখ্যা)। একই অবস্থা নিরীক্ষণযোগ্য শিক্ষার জন্য; একটি সুস্পষ্ট সংখ্যক বৈশিষ্ট্য সহ একটি সংজ্ঞায়িত প্রশিক্ষণ সেট ব্যবহার করা হয় (এই ক্ষেত্রে লেবেল ছাড়াই)।

আপনি যা সমস্যার মুখোমুখি হচ্ছেন তা হ'ল শ্রেণিবিন্যাস বা প্রতিরোধের পক্ষে উপযুক্ত নয়, কারণ আপনি "বিবেচনার বিষয়গুলির সংখ্যা" সুনির্দিষ্টভাবে করতে পারবেন না। আপনি যেমনটি বলেছেন, আপনার সমস্যার জায়গাটি অনেক বড়। এ সম্পর্কে ভাবার আরেকটি উপায় হ'ল একটি মডেল শেখার জন্য প্রয়োজনীয় প্রশিক্ষণের সেটগুলির শর্তাবলী; প্রশিক্ষণ সেটটি কেমন দেখাচ্ছে তা আপনার পক্ষে কতটা কঠিন? আপনার ক্ষেত্রে কঠিন। আমার সেটের কলামগুলিতে ঠিক কী থাকবে?

এ কারণেই স্ব-ড্রাইভিং গাড়ি, আতারি এবং আলফাগো এর মতো অ্যাপ্লিকেশনগুলি শ্রেণিবদ্ধকরণ বা রিগ্রেশন ব্যবহার করে না। প্রশিক্ষণ সেটটি এমনকি দেখতে কেমন তা জানা অসম্ভব। আপনি চেষ্টা করতে পারেন, তবে আপনার মডেল নির্ভরযোগ্যভাবে দৃ strong় ভবিষ্যদ্বাণী করতে ব্যর্থ হবে (এই ক্ষেত্রে চলবে)। রাস্তার শর্তগুলির একটি মডেল তৈরি করতে আপনাকে কতগুলি জিনিস বিবেচনা করতে হবে?

এই কারণেই তৃতীয় প্রকারের মেশিন লার্নিং, রিইনফোর্সমেন্ট লার্নিং বিদ্যমান। একটি পূর্বনির্ধারিত প্রশিক্ষণ সেট ব্যবহার না করে এটি পরীক্ষার এবং ত্রুটি ব্যবহার করে। ক্রমাগত এর পরিবেশকে ছুঁড়ে মারার মাধ্যমে এটি একটি নীতি শিখতে পারে যা দীর্ঘমেয়াদে কাজ করে।

সুতরাং, ছোট সমস্যার জায়গাগুলির জন্য যেখানে আমরা প্রশিক্ষণের সেটটি সংজ্ঞায়িত করার সুযোগ পেয়ে থাকি আমরা তদারকি করা এবং নিরীক্ষণযোগ্য মেশিন লার্নিং ব্যবহার করি। বৃহত্তর সমস্যার জায়গাগুলির জন্য যেখানে প্রশিক্ষণের সেটটি সংজ্ঞায়িত করা আমাদের পক্ষে শক্তিবৃদ্ধি শেখা ব্যবহার করা কঠিন। অবশ্যই আপনি উপরের সমস্ত পদ্ধতির আকর্ষণীয় সংমিশ্রণগুলি তৈরি করতে পারেন তবে এটি এখনও জটিলতায় নেমে আসে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.