একটি নিউরাল নেটওয়ার্ক দূরত্বের ধারণাটি কার্যকর করতে পারে?


10

এমন একটি গেম কল্পনা করুন যেখানে এটি একটি লাল পিক্সেল এবং নীল পিক্সেল বাদে একটি কালো পর্দা। এই গেমটি একটি মানুষের দেওয়া, তারা প্রথমে দেখতে পাবে যে তীর কীগুলি টিপলে লাল পিক্সেলটি সরানো হবে। তারা পরের জিনিসটি চেষ্টা করবে তা হল লাল পিক্সেলটি নীল পিক্সেলের উপরে সরিয়ে নেওয়া।

এই গেমটিকে একটি এআইকে দিন, এটি লক্ষ লক্ষ চেষ্টা না করা পর্যন্ত এটি এলোমেলোভাবে লাল পিক্সেলটি সরিয়ে ফেলবে যতক্ষণ না এটি পুরষ্কার পাওয়ার জন্য দুর্ঘটনাক্রমে নীল পিক্সেলের উপরে চলে যায়। যদি এআইয়ের লাল এবং নীল পিক্সেলের মধ্যে দূরত্বের কিছু ধারণা থাকে তবে এটি এই দূরত্বটি হ্রাস করার চেষ্টা করতে পারে।

দূরত্বের ধারণায় আসলে প্রোগ্রামিং ছাড়াই, যদি আমরা গেমের পিক্সেল নিই তবে আমরা কী "এনট্রপি" এর মতো একটি সংখ্যা (গুলি) গণনা করতে পারি, যখন পিক্সেল একসাথে থাকা ছাড়াও অনেক দূরে থাকে? এটি পিক্সেলের অন্যান্য কনফিগারেশনগুলির সাথে কাজ করা উচিত। যেমন তিন পিক্সেল সহ একটি খেলা যেখানে একটি ভাল এবং একটি খারাপ। স্নায়ু নেটওয়ার্ককে কী বোঝাতে পর্দাটি কেমন দেখাচ্ছে তা বোঝাতে? তারপরে এনএনকে একটি লক্ষ্য দিন, যেমন "বোর্ডের এনট্রপি কমিয়ে আনার চেষ্টা করুন পাশাপাশি পুরষ্কার পাওয়ার চেষ্টা করুন"।

বর্তমান গবেষণায় এর সদৃশ কিছু আছে কি?


আমি মনে করি না আপনি সরাসরি চিত্রটি খাওয়াবেন এবং এটির দূরত্বটি খুঁজে পেয়েছেন ... বরং আপনি এটিকে সংখ্যার একটি সেট খাওয়াবেন যা দূরত্ব, উল্লম্ব দূরত্ব, অনুভূমিক দূরত্ব ইত্যাদির প্রতিনিধিত্ব করে
ফ্রিজফিনিক্স

@ ফিও হ্যাঁ, তবে আপনাকে এটিকে প্রতিটি ধরণের "গেম" এর জন্য আলাদা আলাদা মান দিতে হবে। আমি যা বলছি তা হ'ল, পিক্সেলগুলি যখন একসাথে শ্রেণিবদ্ধ করা হবে এবং পিক্সেলগুলি পৃথক পৃথক করে রাখা হয় তখন কী আমাদের কিছু বিশ্বব্যাপী মান থাকতে পারে?
চিড়িয়াখানা

"তারা পরের জিনিসটি চেষ্টা করবে তা হ'ল লাল পিক্সেলকে নীল পিক্সেলের দিকে সরানো" " "লাল" এবং "নীল" না করায় সম্ভবত এনিমিস হয় তাই নীল পিক্সেল আপনাকে লক্ষ্য করার আগে আপনি দূরত্ব বাড়ানো শুরু করবেন।
লি

উত্তর:


1

উত্তর

আমি আপনার প্রশ্নটি মূল্যের মূল্যে নিয়ে যাচ্ছি, এবং এই বিষয়টির সত্যই গভীরতর।

হ্যা তারা পারে. সাধারণ মানুষের মন পারে। তবে মানুষের মন বিবেচনা করুন। মিলিয়ন, যদি বিলিয়ন না হয় , নিউরনের। প্রকৃতপক্ষে, কেউ দূরত্বকে একটি মানবিক ধারণা হিসাবে বিবেচনা করতে পারে, কেবলমাত্র বিশ্বের সাথে মিথস্ক্রিয়া থেকে উদ্ভূত একটি তত্ত্ব।

সুতরাং, আপনার হাতে এক টন নিউরোনস নিয়ে এক বা দুই বছর দেওয়া হয়েছে, আপনি এই দৃশ্যের প্রতিরূপ তৈরি করতে পারেন। এটি যদি আপনার কম্পিউটারটি মানুষের মনের মতো সমান্তরাল হয়। সংক্ষিপ্ত ব্যাখ্যাটি হ'ল মানব মন খুব সমান্তরাল।

তবে, কোনও এআই নয়, কোনও প্রোগ্রামের সাথে দূরত্ব গণনা করা সহজ হবে এবং সিদ্ধান্তগুলি যে সিদ্ধান্ত নিতে পারে তা কেবল এআইকেই ফলস্বরূপ খাওয়ানো উচিত।

আপনি কোনও স্ক্রিনটি দেখতে কতটা সময় ব্যয় করেছেন তা বিবেচনা করুন। আপনি যদি দুটি পিক্সেলের মধ্যে (আনুমানিক) দূরত্বটি বলতে পারেন তবে আপনি যেমন একটি নিউরাল নেটওয়ার্কও পারেন। তবে আপনি জীবিত এবং সমীকরণটি শেখার পরিমাণটি যোগ করুন এবং এটি একটি দুর্যোগে পরিণত হয়।

আরও পড়া

মানুষের মস্তিষ্ক সমান্তরাল হয়

এটি মানুষের মস্তিস্কের সমস্ত নিউরন একে অপরের থেকে স্বতন্ত্র থাকার সত্যের ফলাফল। এগুলি সত্য যুগপত ক্রিয়াকলাপ চালাতে পারে , ফলে চিত্রগুলির ব্যাখ্যা করার কাজটি আরও সহজ হয়ে যায়, কারণ নিউরনগুলির ব্লকগুলি অন্যের ক্রিয়াকলাপ থেকে "চিন্তা" করতে পারে এবং এটি "ল্যাগ" কে বিয়োগের পরিমাণে সীমাবদ্ধ করে দেয়।


1

আপনি মানুষ হিসাবে "দেখতে" এআই তৈরি করতে পারেন। যেমনটি আপনি বলেছিলেন, মানবিক কীগুলি দেওয়া, তিনি এলোমেলোভাবে ক্লিক করবেন। তাকে কেবল কীগুলি চাপতে হবে তা জানতে হবে যা তাকে স্ক্রিনের অন্যান্য বস্তুর নিকটে নিয়ে আসে। আমি মনে করি একটি এআই এর প্রাথমিক বিষয়গুলি বস্তুর স্বীকৃতি। আমি গেমের স্ক্রিন অবজেক্টগুলিকে ম্যাপ করার জন্য একটি স্ক্রিপ্ট তৈরি করার চেষ্টা করব। পাইথনে আইনী উদাহরণ রয়েছে।

আমি এই জাতীয় পথ অনুসরণ করার চেষ্টা করব:

  • এআইকে তীর বা ডাব্লুএসএএসডি ক্লিক করে বুঝতে হবে এবং এটি গেমের প্রসঙ্গে রয়েছে, যে দিকটি নির্দেশ অনুসারে পিক্সেল সরিয়ে নিয়েছে, মূল লেখক (প্লেয়ার) উপস্থাপন করে।

  • সমান্তরালভাবে: অঞ্চলের সমস্ত সীমানা মানচিত্র করুন এবং স্বয়ংক্রিয়ভাবে সমন্বিত ডোমেন এবং অবজেক্টের দূরত্ব পেতে অঞ্চলটির মধ্যে বিভিন্ন বস্তু সূচী করুন। এআইকে গেমটি দেখতে এবং স্ট্রিমের মাধ্যমে অবজেক্টগুলিকে শ্রেণীবদ্ধ করতে হবে। তুমি কি বোঝাতে চাও আমি?

  • সমান্তরালভাবে: এআই-কে স্ক্রিনে থাকা সমস্ত পাঠ্য এবং তথ্য সম্পর্কে সচেতন হওয়া দরকার (সমস্ত মানচিত্রযুক্ত, মনে আছে?)। যখন কোনও পাঠ্য পরিবর্তন হয় বা অন্যরকম কিছু ঘটে তখন আপনাকে বুঝতে হবে। উদাহরণস্বরূপ: যখনই তিনি প্রতিটি পর্বের প্রাথমিক অবস্থানে ফিরে আসেন, যখনই তার একটি গণনা থাকে, যখন কিউটি শূন্য বা একটি সাধারণ সংখ্যায় পৌঁছায় যা ঘটে যা অন্য ধরণের পরিবর্তন ঘটায়।

  • প্রতি "রজনে" কি পুনরাবৃত্তি হয় তা তাকে বুঝতে হবে। আপনাকে "রেসপন" কী তা বোঝার দরকার আছে। যখনই স্ক্রিনের একটি গণনা শেষ হবে তখন প্রতিটি মানচিত্রে একটি নির্দিষ্ট মানচিত্রের অবস্থান ফিরে আসে। অথবা যখন এটি নির্দিষ্ট ধরণের অবজেক্টের (ম্যাপযুক্ত অবজেক্ট) বিরুদ্ধে আসে

সত্যি কথা বলতে, আপনি যদি একটি সুপার ইন্টেলিজেন্ট রোবট তৈরি করতে চান তবে আপনি বিভিন্ন মানব, বা সেরা মানুষ, বা প্রতিটি গেমের নিয়মগুলি অনুসরণ করে যে সমস্ত পদক্ষেপ অনুসরণ করতে পারেন। তবে কখনও কখনও নির্দিষ্ট কাজ সম্পাদনের জন্য নির্দিষ্ট বট তৈরি করা সহজ। এটি আপনি কী করতে চান তার উপর নির্ভর করে


তিনি জিজ্ঞাসা করা হয় নি কিভাবে আপনি এটা করতে হবে, বরং পারেন আপনি এটা করতে।
ফ্রিজফিনিক্স

এটি বিভিন্ন উপায়ে করা সম্ভব। টেমপ্লেটটি তৈরি করতে আমি যেভাবে যাব তা পেরিয়েছি। এটি কোনও তত্ত্ব নয়, এটি এমন একটি প্রক্রিয়া যা এআই এর বিবর্তন অনুসারে অন্যান্য প্রক্রিয়াগুলিকে অন্তর্ভুক্ত করতে পারে।
গিলহর্ম আইএ

1

আপনি যা উল্লেখ করেন তা হ'ল পথ-পরিকল্পনার জন্য নিখুঁত উদাহরণ , যা এআই-তে ব্যাপক গবেষণা করা হয়।

দয়া করে এ-স্টার অ্যালগরিদম এবং এটি কীভাবে নিউরাল নেটওয়ার্কগুলির মাধ্যমে বাড়ানো যায় তা দেখুন:


1

আমরা সমস্যাটি নিম্নরূপে ভেঙে ফেলতে পারি:

<x0,y0,x1,y1>(x0y0)2+(x1y1)2

<x0,y0,x1,y1>

অবশ্যই, দুটি পৃথক নিউরাল নেটওয়ার্কে এটি করার কোনও কারণ নেই, সুতরাং আমরা কেবল দুটি প্রান্ত থেকে শেষ পর্যন্ত একত্রিত করতে পারি যা চিত্রটিকে ইনপুট হিসাবে এবং আউটপুট হিসাবে দূরত্বকে গ্রহণ করে।

এই মডেলটিকে লেবেলযুক্ত ডেটা সম্পর্কে প্রশিক্ষণ দেওয়া দরকার, তবে আপনাকে নিজে ডেটা তৈরি করতে হবে বা চিত্রগুলি লেবেল করতে হবে।

তবে আপনি যদি এটিকে কম তদারকি উপায়ে দূরত্ব বন্ধ করার ধারণাটি শিখতে চান তবে আপনাকে পুনর্বহালকরণ শিখন ব্যবহার করতে হবে। এই ক্ষেত্রে, আপনাকে এমন একটি পরিবেশ তৈরি করতে হবে যা এজেন্টকে দূরত্ব হ্রাস করতে উত্সাহ দেয়। এটি কোনও পুরস্কার পাওয়ার মতো সহজ হতে পারে যদি কোনও ক্রিয়া দূরত্ব হ্রাস করে।

আরেকটি পদ্ধতি হ'ল ভবিষ্যতের পুরষ্কারটি ব্যবহার করে এজেন্টকে উত্সাহিত করা। এটি, এর পুরষ্কারটি কেবলমাত্র পরবর্তী তাত্ক্ষণিক অবস্থার ফলাফল থেকে আসে না, তবে পরবর্তী সম্ভাব্য রাষ্ট্র থেকেও অবদান রয়েছে, এবং তার পরে একটি, এবং আরও অনেক কিছু। এটি ডিপ কিউ-লার্নিংয়ের পেছনের ধারণা এবং আমি এই নোটবুকটিতে একটি সাধারণ উদাহরণ (যা বর্ণনা করছি তার সাথে খুব মিল) বাস্তবায়ন করি ।

সুতরাং, এখন প্রশ্ন: এই বাস্তবায়ন সাফল্যের পথ অনুসরণ না করে এলোমেলোভাবে ঘোরাফেরা ছাড়া অন্য কিছু করেছে?

আপনার উদাহরণস্বরূপ, আপনি যখন এজেন্টটি লক্ষ্যটিতে অবতরণ করেন তখন পুরস্কৃত করার বিষয়ে কথা বলেন। তবে আমি যা বর্ণনা করেছি তাতে লক্ষ্যটির আরও কাছাকাছি চলে আসার মাধ্যমে (পুরস্কারটি কিউ-ফাংশন দ্বারা বা সরাসরি পরিবেশ থেকে) অর্জন করা হয়েছে। এটি দূরত্বের কিছু বিমূর্ত ধারণা (যা তদারকি করা সংস্করণে চিত্রিত করা যেতে পারে) শেখার মাধ্যমে এটি করতে সক্ষম।

যখন কোনও মানুষ এটি শিখেন, এটি একই সঠিক কারণে: মানুষ ভবিষ্যতের পুরষ্কারগুলির বোধের মাধ্যমে সেই দিকে এগিয়ে যাওয়ার জন্য একটি পুরষ্কার পাচ্ছে।

আমি বলব যে, পর্যাপ্ত প্রশিক্ষণ এবং ডেটা দেওয়া হলে, পুনর্বহাল শেখা সহজেই এই ধারণাটি শিখতে পারে। বোর্ডে অন্যান্য পুরষ্কার উপস্থিত থাকাকালীন (যেমন, "বোর্ডের এনট্রপি কমিয়ে আনার পাশাপাশি পুরষ্কার পাওয়ার চেষ্টা করুন"), আপনি কী জিজ্ঞাসা করছেন তা সম্পর্কে আপনাকে ভাবতে হবে। আপনি বরং এজেন্ট দূরত্ব হ্রাস করতে বা সর্বাধিক পুরষ্কার চান? কারণ, সাধারণভাবে, এটি উভয়ই করতে পারে না। যদি আপনি দুজনের মধ্যে কিছু ভারসাম্য খুঁজছেন, তবে সত্যই আপনি দূরত্বটি বিবেচনা করার জন্য পুরষ্কারটি পুনরায় সংজ্ঞায়িত করছেন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.