অনুপ্রেরণা বাস্তবায়নের বর্তমান পদ্ধতিটি একরকম কৃত্রিম পুরষ্কার। উদাহরণস্বরূপ ডিপমাইন্ডের ডিকিউএন গেমের স্কোর দ্বারা চালিত। স্কোর যত বেশি, তত ভাল। এআই সর্বাধিক পয়েন্ট পেতে এবং এর ফলে সর্বাধিক পুরষ্কার পেতে এর ক্রিয়াগুলি সামঞ্জস্য করতে শেখে। একে রিইনফোর্সমেন্ট লেয়ারিং বলা হয় । পুরষ্কার এআইকে তার ক্রিয়াকলাপগুলি মানিয়ে নিতে উত্সাহিত করে, তাই কথা বলতে।
আরও প্রযুক্তিগত পদে, এআই ইউটিলিটি সর্বাধিক করতে চায়, যা বাস্তবায়িত ইউটিলিটি ফাংশনের উপর নির্ভর করে । ডিকিউএন এর ক্ষেত্রে এটি খেলায় সর্বাধিকতর হবে।
মানুষের মস্তিষ্ক একটি অনুরূপ ফ্যাশনে কাজ করে, যদিও কিছুটা আরও জটিল এবং প্রায়শই সরল সামনে না। মানুষ হিসাবে আমরা সাধারণত ডোপামিন এবং সেরোটোনিনের একটি উচ্চ আউটপুট উত্পাদন করতে আমাদের ক্রিয়াগুলি সামঞ্জস্য করার চেষ্টা করি । এটি শক্তিবৃদ্ধি শেখার সময় এআইগুলিকে নিয়ন্ত্রণ করতে ব্যবহৃত পুরষ্কারের মতো similar মানব মস্তিষ্ক শিখে যে কোন ক্রিয়াগুলি those পদার্থগুলির সর্বাধিক পরিমাণ উত্পাদন করে এবং আউটপুট সর্বাধিককরণের কৌশলগুলি সন্ধান করে। এটি অবশ্যই এই জটিল প্রক্রিয়াটির সরলীকরণ, তবে আপনি ছবিটি পান।
আপনি যখন অনুপ্রেরণার কথা বলেন, দয়া করে এটিকে চেতনা বা কোয়ালিয়ার সাথে মিশ্রিত করবেন না । এগুলি মোটেই প্রেরণার জন্য প্রয়োজন হয় না। আপনি যদি এআই তে চেতনা এবং কোয়ালিয়া নিয়ে আলোচনা করতে চান তবে এটি সম্পূর্ণ ভিন্ন বলের খেলা।
একটি শিশু কৌতূহলের খাতিরে কৌতূহলী নয়। এটি অন্বেষণ করার সময় এটি ইতিবাচক শক্তিবৃদ্ধি পায় কারণ সন্তানের মস্তিষ্কের ইউটিলিটি ফাংশন সার্থক স্নায়বিক ট্রান্সমিটারগুলি প্রকাশের মাধ্যমে অন্বেষণকে পুরষ্কার দেয়। সুতরাং প্রক্রিয়া একই। এআইতে এটি প্রয়োগ করার অর্থ একটি ইউটিলিটি ফাংশন সংজ্ঞায়িত করা যা নতুন অভিজ্ঞতার পুরষ্কার দেয়। একরকম শক্তিশালী পুরষ্কার ছাড়া কোনও অভ্যন্তরীণ ড্রাইভ নেই।