আমরা সমস্যাটি নিম্নরূপে ভেঙে ফেলতে পারি:
<x0,y0,x1,y1>(x0−y0)2+(x1−y1)2−−−−−−−−−−−−−−−−−−√
<x0,y0,x1,y1>
অবশ্যই, দুটি পৃথক নিউরাল নেটওয়ার্কে এটি করার কোনও কারণ নেই, সুতরাং আমরা কেবল দুটি প্রান্ত থেকে শেষ পর্যন্ত একত্রিত করতে পারি যা চিত্রটিকে ইনপুট হিসাবে এবং আউটপুট হিসাবে দূরত্বকে গ্রহণ করে।
এই মডেলটিকে লেবেলযুক্ত ডেটা সম্পর্কে প্রশিক্ষণ দেওয়া দরকার, তবে আপনাকে নিজে ডেটা তৈরি করতে হবে বা চিত্রগুলি লেবেল করতে হবে।
তবে আপনি যদি এটিকে কম তদারকি উপায়ে দূরত্ব বন্ধ করার ধারণাটি শিখতে চান তবে আপনাকে পুনর্বহালকরণ শিখন ব্যবহার করতে হবে। এই ক্ষেত্রে, আপনাকে এমন একটি পরিবেশ তৈরি করতে হবে যা এজেন্টকে দূরত্ব হ্রাস করতে উত্সাহ দেয়। এটি কোনও পুরস্কার পাওয়ার মতো সহজ হতে পারে যদি কোনও ক্রিয়া দূরত্ব হ্রাস করে।
আরেকটি পদ্ধতি হ'ল ভবিষ্যতের পুরষ্কারটি ব্যবহার করে এজেন্টকে উত্সাহিত করা। এটি, এর পুরষ্কারটি কেবলমাত্র পরবর্তী তাত্ক্ষণিক অবস্থার ফলাফল থেকে আসে না, তবে পরবর্তী সম্ভাব্য রাষ্ট্র থেকেও অবদান রয়েছে, এবং তার পরে একটি, এবং আরও অনেক কিছু। এটি ডিপ কিউ-লার্নিংয়ের পেছনের ধারণা এবং আমি এই নোটবুকটিতে একটি সাধারণ উদাহরণ (যা বর্ণনা করছি তার সাথে খুব মিল) বাস্তবায়ন করি ।
সুতরাং, এখন প্রশ্ন: এই বাস্তবায়ন সাফল্যের পথ অনুসরণ না করে এলোমেলোভাবে ঘোরাফেরা ছাড়া অন্য কিছু করেছে?
আপনার উদাহরণস্বরূপ, আপনি যখন এজেন্টটি লক্ষ্যটিতে অবতরণ করেন তখন পুরস্কৃত করার বিষয়ে কথা বলেন। তবে আমি যা বর্ণনা করেছি তাতে লক্ষ্যটির আরও কাছাকাছি চলে আসার মাধ্যমে (পুরস্কারটি কিউ-ফাংশন দ্বারা বা সরাসরি পরিবেশ থেকে) অর্জন করা হয়েছে। এটি দূরত্বের কিছু বিমূর্ত ধারণা (যা তদারকি করা সংস্করণে চিত্রিত করা যেতে পারে) শেখার মাধ্যমে এটি করতে সক্ষম।
যখন কোনও মানুষ এটি শিখেন, এটি একই সঠিক কারণে: মানুষ ভবিষ্যতের পুরষ্কারগুলির বোধের মাধ্যমে সেই দিকে এগিয়ে যাওয়ার জন্য একটি পুরষ্কার পাচ্ছে।
আমি বলব যে, পর্যাপ্ত প্রশিক্ষণ এবং ডেটা দেওয়া হলে, পুনর্বহাল শেখা সহজেই এই ধারণাটি শিখতে পারে। বোর্ডে অন্যান্য পুরষ্কার উপস্থিত থাকাকালীন (যেমন, "বোর্ডের এনট্রপি কমিয়ে আনার পাশাপাশি পুরষ্কার পাওয়ার চেষ্টা করুন"), আপনি কী জিজ্ঞাসা করছেন তা সম্পর্কে আপনাকে ভাবতে হবে। আপনি বরং এজেন্ট দূরত্ব হ্রাস করতে বা সর্বাধিক পুরষ্কার চান? কারণ, সাধারণভাবে, এটি উভয়ই করতে পারে না। যদি আপনি দুজনের মধ্যে কিছু ভারসাম্য খুঁজছেন, তবে সত্যই আপনি দূরত্বটি বিবেচনা করার জন্য পুরষ্কারটি পুনরায় সংজ্ঞায়িত করছেন।