ফাংশন আনুমানিক হিসাবে নিউরাল নেটওয়ার্কের সাথে কি-লার্নিং

আমি নিউরাল নেটওয়ার্কগুলি ব্যবহার করে কিউ-লার্নিং সম্পর্কিত প্রশ্নাবলী হিসাবে কিউ-লার্নিংয়ের কিউ-মানটিকে অনুমান করার জন্য একটি নিউরাল নেটওয়ার্ক ব্যবহার করার চেষ্টা করছি । প্রথম উত্তরে যেমন পরামর্শ দেওয়া হয়েছে, আমি আউটপুট স্তরের জন্য রৈখিক অ্যাক্টিভেশন ফাংশনটি ব্যবহার করছি, যদিও আমি এখনও লুকানো স্তরগুলিতে সিগময়েড অ্যাক্টিভেশন ফাংশনটি ব্যবহার করছি (2, যদিও আমি এটি পরে পরিবর্তন করতে পারি)। আমি এমন একক এনএনও ব্যবহার করছি যা প্রতিটি ক্রিয়া পরামর্শ অনুযায়ী আউটপুট দেয়। $Q(a)$

যাইহোক, অ্যালগরিদম এখনও সহজ কার্ট-মেরু ভারসাম্য সমস্যার জন্য ডাইভারিং করছে। সুতরাং, আমি ভয় করি আমার কি-আপডেটটি ভুল। আরম্ভের পরে, প্রতিটি পদক্ষেপে আমি যা করেছি তা হ'ল:

সমস্ত ক্রিয়াকলাপের জন্য NN এর সামনের প্রচার ব্যবহার করে গণনা করুন । $Q_t(s_t)$
একটি নতুন ক্রিয়া নির্বাচন করুন, , একটি নতুন রাজ্যে জমি । $a_t$ $s_t$
সমস্ত ক্রিয়াকলাপের জন্য NN এর অগ্রগতি প্রচার ব্যবহার গণনা করুন । $Q_t(s_{t+1})$
লক্ষ্য Q- মানটি সেট করুন: কেবলমাত্র বর্তমান ক্রিয়াকলাপের জন্য, , অন্যান্য রাজ্যের জন্য জন্য। দ্রষ্টব্য, আমি মনে করি এটিই সমস্যা। $Q_{t+1}(s_t,a_t)=Q_t(s_t,a_t)+\alpha_t \left[r_{t+1}+\gamma \max_a Q(s_{t+1},a) - Q_t(s_t,a_t) \right]$ $a_t$ $Q_{t+1}(s,a_t)=Q_{t}(s,a_t)$
ত্রুটি ভেক্টরকে $\mathbf{e}=Q_\mathrm{target}-Q_t=Q_{t+1}-Q_t$
ওজন ম্যাট্রিক্স আপডেট করার জন্য এনএন এর মাধ্যমে ত্রুটি ব্যাকপ্রোপেট করুন।

কেউ দয়া করে আমাকে বলতে পারেন যে আমি কোথায় ভুল করেছি?

তদুপরি, আপনি কি ভাবেন যে আমাকে ইনপুট স্তর এবং প্রথম লুকানো স্তরটিতে (যেমন সিগময়েড ফাংশনগুলির জন্য) বায়াস শব্দটি অন্তর্ভুক্ত করা উচিত? ইহা কি কোন ব্যবধান করবে?

আপনার সাহায্যের জন্য আগাম আপনাকে অনেক ধন্যবাদ। আমি যদি প্রয়োজন হয় তবে প্রশ্নটি বা কোডটি স্পষ্ট করতে সহায়তা করতে পারি।

neural-networks reinforcement-learning

— এনরিকো আন্ডারলিনি
সূত্র

আপনার টার্গেটটি ন্যায়সঙ্গত হওয়া উচিত

$r_{t+1}+\gamma \max_a Q(s_{t+1},a)$ ।

মনে রাখবেন যে আপনার ত্রুটি শব্দটি (যা সঠিক) তখন হিসাবে আবার লেখা যেতে পারে $r_{t+1}+\gamma \max_a Q(s_{t+1},a) - Q_t$

আপডেট সূত্রে বন্ধনীগুলির মধ্যে এটি শব্দ। এটি আপনার এনএন শেখার হার এবং শেখার সময় অন্যান্য ব্যাকপ্রোপেশন শর্তাদি দ্বারা গুণিত হবে এবং তারপরে আপডেট সূত্রের মতো পূর্ববর্তী ওজনগুলিতে যুক্ত হবে । $Q$

— rcpinto
সূত্র

বখশিষের জন্য ধন্যবাদ! এইভাবে আমি টার্গেট ভ্যালুতে সংখ্যাসূচক ত্রুটিগুলি এড়াতে পারি: আপনি যেমনটি বলেছেন, এটি যোগ করা এবং তারপরে বিয়োগ করা ।

Q_{t}

$Q_t$

— এনরিকো অ্যান্ডারলিনি

তবে, আমার এনএন + কিউ-লার্নিং এখনও রূপান্তর করছে না। সুতরাং, যদি পদ্ধতিটি সঠিক হয় তবে আমি অনুমান করি যে আমি কেবল শিখার হার এবং লুকানো স্তরগুলিতে থাকা নিউরনের সংখ্যার সাথে ঘুরে দেখার চেষ্টা করব

— এনরিকো অ্যান্ডারলিনি

হ্যাঁ, আপনার এটি করা উচিত (রিলু স্থানান্তর ফাংশনটিও ব্যবহার করার চেষ্টা করুন)। তবে মনে রাখবেন যে কার্য-সমাপ্তির সাথে কি-লার্নিংয়ের কোনও কনভার্জেন্স গ্যারান্টি নেই। যদি আপনার পরবর্তী চেষ্টাটি কাজ না করে, আপনি অ্যাডভান্টেজ লার্নিং চেষ্টা করতে পারেন। এবং অবশেষে, সমস্যাটি হতে পারে যে আপনার ডেটা আইড নয়। সুতরাং আপনাকে অভিজ্ঞতার রিপ্লে বাস্তবায়ন করতে হবে।

— rcpinto

আমি প্রশ্নের একটি এক্সটেনশন আছে। আমি প্রশ্নের উল্লিখিত অ্যালগরিদমটি বুঝতে পারি তবে এবং পদগুলি সম্পর্কে বিভ্রান্ত । যদি গেমটির পুরষ্কারটি কেবল গেমের শেষে (একটি জয় বা হারের শর্তে) জানা থাকে তবে আমরা কীভাবে মধ্যবর্তী পদক্ষেপের জন্য পুরষ্কার দেব?

Q_{t + 1}

$Q_{t+1}$

r_{t + 1}

$r_{t+1}$

— কনিষ্ক গাঙ্গুলি

আপনি করবেন না, এটা শূন্য। তবে এটি ধীরে ধীরে পূর্বের রাজ্যে Q মানগুলি দ্বারা প্রচারিত হবে, কারণ Q মানটি ভবিষ্যতের পুরষ্কারের এক অনুমান ।

— rcpinto