আমি নিউরাল নেটওয়ার্কগুলি ব্যবহার করে কিউ-লার্নিং সম্পর্কিত প্রশ্নাবলী হিসাবে কিউ-লার্নিংয়ের কিউ-মানটিকে অনুমান করার জন্য একটি নিউরাল নেটওয়ার্ক ব্যবহার করার চেষ্টা করছি । প্রথম উত্তরে যেমন পরামর্শ দেওয়া হয়েছে, আমি আউটপুট স্তরের জন্য রৈখিক অ্যাক্টিভেশন ফাংশনটি ব্যবহার করছি, যদিও আমি এখনও লুকানো স্তরগুলিতে সিগময়েড অ্যাক্টিভেশন ফাংশনটি ব্যবহার করছি (2, যদিও আমি এটি পরে পরিবর্তন করতে পারি)। আমি এমন একক এনএনও ব্যবহার করছি যা প্রতিটি ক্রিয়া পরামর্শ অনুযায়ী আউটপুট দেয়।
যাইহোক, অ্যালগরিদম এখনও সহজ কার্ট-মেরু ভারসাম্য সমস্যার জন্য ডাইভারিং করছে। সুতরাং, আমি ভয় করি আমার কি-আপডেটটি ভুল। আরম্ভের পরে, প্রতিটি পদক্ষেপে আমি যা করেছি তা হ'ল:
- সমস্ত ক্রিয়াকলাপের জন্য NN এর সামনের প্রচার ব্যবহার করে গণনা করুন ।
- একটি নতুন ক্রিয়া নির্বাচন করুন, , একটি নতুন রাজ্যে জমি ।
- সমস্ত ক্রিয়াকলাপের জন্য NN এর অগ্রগতি প্রচার ব্যবহার গণনা করুন ।
- লক্ষ্য Q- মানটি সেট করুন: কেবলমাত্র বর্তমান ক্রিয়াকলাপের জন্য, a_t , অন্যান্য রাজ্যের জন্য Q_ {t + 1} (গুলি, a_t) = Q_ {t} (গুলি, a_t) সেট করার জন্য। দ্রষ্টব্য, আমি মনে করি এটিই সমস্যা।
- ত্রুটি ভেক্টরকে
- ওজন ম্যাট্রিক্স আপডেট করার জন্য এনএন এর মাধ্যমে ত্রুটি ব্যাকপ্রোপেট করুন।
কেউ দয়া করে আমাকে বলতে পারেন যে আমি কোথায় ভুল করেছি?
তদুপরি, আপনি কি ভাবেন যে আমাকে ইনপুট স্তর এবং প্রথম লুকানো স্তরটিতে (যেমন সিগময়েড ফাংশনগুলির জন্য) বায়াস শব্দটি অন্তর্ভুক্ত করা উচিত? ইহা কি কোন ব্যবধান করবে?
আপনার সাহায্যের জন্য আগাম আপনাকে অনেক ধন্যবাদ। আমি যদি প্রয়োজন হয় তবে প্রশ্নটি বা কোডটি স্পষ্ট করতে সহায়তা করতে পারি।