ফাংশন আনুমানিক হিসাবে নিউরাল নেটওয়ার্কের সাথে কি-লার্নিং


11

আমি নিউরাল নেটওয়ার্কগুলি ব্যবহার করে কিউ-লার্নিং সম্পর্কিত প্রশ্নাবলী হিসাবে কিউ-লার্নিংয়ের কিউ-মানটিকে অনুমান করার জন্য একটি নিউরাল নেটওয়ার্ক ব্যবহার করার চেষ্টা করছি । প্রথম উত্তরে যেমন পরামর্শ দেওয়া হয়েছে, আমি আউটপুট স্তরের জন্য রৈখিক অ্যাক্টিভেশন ফাংশনটি ব্যবহার করছি, যদিও আমি এখনও লুকানো স্তরগুলিতে সিগময়েড অ্যাক্টিভেশন ফাংশনটি ব্যবহার করছি (2, যদিও আমি এটি পরে পরিবর্তন করতে পারি)। আমি এমন একক এনএনও ব্যবহার করছি যা প্রতিটি ক্রিয়া পরামর্শ অনুযায়ী আউটপুট দেয়।Q(a)

যাইহোক, অ্যালগরিদম এখনও সহজ কার্ট-মেরু ভারসাম্য সমস্যার জন্য ডাইভারিং করছে। সুতরাং, আমি ভয় করি আমার কি-আপডেটটি ভুল। আরম্ভের পরে, প্রতিটি পদক্ষেপে আমি যা করেছি তা হ'ল:

  • সমস্ত ক্রিয়াকলাপের জন্য NN এর সামনের প্রচার ব্যবহার করে গণনা করুন ।Qt(st)
  • একটি নতুন ক্রিয়া নির্বাচন করুন, , একটি নতুন রাজ্যে জমি ।atst
  • সমস্ত ক্রিয়াকলাপের জন্য NN এর অগ্রগতি প্রচার ব্যবহার গণনা করুন ।Qt(st+1)
  • লক্ষ্য Q- মানটি সেট করুন: কেবলমাত্র বর্তমান ক্রিয়াকলাপের জন্য, a_t , অন্যান্য রাজ্যের জন্য Q_ {t + 1} (গুলি, a_t) = Q_ {t} (গুলি, a_t) সেট করার জন্য। দ্রষ্টব্য, আমি মনে করি এটিই সমস্যা।Qt+1(st,at)=Qt(st,at)+αt[rt+1+γmaxaQ(st+1,a)Qt(st,at)]atQt+1(s,at)=Qt(s,at)
  • ত্রুটি ভেক্টরকে e=QtargetQt=Qt+1Qt
  • ওজন ম্যাট্রিক্স আপডেট করার জন্য এনএন এর মাধ্যমে ত্রুটি ব্যাকপ্রোপেট করুন।

কেউ দয়া করে আমাকে বলতে পারেন যে আমি কোথায় ভুল করেছি?

তদুপরি, আপনি কি ভাবেন যে আমাকে ইনপুট স্তর এবং প্রথম লুকানো স্তরটিতে (যেমন সিগময়েড ফাংশনগুলির জন্য) বায়াস শব্দটি অন্তর্ভুক্ত করা উচিত? ইহা কি কোন ব্যবধান করবে?

আপনার সাহায্যের জন্য আগাম আপনাকে অনেক ধন্যবাদ। আমি যদি প্রয়োজন হয় তবে প্রশ্নটি বা কোডটি স্পষ্ট করতে সহায়তা করতে পারি।

উত্তর:


9

আপনার টার্গেটটি ন্যায়সঙ্গত হওয়া উচিত

rt+1+γmaxaQ(st+1,a)

মনে রাখবেন যে আপনার ত্রুটি শব্দটি (যা সঠিক) তখন হিসাবে আবার লেখা যেতে পারে rt+1+γmaxaQ(st+1,a)Qt

আপডেট সূত্রে বন্ধনীগুলির মধ্যে এটি শব্দ। এটি আপনার এনএন শেখার হার এবং শেখার সময় অন্যান্য ব্যাকপ্রোপেশন শর্তাদি দ্বারা গুণিত হবে এবং তারপরে আপডেট সূত্রের মতো পূর্ববর্তী ওজনগুলিতে যুক্ত হবে ।Q


বখশিষের জন্য ধন্যবাদ! এইভাবে আমি টার্গেট ভ্যালুতে সংখ্যাসূচক ত্রুটিগুলি এড়াতে পারি: আপনি যেমনটি বলেছেন, এটি যোগ করা এবং তারপরে বিয়োগ করা । Qt
এনরিকো অ্যান্ডারলিনি

তবে, আমার এনএন + কিউ-লার্নিং এখনও রূপান্তর করছে না। সুতরাং, যদি পদ্ধতিটি সঠিক হয় তবে আমি অনুমান করি যে আমি কেবল শিখার হার এবং লুকানো স্তরগুলিতে থাকা নিউরনের সংখ্যার সাথে ঘুরে দেখার চেষ্টা করব
এনরিকো অ্যান্ডারলিনি

1
হ্যাঁ, আপনার এটি করা উচিত (রিলু স্থানান্তর ফাংশনটিও ব্যবহার করার চেষ্টা করুন)। তবে মনে রাখবেন যে কার্য-সমাপ্তির সাথে কি-লার্নিংয়ের কোনও কনভার্জেন্স গ্যারান্টি নেই। যদি আপনার পরবর্তী চেষ্টাটি কাজ না করে, আপনি অ্যাডভান্টেজ লার্নিং চেষ্টা করতে পারেন। এবং অবশেষে, সমস্যাটি হতে পারে যে আপনার ডেটা আইড নয়। সুতরাং আপনাকে অভিজ্ঞতার রিপ্লে বাস্তবায়ন করতে হবে।
rcpinto

আমি প্রশ্নের একটি এক্সটেনশন আছে। আমি প্রশ্নের উল্লিখিত অ্যালগরিদমটি বুঝতে পারি তবে এবং পদগুলি সম্পর্কে বিভ্রান্ত । যদি গেমটির পুরষ্কারটি কেবল গেমের শেষে (একটি জয় বা হারের শর্তে) জানা থাকে তবে আমরা কীভাবে মধ্যবর্তী পদক্ষেপের জন্য পুরষ্কার দেব? Qt+1rt+1
কনিষ্ক গাঙ্গুলি

1
আপনি করবেন না, এটা শূন্য। তবে এটি ধীরে ধীরে পূর্বের রাজ্যে Q মানগুলি দ্বারা প্রচারিত হবে, কারণ Q মানটি ভবিষ্যতের পুরষ্কারের এক অনুমান ।
rcpinto
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.