আমি বর্ণিত হিসাবে কিউ-লার্নিং বাস্তবায়ন করেছি,
http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf
আনুমানিক করার জন্য। প্রশ্ন (এস, এ) আমি নীচের মতো একটি নিউরাল নেটওয়ার্ক কাঠামো ব্যবহার করি,
- অ্যাক্টিভেশন সিগময়েড
- অ্যাকশন নিউরনগুলির জন্য ইনপুটগুলি, ইনপুটগুলির সংখ্যা +1 (সমস্ত ইনপুট 0-1 স্কেলড)
- আউটপুট, একক আউটপুট। কিউ-মূল্য
- এম লুকানো স্তরগুলির এন নম্বর।
- অন্বেষণের পদ্ধতিটি এলোমেলোভাবে 0 <র্যান্ড () <প্রস্তাবনা এক্সপ্লোর
নিম্নলিখিত সূত্রটি ব্যবহার করে প্রতিটি শেখার পুনরাবৃত্তিতে,
আমি একটি কি-টার্গেট মান গণনা করি তারপরে ব্যবহার করে একটি ত্রুটি গণনা করি,
error = QTarget - LastQValueReturnedFromNN
এবং ফিরে নিউরাল নেটওয়ার্ক মাধ্যমে ত্রুটি প্রচার।
প্র 1, আমি কি সঠিক পথে রয়েছি? আমি কিছু কাগজপত্র দেখেছি যা প্রতিটি ক্রিয়াকলাপের জন্য একটি আউটপুট নিউরন সহ একটি এনএন বাস্তবায়ন করে।
কিউ 2, আমার পুরষ্কারের ক্রিয়াকলাপটি -1 এবং 1 এর মধ্যে একটি নম্বর প্রদান করে যখন সক্রিয়করণ ফাংশন সিগময়েড হয় তখন কি -1 এবং 1 এর মধ্যে একটি নম্বর ফেরত দেওয়া ঠিক হবে (0 1)?
প্র 3, পর্যাপ্ত প্রশিক্ষণের উদাহরণ দেওয়া এই পদ্ধতিটি সম্পর্কে আমার বোঝার থেকে এটি একটি সর্বোত্তম নীতিমালা চালানোর জন্য পৃথক হওয়া উচিত? এক্সওআরটির প্রশিক্ষণ যখন কখনও কখনও 2k পুনরাবৃত্তির পরে এটি শিখতে পারে তবে কখনও কখনও এটি 40k 50k পুনরাবৃত্তির পরেও শিখতে পারে না।