পটভূমি:
আমি আমার শক্তিবৃদ্ধি শেখার কাজে নিউরাল নেটওয়ার্ক কিউ-মান আনুমানিক ব্যবহার করছি। দৃষ্টিভঙ্গি এই প্রশ্নের বর্ণিত হিসাবে ঠিক একই , তবে প্রশ্নটি নিজেই আলাদা।
এই পদ্ধতির আউটপুটগুলির সংখ্যাটি আমরা গ্রহণ করতে পারি এমন ক্রিয়াকলাপ। এবং সহজ কথায়, অ্যালগরিদমটি নিম্নলিখিত: ক্রিয়া A করুন, পুরষ্কারটি অন্বেষণ করুন, NN কে সমস্ত সম্ভাব্য ক্রয়ের জন্য Q মানগুলি পূর্বাভাস দিতে, সর্বাধিক Q মান চয়ন করুন, নির্দিষ্ট ক্রিয়া A এর জন্য Q গণনা করুন R + max(new_state_Q)
। পূর্বাভাসিত Q মানগুলির উপর ফিট মডেল যার মধ্যে কেবল একটি প্রতিস্থাপন করে R + max(new_state_Q)
।
প্রশ্ন: আউটপুট সংখ্যা বড় হলে এই পদ্ধতির কতটা দক্ষ?
প্রয়াস: ধরা যাক যে আমরা 10 টি পদক্ষেপ নিতে পারি। প্রতিটি পদক্ষেপে আমরা মডেলকে 10 টি মান বাছাই করতে বলি, মডেলের প্রাথমিক বয়সে এই পূর্বাভাসটি মোটামুটি গোলযোগ। তারপরে আমরা আউটপুটটির 1 মান পরিবর্তন করব এবং এই মানগুলিতে মডেলটি ফিট করব।
এই পদ্ধতির পক্ষে আমার পক্ষে দুটি বিপরীত ধারণা রয়েছে - কোনটি সঠিক তা সিদ্ধান্ত নিতে পারছি না:
- এক দৃষ্টিকোণ থেকে, আমরা প্রতিটি নিউরনকে এলোমেলো উপাত্তে 9 বার এবং সত্যিকারের নিকটবর্তী ডেটাতে একবার প্রশিক্ষণ দিচ্ছি। যদি এনএন স্টেট এস-তে ক্রিয়াকলাপের জন্য 5 এর পূর্বাভাস দেয় তবে আসল মান -100 হয় আমরা 5 মান সহ এনএন 9 বার এবং তারপরে একবার মান -100 এর সাথে ফিট করব। মনে হচ্ছে পাগল।
- অন্য দৃষ্টিকোণ থেকে, নিউরাল নেটওয়ার্কের শিখনটি একটি ত্রুটির পিছনে প্রচার হিসাবে প্রয়োগ করা হয় , সুতরাং যখন মডেল 5 টি ভবিষ্যদ্বাণী করেছে এবং আমরা 5 এ প্রশিক্ষণ দিচ্ছি তবে ত্রুটিটি 0 হওয়ার কারণে ওজন নতুন কিছু শিখবে না We । এবং কেবলমাত্র যখন আমরা -100 গণনা করব এবং এটি মডেলটির সাথে ফিট করব, এটি ওজন পুনরুদ্ধার করবে।
কোন বিকল্পটি সঠিক? আমি আমলে নিচ্ছি না এমন আরও কিছু আছে কি?
আপডেট: "কতটা দক্ষ" দ্বারা আমার অর্থ একটি আউটপুটের সাথে একটি পদ্ধতির সাথে তুলনা করা - পূর্বাভাস প্রাপ্ত পুরষ্কার। অবশ্যই, পদক্ষেপটি এই ক্ষেত্রে ইনপুটটির একটি অংশ হবে। সুতরাং # 1 পদ্ধতির কোনও কোনও রাষ্ট্রের ভিত্তিতে সমস্ত ক্রিয়াকলাপের জন্য ভবিষ্যদ্বাণী করা হয়, # 2 পদ্ধতির কোনও কোনও রাজ্যে নেওয়া নির্দিষ্ট পদক্ষেপের জন্য পূর্বাভাস দেয়।