আমার সেরা অনুমান যে এটি গণনার সময় হ্রাস করার জন্য করা হয়েছে, অন্যথায় আমাদের প্রতিটি ক্রিয়ের জন্য Q মানটি খুঁজে বের করতে হবে এবং তারপরে সেরাটি নির্বাচন করতে হবে।
সামান্য বৃদ্ধি ব্যতীত (দুটি নেটওয়ার্কের অতিরিক্ত মেমোরির কারণে) গণনার সময় এর কোনও বাস্তব প্রভাব নেই। আমি মনে করি যে টার্গেট নেটওয়ার্কের ফলাফলগুলি আপনি ক্যাশে করতে পারেন , তবে এটি সম্ভবত বেশিরভাগ পরিবেশের পক্ষে উপযুক্ত হবে না এবং আমি এমন কোনও বাস্তবায়ন দেখিনি যা এটি করে।
আমি কিছু অনুপস্থিত করছি?
ফাংশন আনুমানিককরণ (যেমন নিউরাল নেটওয়ার্ক) ব্যবহার করার সময় কি-লার্নিং অ্যালগরিদমের স্থায়িত্ব নিয়ে কাজ করা। একটি পৃথক টার্গেট নেটওয়ার্ক ব্যবহার করে, সর্বশেষতম শিখে যাওয়া পরামিতিগুলির অনুলিপি সহ প্রতিটি বহু পদক্ষেপে আপডেট হওয়া, বুটস্ট্র্যাপিং থেকে সিস্টেমে সংখ্যাসূচকভাবে আধিপত্য বিস্তার থেকে রক্ষা পেতে সহায়তা করে, যার ফলে আনুমানিক Q মানগুলি বিচ্ছিন্ন হয়ে যায়।
ডেটা পয়েন্টগুলির একটিতে কল্পনা করুন (এ S, A, R, S'
) খারাপ হওয়ার জন্য বর্তমানে একটি অতিমাত্রায় অতিরিক্ত অনুমানের কারণ ঘটায় Q(S', A')
। হতে পারে S', A'
এমনকি এখনও পরিদর্শনও করা হয়নি, বা R
এ পর্যন্ত দেখা মূল্যমান যথাযথভাবে গড়ের চেয়ে বেশি। যদি (S,A)
অভিজ্ঞতা পুনরায় খেলতে একাধিকবার ক্রপ করা একটি নমুনা হয় , তবে এটি প্রতিবারই আরও খারাপ হবে, কারণ আপডেটটি Q(S,A)
ভিত্তিক R + max_a Q(S',a)
। টার্গেট নেটওয়ার্কটি স্থির করে দেওয়া এই ধরনের অতিরিক্ত-অনুমানগুলি যে ক্ষতি করতে পারে তা সীমিত করে, শিখনের নেটওয়ার্কটিকে রূপান্তর করতে এবং এর প্রাথমিক পক্ষপাতিত্বের আরও অনেকগুলি হারাতে সময় দেয়।
এই ক্ষেত্রে, একটি পৃথক লক্ষ্য নেটওয়ার্ক ব্যবহারের পুনরায় খেলা অভিজ্ঞতা অর্জনের জন্য খুব অনুরূপ উদ্দেশ্য রয়েছে। এটি একটি অ্যালগরিদম স্থিতিশীল করে যা অন্যথায় রূপান্তর করতে সমস্যা হয়।
পৃথক সমস্যা সমাধানের জন্য "ডাবল লার্নিং" সহ ডিকিউএন থাকাও সম্ভব: ম্যাক্সিমাইজেশন পক্ষপাতিত্ব। সেক্ষেত্রে আপনি 4 টি নিউরাল নেটওয়ার্কের সাথে ডিকিউএন বাস্তবায়ন দেখতে পাবেন।