কেন DQN দুটি পৃথক নেটওয়ার্কের প্রয়োজন?

আমি ডিকিউএন এর এই বাস্তবায়নটি দিয়ে যাচ্ছিলাম এবং আমি দেখতে পাচ্ছি যে 124 এবং 125 লাইনে দুটি পৃথক কিউ নেটওয়ার্ক চালু করা হয়েছে। আমার বোধগম্যতা থেকে, আমি মনে করি একটি নেটওয়ার্ক উপযুক্ত ক্রিয়াটির পূর্বাভাস দেয় এবং দ্বিতীয় নেটওয়ার্কটি বেলম্যান ত্রুটি সন্ধানের জন্য লক্ষ্য Q এর মানগুলির পূর্বাভাস দেয়।

কেন আমরা কেবল একটি একক নেটওয়ার্ক তৈরি করতে পারি না যা কেবলমাত্র Q মানটির পূর্বাভাস দেয় এবং উভয় ক্ষেত্রেই এটি ব্যবহার করতে পারে? আমার সেরা অনুমান যে এটি গণনার সময় হ্রাস করার জন্য করা হয়েছে, অন্যথায় আমাদের প্রতিটি ক্রিয়ের জন্য Q মানটি খুঁজে বের করতে হবে এবং তারপরে সেরাটি নির্বাচন করতে হবে। এটাই কি একমাত্র কারণ? আমি কিছু অনুপস্থিত করছি?

reinforcement-learning q-learning dqn

— amitection
সূত্র

আমার সেরা অনুমান যে এটি গণনার সময় হ্রাস করার জন্য করা হয়েছে, অন্যথায় আমাদের প্রতিটি ক্রিয়ের জন্য Q মানটি খুঁজে বের করতে হবে এবং তারপরে সেরাটি নির্বাচন করতে হবে।

সামান্য বৃদ্ধি ব্যতীত (দুটি নেটওয়ার্কের অতিরিক্ত মেমোরির কারণে) গণনার সময় এর কোনও বাস্তব প্রভাব নেই। আমি মনে করি যে টার্গেট নেটওয়ার্কের ফলাফলগুলি আপনি ক্যাশে করতে পারেন , তবে এটি সম্ভবত বেশিরভাগ পরিবেশের পক্ষে উপযুক্ত হবে না এবং আমি এমন কোনও বাস্তবায়ন দেখিনি যা এটি করে।

আমি কিছু অনুপস্থিত করছি?

ফাংশন আনুমানিককরণ (যেমন নিউরাল নেটওয়ার্ক) ব্যবহার করার সময় কি-লার্নিং অ্যালগরিদমের স্থায়িত্ব নিয়ে কাজ করা। একটি পৃথক টার্গেট নেটওয়ার্ক ব্যবহার করে, সর্বশেষতম শিখে যাওয়া পরামিতিগুলির অনুলিপি সহ প্রতিটি বহু পদক্ষেপে আপডেট হওয়া, বুটস্ট্র্যাপিং থেকে সিস্টেমে সংখ্যাসূচকভাবে আধিপত্য বিস্তার থেকে রক্ষা পেতে সহায়তা করে, যার ফলে আনুমানিক Q মানগুলি বিচ্ছিন্ন হয়ে যায়।

ডেটা পয়েন্টগুলির একটিতে কল্পনা করুন (এ S, A, R, S') খারাপ হওয়ার জন্য বর্তমানে একটি অতিমাত্রায় অতিরিক্ত অনুমানের কারণ ঘটায় Q(S', A')। হতে পারে S', A'এমনকি এখনও পরিদর্শনও করা হয়নি, বা Rএ পর্যন্ত দেখা মূল্যমান যথাযথভাবে গড়ের চেয়ে বেশি। যদি (S,A)অভিজ্ঞতা পুনরায় খেলতে একাধিকবার ক্রপ করা একটি নমুনা হয় , তবে এটি প্রতিবারই আরও খারাপ হবে, কারণ আপডেটটি Q(S,A)ভিত্তিক R + max_a Q(S',a)। টার্গেট নেটওয়ার্কটি স্থির করে দেওয়া এই ধরনের অতিরিক্ত-অনুমানগুলি যে ক্ষতি করতে পারে তা সীমিত করে, শিখনের নেটওয়ার্কটিকে রূপান্তর করতে এবং এর প্রাথমিক পক্ষপাতিত্বের আরও অনেকগুলি হারাতে সময় দেয়।

এই ক্ষেত্রে, একটি পৃথক লক্ষ্য নেটওয়ার্ক ব্যবহারের পুনরায় খেলা অভিজ্ঞতা অর্জনের জন্য খুব অনুরূপ উদ্দেশ্য রয়েছে। এটি একটি অ্যালগরিদম স্থিতিশীল করে যা অন্যথায় রূপান্তর করতে সমস্যা হয়।

পৃথক সমস্যা সমাধানের জন্য "ডাবল লার্নিং" সহ ডিকিউএন থাকাও সম্ভব: ম্যাক্সিমাইজেশন পক্ষপাতিত্ব। সেক্ষেত্রে আপনি 4 টি নিউরাল নেটওয়ার্কের সাথে ডিকিউএন বাস্তবায়ন দেখতে পাবেন।

— নীল স্লেটার
সূত্র

অতিরিক্ত পড়ার জন্য, aaai.org/ocs/index.php/AAAI/AAAI16/paper/download/12389/11847

— অনুরাগ