কেন DQN দুটি পৃথক নেটওয়ার্কের প্রয়োজন?


12

আমি ডিকিউএন এর এই বাস্তবায়নটি দিয়ে যাচ্ছিলাম এবং আমি দেখতে পাচ্ছি যে 124 এবং 125 লাইনে দুটি পৃথক কিউ নেটওয়ার্ক চালু করা হয়েছে। আমার বোধগম্যতা থেকে, আমি মনে করি একটি নেটওয়ার্ক উপযুক্ত ক্রিয়াটির পূর্বাভাস দেয় এবং দ্বিতীয় নেটওয়ার্কটি বেলম্যান ত্রুটি সন্ধানের জন্য লক্ষ্য Q এর মানগুলির পূর্বাভাস দেয়।

কেন আমরা কেবল একটি একক নেটওয়ার্ক তৈরি করতে পারি না যা কেবলমাত্র Q মানটির পূর্বাভাস দেয় এবং উভয় ক্ষেত্রেই এটি ব্যবহার করতে পারে? আমার সেরা অনুমান যে এটি গণনার সময় হ্রাস করার জন্য করা হয়েছে, অন্যথায় আমাদের প্রতিটি ক্রিয়ের জন্য Q মানটি খুঁজে বের করতে হবে এবং তারপরে সেরাটি নির্বাচন করতে হবে। এটাই কি একমাত্র কারণ? আমি কিছু অনুপস্থিত করছি?

উত্তর:


9

আমার সেরা অনুমান যে এটি গণনার সময় হ্রাস করার জন্য করা হয়েছে, অন্যথায় আমাদের প্রতিটি ক্রিয়ের জন্য Q মানটি খুঁজে বের করতে হবে এবং তারপরে সেরাটি নির্বাচন করতে হবে।

সামান্য বৃদ্ধি ব্যতীত (দুটি নেটওয়ার্কের অতিরিক্ত মেমোরির কারণে) গণনার সময় এর কোনও বাস্তব প্রভাব নেই। আমি মনে করি যে টার্গেট নেটওয়ার্কের ফলাফলগুলি আপনি ক্যাশে করতে পারেন , তবে এটি সম্ভবত বেশিরভাগ পরিবেশের পক্ষে উপযুক্ত হবে না এবং আমি এমন কোনও বাস্তবায়ন দেখিনি যা এটি করে।

আমি কিছু অনুপস্থিত করছি?

ফাংশন আনুমানিককরণ (যেমন নিউরাল নেটওয়ার্ক) ব্যবহার করার সময় কি-লার্নিং অ্যালগরিদমের স্থায়িত্ব নিয়ে কাজ করা। একটি পৃথক টার্গেট নেটওয়ার্ক ব্যবহার করে, সর্বশেষতম শিখে যাওয়া পরামিতিগুলির অনুলিপি সহ প্রতিটি বহু পদক্ষেপে আপডেট হওয়া, বুটস্ট্র্যাপিং থেকে সিস্টেমে সংখ্যাসূচকভাবে আধিপত্য বিস্তার থেকে রক্ষা পেতে সহায়তা করে, যার ফলে আনুমানিক Q মানগুলি বিচ্ছিন্ন হয়ে যায়।

ডেটা পয়েন্টগুলির একটিতে কল্পনা করুন (এ S, A, R, S') খারাপ হওয়ার জন্য বর্তমানে একটি অতিমাত্রায় অতিরিক্ত অনুমানের কারণ ঘটায় Q(S', A')। হতে পারে S', A'এমনকি এখনও পরিদর্শনও করা হয়নি, বা Rএ পর্যন্ত দেখা মূল্যমান যথাযথভাবে গড়ের চেয়ে বেশি। যদি (S,A)অভিজ্ঞতা পুনরায় খেলতে একাধিকবার ক্রপ করা একটি নমুনা হয় , তবে এটি প্রতিবারই আরও খারাপ হবে, কারণ আপডেটটি Q(S,A)ভিত্তিক R + max_a Q(S',a)। টার্গেট নেটওয়ার্কটি স্থির করে দেওয়া এই ধরনের অতিরিক্ত-অনুমানগুলি যে ক্ষতি করতে পারে তা সীমিত করে, শিখনের নেটওয়ার্কটিকে রূপান্তর করতে এবং এর প্রাথমিক পক্ষপাতিত্বের আরও অনেকগুলি হারাতে সময় দেয়।

এই ক্ষেত্রে, একটি পৃথক লক্ষ্য নেটওয়ার্ক ব্যবহারের পুনরায় খেলা অভিজ্ঞতা অর্জনের জন্য খুব অনুরূপ উদ্দেশ্য রয়েছে। এটি একটি অ্যালগরিদম স্থিতিশীল করে যা অন্যথায় রূপান্তর করতে সমস্যা হয়।

পৃথক সমস্যা সমাধানের জন্য "ডাবল লার্নিং" সহ ডিকিউএন থাকাও সম্ভব: ম্যাক্সিমাইজেশন পক্ষপাতিত্ব। সেক্ষেত্রে আপনি 4 টি নিউরাল নেটওয়ার্কের সাথে ডিকিউএন বাস্তবায়ন দেখতে পাবেন।


অতিরিক্ত পড়ার জন্য, aaai.org/ocs/index.php/AAAI/AAAI16/paper/download/12389/11847
অনুরাগ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.