আমি গুগলের ডিপমাইন্ড আতারি কাগজটি পড়ছি এবং আমি "অভিজ্ঞতার পুনরায় খেলা" ধারণাটি বোঝার চেষ্টা করছি। অভিজ্ঞতার পুনরায় খেলা আরও অনেক সংহতকরণ শেখার কাগজপত্র আসে (বিশেষত, আলফাগো পেপার), সুতরাং এটি কীভাবে কাজ করে তা আমি বুঝতে চাই। নীচে কিছু অংশ রয়েছে।
প্রথমত, আমরা একটি জৈবিকভাবে অনুপ্রাণিত মেকানিজমযুক্ত অভিজ্ঞতা ব্যবহার করি যা ডেটাটিকে এলোমেলো করে তোলে, যার ফলে পর্যবেক্ষণের ক্রম সম্পর্কিত পারস্পরিক সম্পর্ক সরিয়ে দেয় এবং ডেটা বিতরণে পরিবর্তনের বিষয়ে স্মুথ থাকে।
এরপরে কাগজটি বিস্তারিতভাবে বর্ণনা করেছে:
অন্যান্য স্থিতিশীল পদ্ধতিগুলি স্নায়ু সংযুক্তি শিখার সেটিং যেমন নিউরাল ফিটেড কিউ-ইট্রিটেশন প্রশিক্ষণের জন্য স্নায়বিক নেটওয়ার্কগুলির প্রশিক্ষণের জন্য বিদ্যমান, এই পদ্ধতিগুলি নেটওয়ার্ক ডি নভো শত শত পুনরাবৃত্তির পুনরাবৃত্তি প্রশিক্ষণ জড়িত । ফলস্বরূপ, আমাদের অ্যালগরিদমের বিপরীতে এই পদ্ধতিগুলি বড় নিউরাল নেটওয়ার্কগুলির সাথে সফলভাবে ব্যবহার করা যায় না ine আমরা একটি আনুমানিক মূল্য ফাংশন parameterize গুলো 1 দেখানো গভীর convolutional স্নায়ুর নেটওয়ার্ক, যা ব্যবহার করে। পুনরাবৃত্তির এ কিউ-নেটওয়ার্ক পরামিতি (যেমন, ওজন) আছে । অভিজ্ঞতা রিপ্লে কর্ম সঞ্চালন করার জন্য আমরা সঞ্চয় এজেন্টের অভিজ্ঞতা প্রতিটি সময়-পদক্ষেপ এD t = { e 1 , … , e t } ( s , a , r , s ′ ) ∼ U ( D ) iএকটি ডেটা সেটের । শেখার সময়, আমরা সঞ্চিত নমুনার পুল থেকে এলোমেলোভাবে আঁকা অভিজ্ঞতার নমুনাগুলিতে (বা মিনি-ব্যাচগুলি) কিউ-লার্নিং আপডেটগুলি প্রয়োগ করি । পুনরাবৃত্তির এ প্রশ্ন-লার্নিং আপডেট ব্যবহার নিম্নলিখিত ক্ষতি ফাংশন:
সাধারণ লোকদের শর্তে অভিজ্ঞতা পুনরায় প্লে কী এবং এর সুবিধা কী?