"অভিজ্ঞতা রিপ্লে" কী এবং এর সুবিধা কী?


19

আমি গুগলের ডিপমাইন্ড আতারি কাগজটি পড়ছি এবং আমি "অভিজ্ঞতার পুনরায় খেলা" ধারণাটি বোঝার চেষ্টা করছি। অভিজ্ঞতার পুনরায় খেলা আরও অনেক সংহতকরণ শেখার কাগজপত্র আসে (বিশেষত, আলফাগো পেপার), সুতরাং এটি কীভাবে কাজ করে তা আমি বুঝতে চাই। নীচে কিছু অংশ রয়েছে।

প্রথমত, আমরা একটি জৈবিকভাবে অনুপ্রাণিত মেকানিজমযুক্ত অভিজ্ঞতা ব্যবহার করি যা ডেটাটিকে এলোমেলো করে তোলে, যার ফলে পর্যবেক্ষণের ক্রম সম্পর্কিত পারস্পরিক সম্পর্ক সরিয়ে দেয় এবং ডেটা বিতরণে পরিবর্তনের বিষয়ে স্মুথ থাকে।

এরপরে কাগজটি বিস্তারিতভাবে বর্ণনা করেছে:

অন্যান্য স্থিতিশীল পদ্ধতিগুলি স্নায়ু সংযুক্তি শিখার সেটিং যেমন নিউরাল ফিটেড কিউ-ইট্রিটেশন প্রশিক্ষণের জন্য স্নায়বিক নেটওয়ার্কগুলির প্রশিক্ষণের জন্য বিদ্যমান, এই পদ্ধতিগুলি নেটওয়ার্ক ডি নভো শত শত পুনরাবৃত্তির পুনরাবৃত্তি প্রশিক্ষণ জড়িত । ফলস্বরূপ, আমাদের অ্যালগরিদমের বিপরীতে এই পদ্ধতিগুলি বড় নিউরাল নেটওয়ার্কগুলির সাথে সফলভাবে ব্যবহার করা যায় না ine আমরা একটি আনুমানিক মূল্য ফাংশন parameterize গুলো 1 দেখানো গভীর convolutional স্নায়ুর নেটওয়ার্ক, যা ব্যবহার করে। পুনরাবৃত্তির এ কিউ-নেটওয়ার্ক পরামিতি (যেমন, ওজন) আছে । অভিজ্ঞতা রিপ্লে কর্ম সঞ্চালন করার জন্য আমরা সঞ্চয় এজেন্টের অভিজ্ঞতা প্রতিটি সময়-পদক্ষেপ এপ্রশ্নঃ(গুলি,একটি;θআমি)θআমিআমিটি=(গুলিটি,একটিটি,Rটি,গুলিটি+ +1)টিD t = { e 1 , , e t } ( s , a , r , s ) U ( D ) iএকটি ডেটা সেটের । শেখার সময়, আমরা সঞ্চিত নমুনার পুল থেকে এলোমেলোভাবে আঁকা অভিজ্ঞতার নমুনাগুলিতে (বা মিনি-ব্যাচগুলি) কিউ-লার্নিং আপডেটগুলি প্রয়োগ করি । পুনরাবৃত্তির এ প্রশ্ন-লার্নিং আপডেট ব্যবহার নিম্নলিখিত ক্ষতি ফাংশন:ডিটি={1,...,টি}(গুলি,একটি,R,গুলি')~ইউ(ডি)আমি

এলআমি(θআমি)=(গুলি,একটি,R,গুলি')~ইউ(ডি)[(R+ +γসর্বোচ্চএকটি'প্রশ্নঃ(গুলি',একটি';θআমি-)-প্রশ্নঃ(গুলি,একটি;θআমি))2]

সাধারণ লোকদের শর্তে অভিজ্ঞতা পুনরায় প্লে কী এবং এর সুবিধা কী?

উত্তর:


25

উদ্ধৃত পাঠ্যের মূল অংশটি হ'ল:

অভিজ্ঞতা রিপ্লে সম্পাদন করতে আমরা এজেন্টের অভিজ্ঞতাগুলি টি=(গুলিটি,একটিটি,Rটি,গুলিটি+ +1)

এর অর্থ হল সিমুলেশন বা প্রকৃত অভিজ্ঞতা চলাকালীন রাষ্ট্র / অ্যাকশন জোড়াগুলিতে কিউ-লার্নিং চালানোর পরিবর্তে, সিস্টেমটি [রাষ্ট্র, ক্রিয়া, পুরষ্কার, পরের_স্তরের] জন্য অনুসন্ধান করা ডেটাগুলি সংরক্ষণ করে - সাধারণত একটি বড় টেবিলে। নোট করুন এটি সম্পর্কিত মানগুলি সংরক্ষণ করে না - এটি পরে অ্যাকশন-মান গণনায় ফিড দেওয়ার কাঁচা ডেটা।

এরপরে শেখার পর্বটি যৌক্তিকভাবে অভিজ্ঞতা অর্জন থেকে আলাদা এবং এই টেবিল থেকে এলোমেলো নমুনা নেওয়ার উপর ভিত্তি করে। অভিনয় এবং শেখার - আপনি এখনও দুটি প্রক্রিয়াটি আন্তঃলিখন করতে চান কারণ নীতিটি উন্নতি করা বিভিন্ন আচরণের দিকে পরিচালিত করবে যা সর্বোত্তমগুলির সাথে ক্রিয়াগুলি অন্বেষণ করা উচিত এবং আপনি সেগুলি থেকে শিখতে চান। যাইহোক, আপনি নিজের পছন্দ মতো এটি ভাগ করতে পারেন - উদাহরণস্বরূপ এক পদক্ষেপ গ্রহণ করুন, তিনটি এলোমেলো পূর্ববর্তী পদক্ষেপগুলি থেকে শিখুন experience প্রশ্ন পুনর্নির্দেশের অভিজ্ঞতাগুলি পুনরায় খেলতে গিয়ে লক্ষ্যগুলি অনলাইন সংস্করণের মতো একই লক্ষ্যগুলি ব্যবহার করে, সুতরাং এর জন্য কোনও নতুন সূত্র নেই। প্রদত্ত ক্ষতির সূত্রটিও আপনি ডিপিউএন এর জন্য অভিজ্ঞতা পুনরায় খেলুন ছাড়াই ব্যবহার করবেন। পার্থক্যটি কেবলমাত্র যেগুলি , এ, আর, এস ',' এ 'আপনি খাওয়ান।

ডিকিউএন-তে, ডিপমাইন্ড টিম দুটি নেটওয়ার্কও বজায় রেখেছিল এবং কোনটি শিখছে এবং কোনটি "বুটস্ট্র্যাপস" হিসাবে বর্তমান ক্রিয়াকলাপের অনুমান হিসাবে খাওয়ায় তা স্যুইচ করেছে। এটি কোনও অ-রৈখিক ফাংশন আনুষঙ্গিক ব্যবহার করার সময় অ্যালগরিদমের স্থিতিশীলতায় সহায়তা করে। বারটি বোঝায় - এটি ওজনের বিকল্প হিমায়িত সংস্করণকে বোঝায় ।θআমি ¯

অভিজ্ঞতা রিপ্লে সুবিধা:

  • এর সাথে একাধিকবার শিখিয়ে পূর্ববর্তী অভিজ্ঞতার আরও দক্ষ ব্যবহার। বাস্তব-অভিজ্ঞতার অভিজ্ঞতা অর্জন করা ব্যয়বহুল হলে এটি মূল বিষয়, আপনি এটির পুরো ব্যবহার পেতে পারেন। কিউ-লার্নিং আপডেটগুলি বর্ধনশীল এবং দ্রুত রূপান্তরিত হয় না, তাই একই ডেটার সাথে একাধিক পাসগুলি উপকারী, বিশেষত যখন একই রাজ্যকে দেওয়া তাত্ক্ষণিক ফলাফলগুলিতে (পুরষ্কার, পরবর্তী রাজ্য) কম পার্থক্য থাকে।

  • একটি ফাংশন আনুমানিকর প্রশিক্ষণ দেওয়ার সময় আরও ভাল কনভার্জেনশন আচরণ। আংশিকভাবে এটি হ'ল বেশিরভাগ তত্ত্বাবধানে শেখা কনভার্জেনশন প্রুফগুলিতে ডেটা ধরে নেওয়া আইআইডি ডেটার মতোই ।

অভিজ্ঞতার পুনরায় খেলতে অসুবিধা:

  • বহু-পদক্ষেপের শিখার অ্যালগরিদম, যেমন কিউ ( ) ব্যবহার করা শক্ত , যা পক্ষপাত (বুটস্ট্র্যাপিংয়ের কারণে) এবং বৈকল্পিক (দীর্ঘমেয়াদী ফলাফলের ক্ষেত্রে বিলম্ব এবং এলোমেলোতার কারণে) এর মধ্যে ভারসাম্য বজায় রেখে আরও ভাল শিখনের বক্ররেখা দিতে সক্ষম হতে পারে )। অভিজ্ঞতা-রিপ্লে সহ মাল্টি-স্টেপ ডিকিউএন কাগজটিতে অন্বেষণ করা এক্সটেনশানগুলির মধ্যে একটি রেইনবো: ডিপ রেইনফোর্সমেন্ট লার্নিংয়ের উন্নতির সংমিশ্রণλ

ডিকিউএন-তে ব্যবহৃত পদ্ধতির ডেভিড সিলভার এই ভিডিও লেকচারের কিছু অংশে সংক্ষিপ্তভাবে রূপরেখা দিয়েছিল (প্রায় 01:17:00, তবে এর আগে বিভাগগুলি দেখার পক্ষে মূল্যবান)। আমি আপনার কাছে সময় পেলে পুরো সিরিজটি দেখার, যা রিইনফোর্সমেন্ট শেখার উপর স্নাতক স্তরের কোর্স watching


প্রশিক্ষণ চলাকালীন বলি আমরা এক রাজ্যে আছি এবং আমরা অ্যাপসিলন-লোভী নীতি অনুসারে একটি পদক্ষেপ নিই এবং আপনি অন্য একটি রাজ্যে শেষ হন। সুতরাং আপনি পুরষ্কার এবং পরবর্তী রাষ্ট্র পেতে। এখানে পুরষ্কারটি গেমের স্কোর হতে পারে এবং রাজ্যগুলি পর্দার পিক্সেল নিদর্শন হতে পারে। এবং তারপরে আমরা ইতিমধ্যে হিমায়িত ফাংশন আনুষঙ্গিক ব্যবহার করে আমাদের ফাংশন এপ্রোক্সিমেটর এবং লোভী নীতি থেকে আমরা যে মূল্য পেয়েছিলাম তার মধ্যে ত্রুটি নিই। তবে অভিজ্ঞতা পুনরায় খেলুনের সাথে আনুমানিকর অনুকূলকরণের সময় আমরা কিছু এলোমেলো রাষ্ট্রের ক্রিয়া ডেটা সেট গ্রহণ করি take আমি কি সঠিক ?
শামনে সিরীবর্ধান

1
@ শামনেসিরিওয়ার্দনা: হ্যাঁ আমি মনে করি আপনি ঠিক বলেছেন। এটি আসল ট্র্যাজেক্টোরি থেকে হুবহু একই ডেটা, তবে কেবল সাম্প্রতিক পদক্ষেপটি থেকে শিখার পরিবর্তে আপনি এটিকে একটি বড় টেবিল এবং সেই টেবিল থেকে নমুনা (সাধারণত একাধিক নমুনা, বাছাই করার জন্য পূর্ববর্তী ধাপগুলির মধ্যে একটি অংশ সহ সংরক্ষণ করুন) )। আপনার যদি আরও স্পষ্টতার প্রয়োজন হয় তবে সম্ভবত সাইটে কোনও প্রশ্ন জিজ্ঞাসা করুন।
নিল স্লেটার 21

হ্যাঁ আমি আবার কাগজটি দিয়ে গেলাম। এটি আরও বলেছে যে এই পদ্ধতিটি অফ পলিসি শিখনকেও উন্নত করতে পারে। কারণ এপিসিলন-লোভী নীতি অনুসারে আইন সহ কিউ লার্নিংয়ে কিন্তু লোভী নীতি অনুযায়ী মানগুলি ফাংশন আপডেট করে। সুতরাং প্রতিবার পদক্ষেপ নেওয়ার সময় যখন আমাদের নিউরাল নেট প্যারামিটারগুলি মিনি ব্যাচের পরিসংখ্যান দ্বারা আপডেট হয় যা আরও গুরুত্বপূর্ণভাবে সঠিক সময়ের ধাপের পরিসংখ্যানের সাথে সম্পর্কিত নয় তবে এর আগে যা ঘটেছিল তাও ডেটা অনিয়ন্ত্রিত হতে সহায়তা করে।
শমনে সিরীবর্ধান

@ নীল স্লেটার, আমি রেইনবো কাগজটি পেরিয়েছি এবং অভিজ্ঞতার পুনরায় খেলানো এবং মাল্টি-স্টেপ পদ্ধতির সমন্বয়ের জন্য বিশেষ কৌশলটি ব্যবহার করার বিষয়ে আমি কোনও বিশেষ মন্তব্য দেখতে পাইনি। এছাড়াও আমি শুনেছি যে মাল্টি-স্টেপ পদ্ধতিটি অভিজ্ঞতার পুনরায় খেলার সাথে একত্রিত করা অসম্ভব তবে কেন কেবল এলোমেলোভাবে অভিজ্ঞতা রিপ্লে থেকে 1 এর পরিবর্তে এন-টানা অভিজ্ঞতা বাছাই করে না তবে প্রতিটি এন-অভিজ্ঞতার মধ্যে কোনও সম্পর্ক খুঁজে পাওয়া যায় না? এই মাল্টি-স্টেপ এক্সপেরিয়েন্স কি না?
StL

@ নীলস্লাটার কেন "মাল্টি-স্টেপ লার্নিং অ্যালগরিদম ব্যবহার করা শক্ত"? আপনি কি বুঝাতে চাচ্ছিলেন?
গুলজার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.