একাধিক ক্রমাগত ক্রিয়াকলাপের ক্ষেত্রে নীতি গ্রেডিয়েন্টগুলি কীভাবে প্রয়োগ করা যেতে পারে?


11

বিশ্বস্ত অঞ্চল নীতি অপ্টিমাইজেশন (টিআরপিও) এবং প্রক্সিমাল পলিসি অপটিমাইজেশন (পিপিও) হ'ল দুটি কাটিয়া প্রান্ত পলিসি গ্রেডিয়েন্ট অ্যালগরিদম।

একটি একক ক্রমাগত ক্রিয়া ব্যবহার করার সময়, সাধারণত, আপনি ক্ষতির জন্য কিছু সম্ভাবনা বন্টন (উদাহরণস্বরূপ, গাউসিয়ান) ব্যবহার করবেন। রুক্ষ সংস্করণটি হ'ল:

L(θ)=log(P(a1))A,

কোথায় A পুরষ্কার সুবিধা, P(a1) দ্বারা চিহ্নিত করা μ এবং σ2এটি পেন্ডুলাম পরিবেশের মতো স্নায়বিক নেটওয়ার্ক থেকে বেরিয়ে আসে: https://github.com/leomzhong/DeepReinformentLearningCourse/blob/69e573cd88faec7e9cf900da8eeef08c57dec0f0/hw4/main.py

সমস্যাটি হ'ল আমি নীতি গ্রেডিয়েন্টগুলি ব্যবহার করে 2+ অবিচ্ছিন্ন ক্রিয়াকলাপগুলিতে কোনও কাগজ পাই না (কিউ-ফাংশন থেকে গ্রেডিয়েন্ট স্থানান্তরিত করে ভিন্ন পদ্ধতির ব্যবহারকারী অভিনেতা-সমালোচক পদ্ধতি নয়)।

লুনারল্যান্ডার পরিবেশে 2 টি ক্রমাগত ক্রিয়াকলাপের জন্য টিআরপিও ব্যবহার করে এটি কীভাবে করবেন তা আপনি জানেন ?

নীচের পদ্ধতির নীতি গ্রেডিয়েন্ট ক্ষতির জন্য সঠিক?

L(θ)=(logP(a)+logP(a2))A

উত্তর:


6

যেমনটি আপনি বলেছেন, অভিনেতা-সমালোচকদের দ্বারা নির্বাচিত ক্রিয়াগুলি সাধারণত একটি সাধারণ বিতরণ থেকে আসে এবং বর্তমান অবস্থার উপর ভিত্তি করে উপযুক্ত গড় এবং মানক বিচ্যুতি সন্ধান করা এজেন্টের কাজ। অনেক ক্ষেত্রে এই এক বিতরণই যথেষ্ট কারণ কেবলমাত্র 1 টি ক্রমাগত ব্যবস্থা প্রয়োজন। তবে, যেমন রোবোটিক্সের মতো ডোমেনগুলি এআইয়ের সাথে আরও সংহত হয়, এমন পরিস্থিতিতে যেখানে 2 বা ততোধিক ক্রমাগত ক্রিয়াকলাপের প্রয়োজন হয় সেগুলি ক্রমবর্ধমান সমস্যা।

এই সমস্যার 2 টি সমাধান রয়েছে: প্রথম এবং সর্বাধিক সাধারণ প্রতিটি ক্রমাগত ক্রিয়াকলাপের জন্য পৃথক এজেন্ট রয়েছে যার নিজস্ব 1-মাত্রিক গড় এবং মানক বিচ্যুতি শিখছে। এর রাজ্যটির কিছু অংশে অন্যান্য এজেন্টদের ক্রিয়াকলাপের পাশাপাশি পুরো সিস্টেমটি কী করছে তার প্রসঙ্গটিও অন্তর্ভুক্ত রয়েছে। আমরা সাধারণত আমার ল্যাবটিতে এটি করি এবং এখানে একটি কাগজ রয়েছে যা এই পদ্ধতির বর্ণনা দেয় 3 অভিনেতা-সমালোচক এজেন্টদের সাথে রোবোটিক বাহুতে সরানোর জন্য একসাথে কাজ করে।

দ্বিতীয় পদ্ধতির মধ্যে কোনও এজেন্ট হ'ল নীতিমালার মাল্টিভারিয়েট (সাধারণত স্বাভাবিক) বিতরণ পাওয়া যায়। যদিও তাত্ত্বিক ক্ষেত্রে, এই পদ্ধতির কো-ভেরিয়েন্স ম্যাট্রিক্সের উপর ভিত্তি করে বিতরণ "আবর্তন" করে আরও সংক্ষিপ্ত নীতি বিতরণ হতে পারে, এর অর্থ হ'ল কো-ভেরিয়েন্স ম্যাট্রিক্সের সমস্ত মানও শিখতে হবে। এটি থাকা মানগুলির সংখ্যা বাড়িয়ে তোলে mustn থেকে ক্রমাগত আউটপুট 2n (গড় এবং stddev), থেকে n+n2 (n অর্থ এবং একটি n×nসহভেদাংক ম্যাট্রিক্স). এই অপূর্ণতা এই পদ্ধতির সাহিত্যে তেমন জনপ্রিয় নয়।

এটি একটি আরও সাধারণ উত্তর তবে আপনার ও অন্যান্যদের তাদের সম্পর্কিত সমস্যার বিষয়ে সহায়তা করা উচিত।


1
জাদেন দুর্দান্ত উত্তরের জন্য ধন্যবাদ। 1. আমি বহু-এজেন্ট আর্কিটেকচার চেষ্টা করেছি, তবে এটি খুব দক্ষ নয়। একত্রিত হতে অনেক বেশি সময় নেয়। ২. এখন মাল্টিভারিয়েট বিতরণ আমার কাছেও সুস্পষ্ট বলে মনে হচ্ছে, আপনাকে ধন্যবাদ।
ইভাল্ডস আর্টানস

1
অ্যাপ্লিকেশন এবং আর্কিটেকচারের উপর নির্ভর করে (এটি যদি গভীর নেট হয়) তবে আপনি এজেন্টগুলি নিম্ন স্তরের বৈশিষ্ট্যগুলি ভাগ করে নিতে পারেন এবং তারপরে তাদের নিজস্ব মান ফাংশনগুলিতে শাখা বন্ধ করতে পারেন। অতিরিক্তভাবে, 1 টি সমালোচক এবং একাধিক অভিনেতা থাকাও আর্কিটেকচার বাড়ানোর একটি উপায়।
জ্যাডেন Travnik

এই মুহুর্তে আমি অভিনেতা-সমালোচক নয়, টিআরপিওতে কেবলমাত্র আপনার পরামর্শগুলি প্রয়োগ করতে চাই (কেবল নীতিগত গ্রেডিয়েন্ট পদ্ধতি)। আমি সমালোচক থেকে অভিনেতা পর্যন্ত গ্রেডিয়েন্ট স্থানান্তর সম্পর্কে খুব আত্মবিশ্বাসী নই - অনেকগুলি বাস্তবায়নে আমি দেখেছি দেখে মনে হচ্ছে এটি রূপান্তরিত হলেও এটি কাজ করা উচিত নয়।
ইভাল্ডস আর্টানস

1
এই নুব প্রশ্নের জন্য দুঃখিত: অভিনেতা-সমালোচক পদ্ধতিগুলিতে এটি কীভাবে প্রয়োগ করা হয় (যেখানে অভিনেতা একাধিক একযোগে ক্রমাগত ক্রিয়া সম্পাদন করতে পারেন), যেখানে অভিনেতার নীতিগত কার্য থাকে এবং নীতি গ্রেডিয়েন্ট পদ্ধতি দ্বারা প্রশিক্ষিত হন? @ জাদেনট্রাভনিক আপনি কি উত্তরটিতে এটি একটি নতুন শিরোনামে ব্যাখ্যা করতে পারবেন?
গোকুল এনসি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.