একাধিক ক্রমাগত ক্রিয়াকলাপের ক্ষেত্রে নীতি গ্রেডিয়েন্টগুলি কীভাবে প্রয়োগ করা যেতে পারে?

বিশ্বস্ত অঞ্চল নীতি অপ্টিমাইজেশন (টিআরপিও) এবং প্রক্সিমাল পলিসি অপটিমাইজেশন (পিপিও) হ'ল দুটি কাটিয়া প্রান্ত পলিসি গ্রেডিয়েন্ট অ্যালগরিদম।

একটি একক ক্রমাগত ক্রিয়া ব্যবহার করার সময়, সাধারণত, আপনি ক্ষতির জন্য কিছু সম্ভাবনা বন্টন (উদাহরণস্বরূপ, গাউসিয়ান) ব্যবহার করবেন। রুক্ষ সংস্করণটি হ'ল:

L (θ) = \log (P (a_{1})) A,

$L(\theta) = \log(P(a_1)) A,$

কোথায় $A$ পুরষ্কার সুবিধা, $P(a_1)$ দ্বারা চিহ্নিত করা $\mu$ এবং $\sigma^2$ এটি পেন্ডুলাম পরিবেশের মতো স্নায়বিক নেটওয়ার্ক থেকে বেরিয়ে আসে: https://github.com/leomzhong/DeepReinformentLearningCourse/blob/69e573cd88faec7e9cf900da8eeef08c57dec0f0/hw4/main.py ।

সমস্যাটি হ'ল আমি নীতি গ্রেডিয়েন্টগুলি ব্যবহার করে 2+ অবিচ্ছিন্ন ক্রিয়াকলাপগুলিতে কোনও কাগজ পাই না (কিউ-ফাংশন থেকে গ্রেডিয়েন্ট স্থানান্তরিত করে ভিন্ন পদ্ধতির ব্যবহারকারী অভিনেতা-সমালোচক পদ্ধতি নয়)।

লুনারল্যান্ডার পরিবেশে 2 টি ক্রমাগত ক্রিয়াকলাপের জন্য টিআরপিও ব্যবহার করে এটি কীভাবে করবেন তা আপনি জানেন ?

নীচের পদ্ধতির নীতি গ্রেডিয়েন্ট ক্ষতির জন্য সঠিক?

L (θ) = (\log P (a_{)} + \log P (a_{2})) * A

$L(\theta) = (\log P(a_) + \log P(a_2) )*A$

deep-learning reinforcement-learning trpo

— ইভাল্ডস আর্টানস
সূত্র

যেমনটি আপনি বলেছেন, অভিনেতা-সমালোচকদের দ্বারা নির্বাচিত ক্রিয়াগুলি সাধারণত একটি সাধারণ বিতরণ থেকে আসে এবং বর্তমান অবস্থার উপর ভিত্তি করে উপযুক্ত গড় এবং মানক বিচ্যুতি সন্ধান করা এজেন্টের কাজ। অনেক ক্ষেত্রে এই এক বিতরণই যথেষ্ট কারণ কেবলমাত্র 1 টি ক্রমাগত ব্যবস্থা প্রয়োজন। তবে, যেমন রোবোটিক্সের মতো ডোমেনগুলি এআইয়ের সাথে আরও সংহত হয়, এমন পরিস্থিতিতে যেখানে 2 বা ততোধিক ক্রমাগত ক্রিয়াকলাপের প্রয়োজন হয় সেগুলি ক্রমবর্ধমান সমস্যা।

এই সমস্যার 2 টি সমাধান রয়েছে: প্রথম এবং সর্বাধিক সাধারণ প্রতিটি ক্রমাগত ক্রিয়াকলাপের জন্য পৃথক এজেন্ট রয়েছে যার নিজস্ব 1-মাত্রিক গড় এবং মানক বিচ্যুতি শিখছে। এর রাজ্যটির কিছু অংশে অন্যান্য এজেন্টদের ক্রিয়াকলাপের পাশাপাশি পুরো সিস্টেমটি কী করছে তার প্রসঙ্গটিও অন্তর্ভুক্ত রয়েছে। আমরা সাধারণত আমার ল্যাবটিতে এটি করি এবং এখানে একটি কাগজ রয়েছে যা এই পদ্ধতির বর্ণনা দেয় 3 অভিনেতা-সমালোচক এজেন্টদের সাথে রোবোটিক বাহুতে সরানোর জন্য একসাথে কাজ করে।

দ্বিতীয় পদ্ধতির মধ্যে কোনও এজেন্ট হ'ল নীতিমালার মাল্টিভারিয়েট (সাধারণত স্বাভাবিক) বিতরণ পাওয়া যায়। যদিও তাত্ত্বিক ক্ষেত্রে, এই পদ্ধতির কো-ভেরিয়েন্স ম্যাট্রিক্সের উপর ভিত্তি করে বিতরণ "আবর্তন" করে আরও সংক্ষিপ্ত নীতি বিতরণ হতে পারে, এর অর্থ হ'ল কো-ভেরিয়েন্স ম্যাট্রিক্সের সমস্ত মানও শিখতে হবে। এটি থাকা মানগুলির সংখ্যা বাড়িয়ে তোলে must $n$ থেকে ক্রমাগত আউটপুট $2n$ (গড় এবং stddev), থেকে $n+n^2$ ( $n$ অর্থ এবং একটি $n \times n$ সহভেদাংক ম্যাট্রিক্স). এই অপূর্ণতা এই পদ্ধতির সাহিত্যে তেমন জনপ্রিয় নয়।

এটি একটি আরও সাধারণ উত্তর তবে আপনার ও অন্যান্যদের তাদের সম্পর্কিত সমস্যার বিষয়ে সহায়তা করা উচিত।

— জাদেন ট্রাভনিক
সূত্র

জাদেন দুর্দান্ত উত্তরের জন্য ধন্যবাদ। 1. আমি বহু-এজেন্ট আর্কিটেকচার চেষ্টা করেছি, তবে এটি খুব দক্ষ নয়। একত্রিত হতে অনেক বেশি সময় নেয়। ২. এখন মাল্টিভারিয়েট বিতরণ আমার কাছেও সুস্পষ্ট বলে মনে হচ্ছে, আপনাকে ধন্যবাদ।

— ইভাল্ডস আর্টানস

অ্যাপ্লিকেশন এবং আর্কিটেকচারের উপর নির্ভর করে (এটি যদি গভীর নেট হয়) তবে আপনি এজেন্টগুলি নিম্ন স্তরের বৈশিষ্ট্যগুলি ভাগ করে নিতে পারেন এবং তারপরে তাদের নিজস্ব মান ফাংশনগুলিতে শাখা বন্ধ করতে পারেন। অতিরিক্তভাবে, 1 টি সমালোচক এবং একাধিক অভিনেতা থাকাও আর্কিটেকচার বাড়ানোর একটি উপায়।

— জ্যাডেন Travnik

এই মুহুর্তে আমি অভিনেতা-সমালোচক নয়, টিআরপিওতে কেবলমাত্র আপনার পরামর্শগুলি প্রয়োগ করতে চাই (কেবল নীতিগত গ্রেডিয়েন্ট পদ্ধতি)। আমি সমালোচক থেকে অভিনেতা পর্যন্ত গ্রেডিয়েন্ট স্থানান্তর সম্পর্কে খুব আত্মবিশ্বাসী নই - অনেকগুলি বাস্তবায়নে আমি দেখেছি দেখে মনে হচ্ছে এটি রূপান্তরিত হলেও এটি কাজ করা উচিত নয়।

— ইভাল্ডস আর্টানস

এই নুব প্রশ্নের জন্য দুঃখিত: অভিনেতা-সমালোচক পদ্ধতিগুলিতে এটি কীভাবে প্রয়োগ করা হয় (যেখানে অভিনেতা একাধিক একযোগে ক্রমাগত ক্রিয়া সম্পাদন করতে পারেন), যেখানে অভিনেতার নীতিগত কার্য থাকে এবং নীতি গ্রেডিয়েন্ট পদ্ধতি দ্বারা প্রশিক্ষিত হন? @ জাদেনট্রাভনিক আপনি কি উত্তরটিতে এটি একটি নতুন শিরোনামে ব্যাখ্যা করতে পারবেন?

— গোকুল এনসি