নীতি পুনরাবৃত্তির অ্যালগরিদম কেন সর্বোত্তম নীতি এবং মান ফাংশনে রূপান্তর করে?


10

আমি পুনর্বহাল শেখার বিষয়ে অ্যান্ড্রু এনগের বক্তৃতা নোটগুলি পড়ছিলাম এবং আমি কেন নীতির পুনরাবৃত্তিকে সর্বোত্তম মান ফাংশনে রূপান্তরিত করে তা বোঝার চেষ্টা করছিলামV এবং সর্বোত্তম নীতি π

পুনরুদ্ধার নীতি পুনরাবৃত্তি হ'ল:

Initialize π randomlyRepeat{Let V:=Vπ \for the current policy, solve bellman's eqn's and set that to the current VLet π(s):=argmaxaAsPsa(s)V(s)}

লোভী-অ্যালগোরিদম কেন সর্বোত্তম নীতি এবং সর্বোত্তম মান ফাংশন নিয়ে যায়? (আমি জানি লোভী অ্যালগরিদম সর্বদা গ্যারান্টি দেয় না, বা স্থানীয় অপটিমায় আটকে যেতে পারে, তাই আমি কেবল এটির অ্যালগরিদমের অনুকূলতার জন্য একটি প্রমাণ দেখতে চাই)।

এছাড়াও, আমার কাছে মনে হয় যে নীতি পুনরাবৃত্তি ক্লাস্টারিং বা গ্রেডিয়েন্ট বংশোদ্ভূত হওয়ার মতো কিছু। ক্লাস্টারিংয়ের জন্য, কারণ প্যারামিটারগুলির বর্তমান সেটিংয়ের সাথে আমরা অনুকূলিত। গ্রেডিয়েন্ট বংশোদ্ভূত অনুরূপ কারণ এটি কেবল কিছু মান চয়ন করে যা কিছু ফাংশন বাড়িয়ে তোলে বলে মনে হয়। এই দুটি পদ্ধতি সর্বদা অনুকূল ম্যাক্সিমায় রূপান্তরিত করে না এবং আমি বোঝার চেষ্টা করছিলাম যে এই অ্যালগরিদমটি আমি উল্লিখিত পূর্বেরগুলির চেয়ে কী আলাদা ছিল।


এগুলি এখন পর্যন্ত আমার ধারণা:

বলুন যে আমরা কিছু নীতি দিয়ে শুরু করি π1, তারপরে প্রথম পদক্ষেপের পরে, সেই স্থির নীতিটির জন্য আমাদের তা রয়েছে:

Vπ1(s)=R(s)+γsPsπ1(s)(s)Vπ1(s)

V(1):=Vπ1(s)

যেখানে ভি ^ {(1)} হ'ল প্রথম পুনরাবৃত্তির মান ফাংশন। তারপরে দ্বিতীয় ধাপের পরে আমরা কিছু নতুন নীতি বেছে নিইπ2 এর মান বাড়াতে Vπ1(s)। এখন, নতুন নীতি নিয়েπ2, আমরা যদি অ্যালগরিদমের দ্বিতীয় ধাপটি করি তবে নিম্নলিখিত অসমতাটি সত্য:

R(s)+γsPsπ1(s)(s)Vπ1(s)R(s)+γsPsπ2(s)(s)Vπ1(s)

কারণ আমরা বেছে নিই π2 পূর্ববর্তী ধাপে মান ফাংশন বাড়ানোর জন্য দ্বিতীয় ধাপে (অর্থাত্ উন্নতি করা V(1)। এখনও পর্যন্ত, এটি পরিষ্কার যে নির্বাচনπ2 কেবলমাত্র ভি ^ {(1) increase বৃদ্ধি করতে পারে, কারণ আমরা কীভাবে বেছে নেব তা স্থির করে π2। যাইহোক, আমার বিভ্রান্তি পুনরাবৃত্তি পদক্ষেপে আসে কারণ আমরা একবার পুনরায় পুনরায় গণনা করি কারণ আমরা একবার পুনরাবৃত্তি করি এবং 1 ধাপে ফিরে যাই আমরা আসলে জিনিসগুলিকে পুরোপুরি পরিবর্তন করি weV2 নতুন নীতিমালা জন্য π2। যা দেয়:

Vπ2(s)=R(s)+γsPsπ2(s)(s)Vπ2(s)

তবে এটি নয়:

Vπ1(s)=R(s)+γsPsπ2(s)(s)Vπ1(s)

যা সমস্যা বলে মনে হচ্ছে কারণ π2 উন্নতির জন্য বেছে নেওয়া হয়েছিল V(1), এবং এই নতুন না Vπ2। মূলত সমস্যাটি হ'লpi2 উন্নতির গ্যারান্টি দেয় R(s)+γsPsπ1(s)(s)Vπ1(s) করেছে π2 পরিবর্তে pi1 যখন মান ফাংশন হয় Vπ1। কিন্তু পুনরাবৃত্তি পদক্ষেপে আমরা পরিবর্তনVπ1 প্রতি Vπ2, তবে আমি দেখতে পাচ্ছি না যে এটি কীভাবে গ্যারান্টি দেয় যে প্রতিটি পুনরাবৃত্তিতে মান ফাংশন একঘেয়েভাবে উন্নত হয় কারণ কারণ π2 মান ফাংশনটি যখন থাকে তখন মান ফাংশনটি উন্নত করতে গণনা করা হয় Vπ1তবে 1 ধাপে পরিবর্তন Vπ1 প্রতি Vπ2 (যা খারাপ কারণ আমি π2 কেবলমাত্র আমাদের পূর্ববর্তী মান ফাংশনটি উন্নত করে)।


1
কেবল একটি নোট: লোভী বোঝায় না যে একটি অ্যালগরিদম সাধারণভাবে একটি অনুকূল সমাধান খুঁজে পাবে না।
রেজেন্সচেইন

1
মান পুনরাবৃত্তি হ'ল লোভী না হয়ে ডায়নামিক প্রোগ্রামিং অ্যালগরিদম। দুজনের মধ্যে কিছু মিল রয়েছে তবে পার্থক্য রয়েছে। কটাক্ষপাত stackoverflow.com/questions/13713572/...
ফ্র্যাঙ্কোসার

@ ফ্র্যাঙ্কোয়েসার আমাকে কখনও তা বলেননি। সম্ভবত এটি কেন আমার (রহস্যজনকভাবে) রহস্যজনক ছিল ts আমি খুব ভাল করে ডিপি জানি। ধন্যবাদ যদিও! :)
Pinocchio

উত্তর:


4

আমি মনে করি আপনি যে অংশটি মিস করছেন তা সে Vπ2Vπ1 আমরা অর্ডার করতে পারি একই কারণে গ্যারান্টিযুক্ত π2π1। এটিই মূলত একটি নীতির অপরটির চেয়ে ভাল হওয়ার সংজ্ঞা হয় - এর মান কার্যকারিতা সমস্ত রাজ্যেই বেশি বা সমান। আপনি সর্বাধিক ক্রিয়াগুলি চয়ন করে এটির গ্যারান্টি দিয়েছেন - কোনও রাষ্ট্রীয় মান সম্ভবত আগের তুলনায় খারাপ হতে পারে না এবং যদি কেবলমাত্র একটি ক্রিয়াকলাপ আরও ভাল সর্বাধিক ক্রিয়া চয়ন করতে পরিবর্তিত হয়, তবে আপনি ইতিমধ্যে জানেন (তবে গণনা নাও করতে পারেন) যেVπ2(s) যে রাষ্ট্রটি তার চেয়ে বেশি হতে চলেছে Vπ1(s)

যখন আমরা ফলাফলগুলি সর্বাধিকীকরণ করতে পছন্দ করি π2, আমরা নতুন কি জানি না Vπ2(s) যে কোনও রাষ্ট্রের জন্য হতে চলেছে, তবে আমরা তা জানি s:Vπ2(s)Vπ1(s)

অতএব, লুপ মাধ্যমে ফিরে গণনা করা Vπ2 নতুন নীতিমালার জন্য পূর্বের তুলনায় একই বা উচ্চতর মান থাকার গ্যারান্টিযুক্ত এবং যখন নীতিটি আবার আপডেট করা হয়, π3π2π1


4

প্রথমে দেখা যাক পলিসি আইটারেশন অ্যালগরিদম কেন কাজ করে। এটির দুটি পদক্ষেপ রয়েছে।

নীতি মূল্যায়ন পদক্ষেপ:

vn=rdn+γPdnvn রৈখিক সমীকরণের পদ্ধতির সাধারণ ভেক্টরিয়াল রূপ।

এখানে, পদ rdn,Pdn হ'ল তাত্ক্ষণিক পুরষ্কার এবং ট্রানজিশন ম্যাট্রিক্সের সাথে সম্পর্কিত সারি।

এই শর্তাদি নীতির উপর নির্ভরশীল Πn

উপরের সমীকরণগুলির সিস্টেমটি সমাধান করা আমরা এর মানগুলি খুঁজে পেতে পারি vn

নীতি উন্নতি পদক্ষেপ:

ধরে নিন যে আমরা একটি নতুন নীতি খুঁজতে সক্ষম হয়েছি Πn+1 যেমন যে

rdn+1+γPdn+1vnrdn+γPdnvnrdn+1[IγPdn+1]vnsay this is eqn. 1

এখন, নতুন নীতি অবলম্বনে Πn+1, আমরা খুজতে পারি vn+1=rdn+1+γPdn+1vn+1বলুন এটি সমীকরণ 2।

আমরা এটি প্রদর্শন করতে যাচ্ছি vn+1vn ;

অর্থাত্ সমস্ত রাজ্যের জন্য, নবনির্বাচিত নীতি Πn+1 পূর্ববর্তী নীতি তুলনায় একটি ভাল মান দেয় Πn

প্রমাণ:

সমীকরণ 2 থেকে, আমাদের কাছে রয়েছে,

[IγPdn+1]vn+1=rdn+1

থেকে, 1&2, আমাদের আছে

vn+1vn

মূলত, প্রতিটি পুনরাবৃত্তির সাথে মানগুলি মনোটোনিকভাবে বৃদ্ধি পাচ্ছে।

পলিসি ইন্টিগ্রেশন স্থানীয় সর্বাধিক কেন আটকে থাকবে না তা বোঝা গুরুত্বপূর্ণ এটি।

একটি নীতি রাষ্ট্র-কর্ম স্থান ছাড়া কিছুই নয়।

প্রতিটি নীতি পুনরাবৃত্তির পদক্ষেপে, আমরা কমপক্ষে একটি স্টেট-অ্যাকশন খুঁজে পাওয়ার চেষ্টা করি যা এর মধ্যে আলাদা Πn+1 এবং Πn এবং দেখুন যদি rdn+1+γPdn+1vnrdn+γPdnvn। শুধুমাত্র শর্তটি সন্তুষ্ট হলেই আমরা লিনিয়ার সমীকরণের নতুন পদ্ধতির সমাধান গণনা করব।

ধরে Π এবং Π# যথাক্রমে গ্লোবাল এবং স্থানীয় সর্বোত্তম।

বোঝা যায়, vv#

ধরুন অ্যালগরিদম স্থানীয় সর্বোত্তমে আটকে আছে।

যদি এটি হয় তবে নীতিমালা উন্নয়নের পদক্ষেপটি স্থানীয় সর্বোত্তম রাষ্ট্র-ক্রিয়া স্থানে থামবে না Π#যেমন অন্তত একটি রাষ্ট্র-অ্যাকশন রয়েছে Π যা থেকে পৃথক Π# এবং এর উচ্চতর মান দেয় v তুলনা করা v#

বা, অন্য কথায়,

[IγPd]v[IγPd]v#

rd[IγPd]v#

rd+γPdv#v#

rd+γPdv#rd#+γPd#v#

অতএব, পলিসি পুনরাবৃত্তি স্থানীয় সর্বোত্তম থেকে থামবে না

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.