স্থাপন
আমরা সেটিং এ বিবেচনা করছি:
- সুস্পষ্ট কর্ম
- স্বতন্ত্র রাষ্ট্রসমূহ
- সীমানা পুরষ্কার
- স্টেশনারি নীতি
- অসীম দিগন্ত
অনুকূল নীতি : হিসাবে সংজ্ঞায়িত করা হয়
এবং অনুকূল মান ফাংশন হল:
ভী * = সর্বোচ্চ π ভী π ( গুলি ) , ∀ গুলি ∈ এস
একটি সেট থাকতে পারে নীতিগুলি যা সর্বোচ্চ অর্জন করে। তবে কেবলমাত্র একটি অনুকূল মান ফাংশন রয়েছে:
ভি ∗ = ভি π ∗ ∗
π*G আর্গসর্বোচ্চπভীπ( গুলি ) , ∀ s ∈ এস(1)
ভী*= সর্বাধিকπভীπ( গুলি ) , ∀ s ∈ এস(2)
ভী*= ভিπ*(3)
প্রশ্নটি
কিভাবে প্রমাণ করার অস্তিত্ব আছে যে অন্তত একটি সবার জন্য যা সন্তুষ্ট (1) একযোগে গুলি ∈ এস ?π*s ∈ S
প্রমাণের বাহ্যরেখা
অনুকূল মান ফাংশনের অস্থায়ী সারোগেট সংজ্ঞা হিসাবে ব্যবহার করার জন্য সর্বোত্তম সমীকরণটি তৈরি করুন , যা আমরা দ্বিতীয় ধাপে প্রমাণ করব যে এটি EQ (2) এর মাধ্যমে সংজ্ঞার সমতুল্য।
ভী*( গুলি ) = সর্বাধিকa ∈ A[ আর ( গুলি , একটি ) + + γΣগুলি'। এসটি( গুলি , ক , এস)') ভি*( গুলি)') ](4)
Eq। (4) এবং Eq। (2) এর মাধ্যমে অনুকূল মান ফাংশন সংজ্ঞায়নের সমতুল্যতা আবিষ্কার করুন।
(দ্রষ্টব্য আসলে আমাদের প্রুফগুলিতে কেবল প্রয়োজনীয় দিকনির্দেশনা প্রয়োজন, কারণ আমরা Eq। (2) থেকে Eq। (4) তৈরি করার পরে যথেষ্টতা সুস্পষ্ট is)
প্রমাণ করুন যে EQ এর একটি অনন্য সমাধান রয়েছে (4)।
দ্বিতীয় ধাপে, আমরা জানি যে পদক্ষেপ 3 এ প্রাপ্ত সমাধানটি Eq (2) এর সমাধানও, সুতরাং এটি একটি অনুকূল মান ফাংশন।
একটি অনুকূল মান ফাংশন থেকে, আমরা প্রতিটি রাজ্যের জন্য EQ। (4) এ সর্বাধিক ক্রিয়াকলাপটি বেছে নিয়ে একটি সর্বোত্তম নীতি পুনরুদ্ধার করতে পারি।
পদক্ষেপের বিশদ
1
ভী*( গুলি ) = ভিπ*( গুলি ) = ইএকটি[ প্রশ্নπ*( গুলি , ক ) ]ভীπ*( গুলি ) সর্বোচ্চ ≤a ∈ Aপ্রশ্নঃπ*( গুলি , ক )s~, আমরা একটি ভাল নীতি পূর্ণবিস্তার দ্বারা নির্বাচন করতে পারবেনপ্রশ্নঃ * (গুলি,একটি)=প্রশ্নঃ π * (গুলি,একটি)উপরএকটি।Vπ∗≠maxa∈AQπ∗(s,a)Q∗(s,a)=Qπ∗(s,a)a
2
(=>)
পদক্ষেপ 1 অনুসরণ করে।
(<=)
অর্থাত যদি সন্তুষ্ট ~ ভী ( গুলি ) = সর্বোচ্চ একটি ∈ একটি [ আর ( গুলি , একটি ) + + γV~V~(s)=maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V~(s′)]V~(s)=V∗(s)=maxπVπ(s),∀s∈S
TV(s)=maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V(s′)](5)
V~=TV~V~=V∗
V~≥TV~V~≥V∗
V~≤TV~V~≤V∗
প্রমাণ:
ক)
π=(d1,d2,...)
V~≥TV~=maxd[Rd+γPdV~]≥Rd1+γPd1V~
dRddPdd
n
V~≥Rd1+∑i=1n−1γiPiπRdi+1+γnPnπV~
Pjπjπ
Vπ=Rd1+∑i=1∞γiPiπRdi+1
V~−Vπ≥γnPnπV~−∑i=n∞γiPiπRdi+1→0 as n→∞
সুতরাং আমরা আছে
। যেহেতু এই কোন ঝুলিতে
π , আমরা এই উপসংহারে যে
~ ভী ≥ সর্বোচ্চ π ভী π = ভী *
খ)
V~≥VππV~≥maxπVπ=V∗
পদক্ষেপ 1 থেকে অনুসরণ করা।
3
অনুকূল বেলম্যান অপারেটরটি নর্ম, সিএফ-এর সংকোচনের বিষয় [2]।L∞
প্রুফ: কোনো জন্য ,
| টি ভি 1 ( গুলি ) - টি ভি 2 ( গুলি ) |s
|TV1(s)−TV2(s)|=∣∣∣∣maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V1(s′)]−maxa′∈A[R(s,a′)+γ∑s′∈ST(s,a′,s′)V(s′)]∣∣∣∣≤(∗)∣∣∣∣maxa∈A[γ∑s′∈ST(s,a,s′)(V1(s′)−V2(s′))]∣∣∣∣≤γ∥V1−V2∥∞
maxaf(a)−maxa′g(a′)≤maxa[f(a)−g(a)]
T
তথ্যসূত্র
[১] পুটারম্যান, মার্টিন এল .. "মার্কভ সিদ্ধান্ত গ্রহণের প্রক্রিয়াগুলি: স্বতন্ত্র স্টোকাস্টিক ডায়নামিক প্রোগ্রামিং।" (2016)।
[২] উ: লাজারিক। http://researchers.lille.inria.fr/~lazaric/Webpage/MVA-RL_Course14_files/slides-lecture-02-handout.pdf