কেন সর্বদা কমপক্ষে একটি নীতি থাকে যা অন্য সমস্ত নীতিমালার চেয়ে ভাল বা সমান?


15

শক্তিবৃদ্ধি শিক্ষা: একটি ভূমিকা। দ্বিতীয় সংস্করণ, চলছে ,, রিচার্ড এস সাটন এবং অ্যান্ড্রু জি বার্তো (সি) 2012, পৃষ্ঠা 67-68।

একটি শক্তিবৃদ্ধি শেখার কাজটি সমাধান করার অর্থ, মোটামুটি, এমন একটি নীতি সন্ধান করা যা দীর্ঘকালীন সময়ে অনেক পুরষ্কার অর্জন করে। সসীম এমডিপিগুলির জন্য, আমরা নীচে সঠিকভাবে একটি সর্বোত্তম নীতি নির্ধারণ করতে পারি। মান ফাংশনগুলি নীতিগুলির উপর আংশিক ক্রম সংজ্ঞায়িত করে। একটি নীতি π সংজ্ঞায়িত করা হয় বেশী ভালো হতে পারে অথবা একটি নীতি সমান π যদি তার প্রত্যাশিত রিটার্ন চেয়ে বেশী বা সমান π , সব রাজ্যের জন্য। অন্য কথায়, ππ যদি এবং কেবল যদি vπ(s)vπ(s) , সব জন্য sSসর্বদা সর্বনিম্ন একটি নীতি থাকে যা অন্য সমস্ত নীতিগুলির চেয়ে ভাল বা সমান। এটি একটি অনুকূল নীতি।

কেন সর্বদা কমপক্ষে একটি নীতি থাকে যা অন্য সমস্ত নীতিমালার চেয়ে ভাল বা সমান?


খুব বিশদ প্রমাণ (যা বানচের স্থির বিন্দু উপপাদ্য ব্যবহার করে) পুটারম্যানের "মার্কভ সিদ্ধান্ত প্রক্রিয়াগুলি" এর chapter.২ অধ্যায়ে উপস্থিত হয়েছে।
টগস

উত্তর:


3

উদ্ধৃত অংশটি পেরিয়ে যাওয়ার পরে, একই অনুচ্ছেদটি আসলে আপনাকে জানায় যে এই নীতিটি কী: এটিই প্রতিটি রাজ্যের সেরা পদক্ষেপ নেয়। এমডিপিতে, আমরা এক রাজ্যে যে পদক্ষেপ গ্রহণ করি তা অন্যের মধ্যে নেওয়া ক্রিয়াগুলির পুরষ্কারগুলিকে প্রভাবিত করে না, তাই আমরা কেবলমাত্র রাষ্ট্র-রাষ্ট্র দ্বারা পলিসি সর্বাধিকতর করতে পারি।


এই উত্তরটি কি সম্পূর্ণ ভুল নয়? আপনি কীভাবে বলতে পারেন যে রাষ্ট্রের দ্বারা নীতি রাষ্ট্রকে অনুকূলকরণ করা সর্বোত্তম নীতিতে বাড়ে। আমি যদি রাষ্ট্র চেয়ে অপ্টিমাইজ করি এবং এটি আমাকে এস টি + 1 লাগে এবং তারপরে এস টি + 1 এ অনুকূলিতকরণ একটি অনুকূল মান ফাংশন ভি টি + 1 এ নিয়ে যায় তবে সেখানে আরও একটি নীতি আছে যাতে এস টি টি সাব-অপটিমালিটি এস এল এবং সর্বোত্তম দিকে নিয়ে যায় এস এল এর মান ফাংশন ভি টি + 1 এর চেয়ে বেশি । আপনি কীভাবে এ জাতীয় কোনও বিশ্লেষণ বিশ্লেষণ করে এড়িয়ে যেতে পারেন?StSt+1St+1Vt+1StSlSlVt+1
মিলোমিন্ডারবিন্দর

@ মিলোমিন্ডারবাইন্ডার যদি তে সর্বোত্তম নীতিটি এস টি + 1 চয়ন করতে হয় তবে এস টি + 1 এর মান এস এল এর মানের চেয়ে বেশি । StSt+1St+1Sl
ডন রেবা

আমার খারাপ। টাইপো সংশোধন করে: 'এই উত্তরটি কি সম্পূর্ণ ভুল নয়? আপনি কীভাবে বলতে পারেন যে রাষ্ট্রের দ্বারা নীতি রাষ্ট্রকে অনুকূলকরণ করা সর্বোত্তম নীতি নিয়ে যায়? আমি রাষ্ট্র উপর নিখুত তাহলে এবং এটা আমার লাগে এস টি + + 1 এবং তারপর এ নিখুঁত এস টি + + 1 একটি অনুকূল মান ফাংশন বিশালাকার ভী টি + + 2 এর এস টি + + 2 কিন্তু আরেকটা নীতি রয়েছে S T যদিও বিশালাকার suboptimally এস l + 1 এ এবং তাই এস টি + 1 এর মান ফাংশনStSt+1St+1Vt+2St+2StSl+1St+1 চেয়ে বেশি তবে রাষ্ট্র দ্বারা রাষ্ট্রকে অনুকূলকরণের মাধ্যমে পাওয়া নীতিমালার চেয়ে এস টি + 2 এর মান ফাংশন এই নীতিমালার অধীনে বেশি। আপনি কীভাবে তা প্রকাশ করেছেন? ' Vl+1St+2
মিলোমিন্ডারবিন্দর

আমি মনে করি এর সংজ্ঞাটি এটি প্রথম স্থানে ঘটতে বাধা দেবে, যেহেতু এটির ভবিষ্যতের রিটার্নগুলিরও অ্যাকাউন্ট হওয়া উচিত। V
উড়ন্ত_বানানা

তাহলে প্রশ্নটি হবে: কেন বিদ্যমান? আপনি ব্যানাচ ফিক্সড পয়েন্ট উপপাদ্যটি পেতে পারেন না :-)q
ফ্যাবিয়ান ওয়ার্নার

10

অনুকূল নীতিটির অস্তিত্ব সুস্পষ্ট নয়। কেন তা দেখতে নোট করুন যে মান ফাংশনটি নীতিগুলির স্থানের উপর কেবলমাত্র একটি আংশিক ক্রম সরবরাহ করে। এর অর্থ:

ππvπ(s)vπ(s),sS

যেহেতু এটি কেবল আংশিক অর্ডারিং, তাই এমন একটি ঘটনাও ঘটতে পারে যেখানে দুটি পলিসি, এবং π 2 তুলনীয় নয়। অন্য কথায়, রাষ্ট্রীয় স্থানের সাবসেটগুলি রয়েছে, এস 1 এবং এস 2 এরকম:π1π2S1S2

vπ(s)vπ(s),sS1

vπ(s)vπ(s),sS2

এই ক্ষেত্রে, আমরা বলতে পারি না যে একটি নীতি অন্যটির চেয়ে ভাল। তবে যদি আমরা সীমাবদ্ধ মান ফাংশনগুলির সাথে সসীম এমডিপিগুলি নিয়ে কাজ করি তবে এরূপ দৃশ্য কখনই ঘটে না। একাধিক অনুকূল নীতি থাকতে পারে যদিও সঠিকভাবে একটি অনুকূল মান ফাংশন আছে।

এর প্রমাণের জন্য আপনার বনচ ফিক্সড পয়েন্ট উপপাদ্যটি বুঝতে হবে। বিস্তারিত বিশ্লেষণের জন্য দয়া করে উল্লেখ করুন


8

স্থাপন

আমরা সেটিং এ বিবেচনা করছি:

  • সুস্পষ্ট কর্ম
  • স্বতন্ত্র রাষ্ট্রসমূহ
  • সীমানা পুরষ্কার
  • স্টেশনারি নীতি
  • অসীম দিগন্ত

অনুকূল নীতি : হিসাবে সংজ্ঞায়িত করা হয় এবং অনুকূল মান ফাংশন হল: ভী * = সর্বোচ্চ π ভী π ( গুলি ) , গুলি এস একটি সেট থাকতে পারে নীতিগুলি যা সর্বোচ্চ অর্জন করে। তবে কেবলমাত্র একটি অনুকূল মান ফাংশন রয়েছে: ভি = ভি π ∗ ∗

(1)πargmaxπVπ(s),sS
(2)V=maxπVπ(s),sS
(3)V=Vπ

প্রশ্নটি

কিভাবে প্রমাণ করার অস্তিত্ব আছে যে অন্তত একটি সবার জন্য যা সন্তুষ্ট (1) একযোগে গুলি এস ?πsS

প্রমাণের বাহ্যরেখা

  1. অনুকূল মান ফাংশনের অস্থায়ী সারোগেট সংজ্ঞা হিসাবে ব্যবহার করার জন্য সর্বোত্তম সমীকরণটি তৈরি করুন , যা আমরা দ্বিতীয় ধাপে প্রমাণ করব যে এটি EQ (2) এর মাধ্যমে সংজ্ঞার সমতুল্য।

    (4)V(s)=maxaA[R(s,a)+γsST(s,a,s)V(s)]
  2. Eq। (4) এবং Eq। (2) এর মাধ্যমে অনুকূল মান ফাংশন সংজ্ঞায়নের সমতুল্যতা আবিষ্কার করুন।

    (দ্রষ্টব্য আসলে আমাদের প্রুফগুলিতে কেবল প্রয়োজনীয় দিকনির্দেশনা প্রয়োজন, কারণ আমরা Eq। (2) থেকে Eq। (4) তৈরি করার পরে যথেষ্টতা সুস্পষ্ট is)

  3. প্রমাণ করুন যে EQ এর একটি অনন্য সমাধান রয়েছে (4)।

  4. দ্বিতীয় ধাপে, আমরা জানি যে পদক্ষেপ 3 এ প্রাপ্ত সমাধানটি Eq (2) এর সমাধানও, সুতরাং এটি একটি অনুকূল মান ফাংশন।

  5. একটি অনুকূল মান ফাংশন থেকে, আমরা প্রতিটি রাজ্যের জন্য EQ। (4) এ সর্বাধিক ক্রিয়াকলাপটি বেছে নিয়ে একটি সর্বোত্তম নীতি পুনরুদ্ধার করতে পারি।

পদক্ষেপের বিশদ

1

V(s)=Vπ(s)=Ea[Qπ(s,a)]Vπ(s)maxaAQπ(s,a)s~, আমরা একটি ভাল নীতি পূর্ণবিস্তার দ্বারা নির্বাচন করতে পারবেনপ্রশ্নঃ * (গুলি,একটি)=প্রশ্নঃ π * (গুলি,একটি)উপরএকটিVπmaxaAQπ(s,a)Q(s,a)=Qπ(s,a)a

2

(=>)

পদক্ষেপ 1 অনুসরণ করে।

(<=)

অর্থাত যদি সন্তুষ্ট ~ ভী ( গুলি ) = সর্বোচ্চ একটি একটি [ আর ( গুলি , একটি ) + + γV~V~(s)=maxaA[R(s,a)+γsST(s,a,s)V~(s)]V~(s)=V(s)=maxπVπ(s),sS

(5)TV(s)=maxaA[R(s,a)+γsST(s,a,s)V(s)]
V~=TV~V~=V

V~TV~V~V

V~TV~V~V

প্রমাণ:

ক)

π=(d1,d2,...)

V~TV~=maxd[Rd+γPdV~]Rd1+γPd1V~
dRddPdd

n

V~Rd1+i=1n1γiPπiRdi+1+γnPπnV~
Pπjjπ

Vπ=Rd1+i=1γiPπiRdi+1
V~VπγnPπnV~i=nγiPπiRdi+10 as n
সুতরাং আমরা আছে । যেহেতু এই কোন ঝুলিতে π , আমরা এই উপসংহারে যে ~ ভীসর্বোচ্চ π ভী π = ভী * খ)V~Vππ
V~maxπVπ=V

পদক্ষেপ 1 থেকে অনুসরণ করা।

3

অনুকূল বেলম্যান অপারেটরটি নর্ম, সিএফ-এর সংকোচনের বিষয় [2]।L

প্রুফ: কোনো জন্য , | টি ভি 1 ( গুলি ) - টি ভি 2 ( গুলি ) |s

|TV1(s)TV2(s)|=|maxaA[R(s,a)+γsST(s,a,s)V1(s)]maxaA[R(s,a)+γsST(s,a,s)V(s)]|()|maxaA[γsST(s,a,s)(V1(s)V2(s))]|γV1V2
maxaf(a)maxag(a)maxa[f(a)g(a)]

T

তথ্যসূত্র

[১] পুটারম্যান, মার্টিন এল .. "মার্কভ সিদ্ধান্ত গ্রহণের প্রক্রিয়াগুলি: স্বতন্ত্র স্টোকাস্টিক ডায়নামিক প্রোগ্রামিং।" (2016)।

[২] উ: লাজারিক। http://researchers.lille.inria.fr/~lazaric/Webpage/MVA-RL_Course14_files/slides-lecture-02-handout.pdf

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.