শক্তিবৃত্তি শিক্ষায় বেলম্যানের সমীকরণ ডেরাইভিং


32

আমি " ইন রিইনফোর্সমেন্ট লার্নিং এ। একটি পরিচিতি " -এ নীচের সমীকরণটি দেখছি , তবে নীচের নীলে আমি যে পদক্ষেপটি তুলে ধরেছি তা পুরোপুরি অনুসরণ করবেন না। এই পদক্ষেপটি ঠিক কীভাবে উত্পন্ন?

এখানে চিত্র বর্ণনা লিখুন

উত্তর:


7

এটি যার প্রত্যেকটির পিছনে পরিষ্কার, কাঠামোযুক্ত গণিত সম্পর্কে আশ্চর্য হয়ে যায় তাদের উত্তর (যেমন আপনি যদি এমন লোকদের অন্তর্ভুক্ত হন যা র্যান্ডম ভেরিয়েবল কী তা জানে এবং আপনাকে অবশ্যই এটি প্রদর্শন বা ধরে নিতে হবে যে একটি এলোমেলো ভেরিয়েবলের ঘনত্ব রয়েছে তবে এটি হল আপনার জন্য উত্তর ;-)):

সবার আগে আমাদের থাকা দরকার যে মার্কোভ ডিসিশন প্রক্রিয়াটিতে কেবলমাত্র সীমাবদ্ধ রয়েছে - অর্থাৎ আমাদের প্রয়োজন যে ঘনত্বের একটি সীমাবদ্ধ রয়েছে, যার প্রতিটি ভেরিয়েবলের অন্তর্গত , যেমন for all এবং একটি মানচিত্রে যেমন (অর্থাত্ MDP এর পিছনে অনেকগুলি রাজ্য থাকতে পারে তবে সেখানে চূড়ান্তভাবে অনেকগুলি -পূর্ববর্তী-বিতরণগুলি সম্ভবত রাজ্যগুলির মধ্যে অসীম ট্রানজিশনের সাথে সংযুক্ত থাকে)L1EL1Rxe(x)dx<eEF:A×SE

p(rt|at,st)=F(at,st)(rt)
L1

উপপাদ্য 1 : XL1(Ω) (যথা একটি ইন্টিগ্রেটেবল রিয়েল এলোমেলো ভেরিয়েবল) আসুন এবং Y মতো আরও একটি এলোমেলো পরিবর্তনশীল হোক যাতে X,Y একটি সাধারণ ঘনত্ব থাকে

E[X|Y=y]=Rxp(x|y)dx

প্রুফ : স্টেফান হ্যানসেন এখানে মূলত প্রমাণিত ven

উপপাদ্য 2 : XL1(Ω) এবং Y,Z আরও এলোমেলো পরিবর্তনশীল হতে দিন যেমন X,Y,Z সাধারণ ঘনত্ব থাকে

E[X|Y=y]=Zp(z|y)E[X|Y=y,Z=z]dz
যেখানেZ জেড এর পরিসীমা ।Z

প্রুফ :

E[X|Y=y]=Rxp(x|y)dx    (by Thm. 1)=Rxp(x,y)p(y)dx=RxZp(x,y,z)dzp(y)dx=ZRxp(x,y,z)p(y)dxdz=ZRxp(x|y,z)p(z|y)dxdz=Zp(z|y)Rxp(x|y,z)dxdz=Zp(z|y)E[X|Y=y,Z=z]dz    (by Thm. 1)

Put রাখুন এবং তারপরে কেউ দেখায় ( এমডিপিতে কেবল চূড়ান্তভাবে অনেকগুলি পূর্বে রয়েছে) যা রূপান্তর করে এবং যেহেতু the functionএখনও (অর্থাত্ ইন্টিগ্রেটেবল) কেউ শর্তসাপেক্ষ প্রত্যাশার [কারণগুলির কারণগুলি] সংজ্ঞায়িত সমীকরণগুলির উপর নিয়মিত সংমিশ্রণগুলির উপর মনোোটোন কনভার্জেন্সের সাধারণ সংমিশ্রণটি ব্যবহার করে এবং তারপরেও আধিপত্য বিস্তৃত করতে পারেন Gt=k=0γkRt+kGt(K)=k=0KγkRt+kL1Gt(K)k=0γk|Rt+k|L1(Ω)

limKE[Gt(K)|St=st]=E[Gt|St=st]
এখন একটি এটি দেখায়
E[Gt(K)|St=st]=E[Rt|St=st]+γSp(st+1|st)E[Gt+1(K1)|St+1=st+1]dst+1
জি ( কে ) টি = আর টি + γ জি ( কে - 1 ) টি + 1[ জি ( কে - 1 ) টি + 1 ব্যবহার করে Th, থিম। 2 উপরে তারপর থম। তে 1 এবং তারপরে একটি সরল প্রান্তিককরণ যুদ্ধ ব্যবহার করে, একজন দেখায় যে সমস্ত । এখন আমাদের সমীকরণের উভয় দিকে সীমা প্রয়োগ করতে হবে । রাজ্য স্পেস এর সাথে অবিচ্ছেদ্য সীমাটি টানতে আমাদের কিছু অতিরিক্ত অনুমান করা দরকার:Gt(K)=Rt+γGt+1(K1)E[Gt+1(K1)|St+1=s,St=st]p(rq|st+1,st)=p(rq|st+1)qt+1KS

হয় রাষ্ট্রীয় স্থান সীমাবদ্ধ (তারপরে যোগফল এবং সমষ্টিটি সীমাবদ্ধ) বা সমস্ত পুরষ্কারগুলি সমস্ত ইতিবাচক হয় (তারপরে আমরা একঘেয়ে রূপান্তর ব্যবহার করি) বা সমস্ত পুরষ্কারগুলি নেতিবাচক হয় (তারপরে আমরা সামনে বিয়োগ চিহ্ন ) সমীকরণ এবং আবার একঘেয়ে রূপান্তর ব্যবহার করুন) বা সমস্ত পুরষ্কার সীমাবদ্ধ (তারপরে আমরা প্রাধান্যযুক্ত রূপান্তর ব্যবহার করি)। তারপরে ( উপরের আংশিক / সসীম বেলম্যান সমীকরণের উভয় পক্ষেই প্রয়োগ করে ) আমরা পাইS=SlimK

E[Gt|St=st]=E[Gt(K)|St=st]=E[Rt|St=st]+γSp(st+1|st)E[Gt+1|St+1=st+1]dst+1

এবং তারপরে বাকিটি হ'ল স্বাভাবিক ঘনত্বের কারসাজি।

মন্তব্য: এমনকি খুব সাধারণ কাজগুলিতেও রাষ্ট্রের স্থানটি অসীম হতে পারে! একটি উদাহরণ হ'ল 'ভারসাম্যহীন একটি খুঁটি'-টাস্ক। রাজ্যটি মূলত মেরুটির কোণ ( একটি মান , একটি অসীম সেট!)[0,2π)

মন্তব্য: লোকেরা মন্তব্য করতে পারে 'ময়দা, এই প্রমাণটি আরও ছোট করা যেতে পারে যদি আপনি কেবল এর ঘনত্ব সরাসরি ব্যবহার করেন এবং দেখান যে '... তবে ... আমার প্রশ্নগুলি হবে:Gtp(gt+1|st+1,st)=p(gt+1|st+1)

  1. আপনি কীভাবে কীভাবে জানতে পারেন যে ঘনত্ব রয়েছে?Gt+1
  2. আপনি কীভাবে এসেছেন যে এমনকি সাথে একটি সাধারণ ঘনত্ব ?Gt+1St+1,St
  3. আপনি কীভাবে এই ? এটি কেবল মার্কভ সম্পত্তি নয়: মার্কভ সম্পত্তি আপনাকে কেবলমাত্র প্রান্তিক বিতরণ সম্পর্কে কিছু বলে তবে এগুলি পুরো বিতরণটি প্রয়োজনীয়ভাবে নির্ধারণ করে না, উদাহরণস্বরূপ মাল্টিভারিয়েট গাউসিয়ানরা দেখুন!p(gt+1|st+1,st)=p(gt+1|st+1)

10

ছাড় পুরস্কারের মোট যোগফল যাক সময় পরে হতে: G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + t
Gt=Rt+1+γRt+2+γ2Rt+3+...

রাজ্যের শুরু ইউটিলিটি মান, সময়ে প্রত্যাশিত সমষ্টি সমতূল্য এর ছাড় পুরষ্কার নির্বাহ নীতির রাষ্ট্র থেকে শুরু অগ্রে। সংজ্ঞামতে আইন আইন অনুসারেt R π s U π ( S t = s ) = E π [ G t | এস টি = এস ]st
Rπs
Uπ(St=s)=Eπ[Gt|St=s]
জি টি = π [ ( আর টি + + 1 + + γ ( আর টি + + 2 + + γ আর টি + + 3 + + =Eπ[(Rt+1+γRt+2+γ2Rt+3+...)|St=s]Gt
= π [ ( আর টি + 1 + γ ( জি টি + 1 ) ) | এস টি = এস ] = π [ আর টি + 1 | এস টি = এস ] + γ π [ জি টি + | এস টি = এস ]=Eπ[(Rt+1+γ(Rt+2+γRt+3+...))|St=s]
=Eπ[(Rt+1+γ(Gt+1))|St=s]
=Eπ[Rt+1|St=s]+γEπ[Gt+1|St=s]
= π [ আর টি + 1 | এস টি = এস ] + γ π [ ইউ=Eπ[Rt+1|St=s]+γEπ[Eπ(Gt+1|St+1=s)|St=s]মোট প্রত্যাশা সংজ্ঞা অনুসারে রৈখিকতার আইন অনুসারে
ইউ π = π [ আর টি + + 1 + + γ ইউ π ( এস টি + + 1 = গুলি ' ) | এস টি = এস ]=Eπ[Rt+1|St=s]+γEπ[Uπ(St+1=s)|St=s]Uπ
=Eπ[Rt+1+γUπ(St+1=s)|St=s]

Assuming যে প্রক্রিয়া সন্তুষ্ট মার্কভ সম্পত্তি:
সম্ভাব্যতা রাজ্যের শেষ পর্যন্ত এর রাষ্ট্র থেকে শুরু করে এবং প্রতিকারমূলক পদক্ষেপ নেওয়া , এবং পুরস্কার রাজ্যের শেষ পর্যন্ত এর রাষ্ট্র থেকে শুরু করে এবং পদক্ষেপ না নেওয়া , s s a P r ( s | s , a ) = P r ( S t + 1 = s , S t = s , A t = a ) R s s a R ( s , a , s) ) = [ আর টি + 1 | এস টিPrssa
Pr(s|s,a)=Pr(St+1=s,St=s,At=a)
Rssa
R(s,a,s)=[Rt+1|St=s,At=a,St+1=s]

সুতরাং আমরা উপরের উপযোগীকরণের সমীকরণটিকে আবার লিখতে পারি,
=aπ(a|s)sPr(s|s,a)[R(s,a,s)+γUπ(St+1=s)]

কোথায়; : কর্ম গ্রহণের সম্ভাব্যতা যখন রাষ্ট্র একটি সম্ভাব্যতার সূত্রাবলি নীতির জন্য। নীতির জন্য,a s a π ( a | s ) = 1π(a|s)asaπ(a|s)=1


মাত্র কয়েকটি নোট: স্টোকাস্টিক নীতিতেও over সমষ্টি 1 এর সমান হয় তবে একটি নির্বিরোধী নীতিতে কেবলমাত্র একটি ক্রিয়া থাকে যা পুরো ওজন প্রাপ্ত করে (যেমন, এবং বাকীটি 0 ওজন গ্রহণ করুন, সুতরাং সেই শব্দটিটি সমীকরণ থেকে সরানো হবে Also এছাড়াও আপনি সম্পূর্ণ প্রত্যাশার আইনটি যে লাইনে ব্যবহার করেছেন, তাতে কনডিশনশালার ক্রমটি বিপরীত হয়েছেπ ( a | s ) = 1ππ(a|s)=1
গিলাদ

1
আমি পুরোপুরি নিশ্চিত যে এই উত্তরটি ভুল: আমরা সম্পূর্ণ প্রত্যাশার আইন জড়িত না হওয়া অবধি সমীকরণগুলি অনুসরণ করি। তারপর বাম দিকের উপর নির্ভর করে না সময় ডান দিকে আছে ... অর্থাত যদি সমীকরণ সঠিক তারপর যার জন্য তারা কি সঠিক? আপনি অবিচ্ছেদ্য উপর কোন ধরণের থাকতে হবে ইতিমধ্যে যে পর্যায়ে। কারণ সম্ভবত আপনার (একটি এলোমেলো পরিবর্তনশীল) বনাম এর ফ্যাক্টরিয়েশন (একটি নির্বিচারবাদী ফাংশন!) পার্থক্য সম্পর্কে আপনার ভুল বোঝাবুঝি ...s s E [ এক্স | ] [ এক্স | Y = y ]sssE[X|Y]E[X|Y=y]
ফ্যাবিয়ান ওয়ার্নার

@ ফ্যাবিয়ান ওয়ার্নার আমি সম্মতি জানাই এটি সঠিক নয়। জি শি এর উত্তর সঠিক উত্তর।
টিউসার

@teucer এই উত্তরটি ঠিক করা যেতে পারে কারণ এখানে কিছু "প্রতিসাম্যকরণ" পাওয়া গেছে, যেমন তবে এখনও, জি শিস উত্তরের মতোই প্রশ্নটি হ'ল: কেন ? এটি কেবল মার্কভ সম্পত্তিই নয় কারণ a সত্যিই জটিল আরভি: এটি কি রূপান্তরিত করে? যদি তাই হয় তবে কোথায়? সাধারণ ঘনত্ব কী? আমরা কেবল সীমাবদ্ধ অঙ্কের (জটিল বোঝার জন্য) এই অভিব্যক্তিটি জানি তবে অসীমের ক্ষেত্রে? [ জি টি + | এস টি + 1 = এস টি + 1 , এস টি = এস টি ]E[A|C=c]=range(B)p(b|c)E[A|B=b,C=c]dPB(b)জি টি + 1 পি ( জি টি + 1 , এস টি + 1 , এস টি )E[Gt+1|St+1=st+1,St=st]=E[Gt+1|St+1=st+1]Gt+1p(gt+1,st+1,st)
ফ্যাবিয়ান ওয়ার্নার

@ ফ্যাবিয়ান ওয়ার্নার নিশ্চিত নন যে আমি সমস্ত প্রশ্নের উত্তর দিতে পারি কিনা। কিছু পয়েন্টারের নীচে। of এর জন্য, এটি পুরষ্কারের যোগফল হিসাবে, সিরিজটি রূপান্তরিত করে (ডিস্কিং ফ্যাক্টরটি এবং যেখানে এটি রূপান্তরিত হয় তা আসলে কোনও ব্যাপার নয়) ধরে নেওয়া যুক্তিযুক্ত । আমি ঘনত্ব নিয়ে উদ্বেগটি পাই না (যতক্ষণ না আমরা এলোমেলো ভেরিয়েবল রয়েছে ততক্ষণ একটি যৌথ ঘনত্বকে সংজ্ঞায়িত করতে পারে), এটি কেবলমাত্র যদি এটির সংজ্ঞা দেওয়া হয় তবে তা গুরুত্বপূর্ণ এবং যদি সে ক্ষেত্রে তা হয়। < 1Gt+1<1
টিউসার

8

এখানে আমার প্রমাণ। এটি শর্তাধীন বিতরণগুলির কারসাজির উপর ভিত্তি করে তৈরি করা হয়েছে যা অনুসরণ করা সহজ করে তোলে। আশা করি এটি আপনাকে সহায়তা করবে।

vπ(s)=E[Gt|St=s]=E[Rt+1+γGt+1|St=s]=srgt+1ap(s,r,gt+1,a|s)(r+γgt+1)=ap(a|s)srgt+1p(s,r,gt+1|a,s)(r+γgt+1)=ap(a|s)srgt+1p(s,r|a,s)p(gt+1|s,r,a,s)(r+γgt+1)Note that p(gt+1|s,r,a,s)=p(gt+1|s) by assumption of MDP=ap(a|s)srp(s,r|a,s)gt+1p(gt+1|s)(r+γgt+1)=ap(a|s)srp(s,r|a,s)(r+γgt+1p(gt+1|s)gt+1)=ap(a|s)srp(s,r|a,s)(r+γvπ(s))
এটি বিখ্যাত বেলম্যান সমীকরণ।


এই মন্তব্যটি 'নোট যে ...' আরও কিছুটা ব্যাখ্যা করতে আপনার আপত্তি আছে? এই র্যান্ডম ভেরিয়েবলগুলি এবং রাষ্ট্র এবং ক্রিয়া ভেরিয়েবলগুলির কেন একটি সাধারণ ঘনত্ব রয়েছে? যদি তা হয় তবে আপনি কেন এই সম্পত্তিটি ব্যবহার করছেন তা জানেন? আমি দেখতে পাচ্ছি যে এটি সীমাবদ্ধ রাশির জন্য সত্য তবে এলোমেলো পরিবর্তনশীল যদি একটি সীমা থাকে ... ??? Gt+1
ফ্যাবিয়ান ওয়ার্নার

দীর্ঘসূত্রী করতে: প্রথমত এর প্রত্যাহার কি দিন । । লক্ষ্য করুন শুধুমাত্র সরাসরি উপর নির্ভর করে এবং যেহেতু সব ধারন করে একটি এমডিপি পরিবর্তন তথ্য (আরো সঠিকভাবে, এবং time দেওয়া সময়ের আগে সমস্ত রাজ্য, ক্রিয়াকলাপ এবং পুরষ্কার থেকে পৃথক । একইভাবে, শুধুমাত্র উপর নির্ভর করে এবং । ফলস্বরূপ, , স্বতন্ত্র জি টি + 1 = আর টি + 2 + আর টি + 3 + আর টি + 2 এস টি + 1টি + 1 পি ( এস , আর | এস , ) আর টি + 2 টি + 1 এস টি + 1টি + 1 আর টি +Gt+1Gt+1=Rt+2+Rt+3+Rt+2St+1At+1p(s,r|s,a)Rt+2t+1St+1At+1 এস টি + 2টি + 2 জি টি + 1 এস টি টি আর টি এস টি + 1Rt+3St+2At+2Gt+1StAt, এবং দেওয়া হয়েছে , যা সেই লাইনটি ব্যাখ্যা করে। RtSt+1
জি শি

দুঃখিত, এটি কেবল 'প্রেরণা দেয়', এটি আসলে কিছুই ব্যাখ্যা করে না। উদাহরণস্বরূপ: of এর ঘনত্ব ? আপনি কেন নিশ্চিত যে ? কেন এই র্যান্ডম ভেরিয়েবল এমনকি না আছে একটি সাধারণ ঘনত্ব? আপনি কি জানেন যে একটি যোগফল ঘনত্বগুলিতে একটি রূপান্তরকে রূপান্তরিত করে তাই কী ... the ঘনত্বের মধ্যে অসীম পরিমাণে হওয়া উচিত ??? ঘনত্বের জন্য একেবারেই প্রার্থী নেই! পি ( জি টি + 1 | এস টি + 1 , এস টি ) = পি ( জি টি + 1 | এস টি + 1 ) জি টি + 1Gt+1p(gt+1|st+1,st)=p(gt+1|st+1)Gt+1
ফ্যাবিয়ান ওয়ার্নার

ফ্যাবিয়ানের কাছে: আমি আপনার প্রশ্নটি পাই না। 1. আপনি প্রান্তিক বিতরণ এর সঠিক ফর্মটি চান ? আমি এটি জানি না এবং এই প্রমাণে আমাদের এটির দরকার নেই। ২. কেন ? কারণ আমি আগে যেমন উল্লেখ করা এবং স্বাধীন দেওয়া হয় । ৩. "সাধারণ ঘনত্ব" বলতে কী বোঝ? আপনি মানে যৌথ বিতরণ? আপনি জানতে চান কেন এই এলোমেলো ভেরিয়েবলগুলির একটি যৌথ বিতরণ আছে? এই মহাবিশ্বের সমস্ত র্যান্ডম ভেরিয়েবলের একটি যৌথ বিতরণ থাকতে পারে। এটি যদি আপনার প্রশ্ন হয় তবে আমি আপনাকে একটি সম্ভাব্য তত্ত্বের বইটি সন্ধান করার এবং এটি পড়ার পরামর্শ দিচ্ছি। p ( g t + 1 | s t + 1 , s t ) = p ( g t + 1 | s t + 1 ) g t + 1 s t s t + 1p(gt+1)p(gt+1|st+1,st)=p(gt+1|st+1)gt+1stst+1
জি শি

আসুন আমরা এই আলোচনাটিকে চ্যাটে স্থানান্তরিত করি: chat.stackexchange.com/rooms/88952/bellman-equation
ফ্যাবিয়ান ওয়ার্নার

2

নিম্নলিখিত পদ্ধতির সাথে কী?

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+1+γGt+1St=s]=aπ(as)srp(s,rs,a)Eπ[Rt+1+γGt+1St=s,At+1=a,St+1=s,Rt+1=r]=aπ(as)s,rp(s,rs,a)[r+γvπ(s)].

অঙ্কের অর্ডার উদ্ধার করার জন্য চালু করা হয় , এবং থেকে । সর্বোপরি, সম্ভাব্য ক্রিয়া এবং সম্ভাব্য পরবর্তী রাষ্ট্রগুলি হতে পারে। এই অতিরিক্ত শর্তের সাথে, প্রত্যাশার লাইনারিটি প্রায় সরাসরি ফলাফলের দিকে নিয়ে যায়।s r sasrs

যদিও আমার যুক্তিটি গাণিতিকভাবে কতটা কঠোর তা নিশ্চিত নই। আমি উন্নতির জন্য উন্মুক্ত।


শেষ লাইনটি কেবল এমডিপি সম্পত্তি হিসাবে কাজ করে।
টিউসার

2

এটি গ্রহণযোগ্য উত্তরের কেবল একটি মন্তব্য / সংযোজন।

মোট প্রত্যাশার আইন প্রয়োগ করা হচ্ছে এমন লাইনে আমি বিভ্রান্ত হয়ে পড়েছিলাম। আমি মনে করি না মোট প্রত্যাশার আইনের মূল ফর্মটি এখানে সহায়তা করতে পারে। এর একটি বৈকল্পিক আসলে এখানে প্রয়োজন।

যদি এলোমেলো পরিবর্তনশীল এবং সমস্ত প্রত্যাশা বিদ্যমান বলে ধরে নিচ্ছে, তবে নিম্নলিখিত পরিচয়টি ধারণ করে:X,Y,Z

E[X|Y]=E[E[X|Y,Z]|Y]

এই ক্ষেত্রে, , এবং । তারপরX=Gt+1Y=StZ=St+1

E[Gt+1|St=s]=E[E[Gt+1|St=s,St+1=s|St=s] , যা মার্কভ সম্পত্তি একুউল দ্বারাE[E[Gt+1|St+1=s]|St=s]

সেখান থেকে, উত্তর থেকে কেউ বাকী প্রমাণ অনুসরণ করতে পারে।


1
সিভি তে স্বাগতম! উত্তরটি শুধুমাত্র প্রশ্নের উত্তর দেওয়ার জন্য ব্যবহার করুন। আপনার যথেষ্ট খ্যাতি (50) হয়ে গেলে আপনি মন্তব্য যুক্ত করতে পারেন।
ফ্রান্সস রোডেনবার্গ

ধন্যবাদ. হ্যাঁ, যেহেতু যথেষ্ট খ্যাতি না থাকার কারণে আমি মন্তব্য করতে পারিনি, তাই আমি ভেবেছিলাম যে উত্তরগুলিতে ব্যাখ্যা যুক্ত করা কার্যকর হবে। তবে আমি তা মাথায় রাখব।
মেহেদী গোলারী

আমি উত্সাহিত করেছি কিন্তু তবুও, এই উত্তরটি বিশদটি অনুপস্থিত: এমনকি যদি এই উন্মাদ সম্পর্কটিকে সন্তুষ্ট করে তবে শর্তসাপেক্ষ প্রত্যাশাগুলির সংশ্লেষণের ক্ষেত্রেও এটি সত্য যে কেউ গ্যারান্টি দেয় না! Ntabgoba উত্তর দিয়ে ক্ষেত্রে হিসাবে অর্থাৎ, বাম দিকে নির্ভর করে না উপর সময় ডান দিকে আছে । এই সমীকরণ সঠিক হতে পারে না! গুলি 'E[X|Y]s
ফ্যাবিয়ান ওয়ার্নার

1

ππ(a | s)asEπ() সাধারণত প্রত্যাশাটিকে বোঝায় এজেন্ট নীতি অনুসরণ করে । এই ক্ষেত্রে অ নির্ণায়ক মনে হয়, অর্থাত সম্ভাব্যতা ফেরৎ যে এজেন্ট কর্ম লাগে যখন রাষ্ট্র ।ππ(a|s)as

দেখে মনে হচ্ছে , লোয়ার-কেস , একটি র্যান্ডম ভেরিয়েবল প্রতিস্থাপন করছে । দ্বিতীয় প্রত্যাশা অসীম সমষ্টি প্রতিস্থাপন, ধৃষ্টতা যে আমরা অনুসরণ অব্যাহত প্রতিফলিত সব ভবিষ্যতের জন্য । এর পরের বার পদক্ষেপে প্রত্যাশিত তাত্ক্ষণিক পুরষ্কার হয়; দ্বিতীয় প্রত্যাশা যা হয়ে পরবর্তী রাষ্ট্র প্রত্যাশিত মান, রাষ্ট্র আপ ঘুর সম্ভাবনা দ্বারা পরিমেয় -is নিয়ে থেকে ।আর টি + + 1 π টি Σ গুলি ' , পি ( গুলি ' , | গুলি , একটি ) বনাম π এর ' একটি গুলিrRt+1πts,rrp(s,r|s,a)vπsas

সুতরাং, প্রত্যাশা নীতিগত সম্ভাবনার পাশাপাশি রূপান্তর এবং পুরষ্কারের কার্যগুলির জন্য অ্যাকাউন্টগুলি এখানে হিসাবে একসাথে প্রকাশিত হয়েছে ।p(s,r|s,a)


ধন্যবাদ। হ্যাঁ, আপনার সম্পর্কে কি উল্লেখ সঠিক (এটা ব্যবস্থা গ্রহণের এজেন্টের সম্ভাবনা যখন রাজ্যের )। a sπ(a|s)as
অ্যামিলিও ওয়াজকেজ-রেইনা

আমি যা অনুসরণ করি না তা হ'ল শর্তগুলি দ্বিতীয় পদক্ষেপের কোন পদগুলিতে হুবহু প্রসারিত হয় (আমি সম্ভাবনার ফ্যাক্টরীকরণ এবং প্রান্তিককরণের সাথে পরিচিত, তবে আরএল এর সাথে তেমন কিছু না)। শব্দটি কি প্রসারিত হচ্ছে? অর্থাৎ পূর্ববর্তী ধাপে ঠিক ঠিক পরবর্তী ধাপে কিসের সমান? Rt
অ্যামিলিও ওয়াজকেজ-রেইনা

1
এটা দেখে মনে হচ্ছে , নিম্ন-মামলা, প্রতিস্থাপন করা হয় , একটি দৈব চলক, এবং দ্বিতীয় প্রত্যাশা অসীম SUM (যে আমরা অনুসরণ অব্যাহত সম্ভবত ধৃষ্টতা প্রতিফলিত প্রতিস্থাপন সব ভবিষ্যতের জন্য )। তারপর পরবর্তী সময় পদক্ষেপ প্রত্যাশিত তাৎক্ষণিক পুরস্কার, এবং দ্বিতীয় প্রত্যাশা যা হয়ে যায় পরবর্তী রাষ্ট্রের প্রত্যাশিত মান, সম্ভাব্যতা দ্বারা পরিমেয় -is রাজ্যের আপ ঘুর এর নিয়ে থেকে । R t + 1 π t Σ p ( s , r | s , a ) r v π s a srRt+1πtΣp(s,r|s,a)rvπsas
শন ইস্টার

1

যদিও ইতিমধ্যে সঠিক উত্তর দেওয়া হয়েছে এবং কিছু সময় অতিবাহিত হয়েছে, আমি ভেবেছিলাম যে ধাপে গাইডের নিম্নলিখিত ধাপটি কার্যকর হতে পারে:
প্রত্যাশিত মানের রৈখিকতার সাথে আমরা মধ্যে এবং । আমি কেবল প্রথম অংশের জন্য পদক্ষেপগুলি রূপরেখা করব, কারণ দ্বিতীয় অংশটি মোট প্রত্যাশার আইনের সাথে মিলিত একই পদক্ষেপগুলি অনুসরণ করবে।E[Rt+1+γE[Gt+1|St=s]]E[Rt+1|St=s]γE[Gt+1|St=s]

E[Rt+1|St=s]=rrP[Rt+1=r|St=s]=arrP[Rt+1=r,At=a|St=s](III)=arrP[Rt+1=r|At=a,St=s]P[At=a|St=s]=sarrP[St+1=s,Rt+1=r|At=a,St=s]P[At=a|St=s]=aπ(a|s)s,rp(s,r|s,a)r

যেখানে (III) ফর্ম অনুসরণ করে:

P[A,B|C]=P[A,B,C]P[C]=P[A,B,C]P[C]P[B,C]P[B,C]=P[A,B,C]P[B,C]P[B,C]P[C]=P[A|B,C]P[B|C]


1

আমি জানি ইতিমধ্যে একটি স্বীকৃত উত্তর আছে, তবে আমি সম্ভবত আরও কংক্রিট ডেরাইভেশন সরবরাহ করতে চাই। আমি আরও উল্লেখ করতে চাই যে @ জি শী ট্রিক কিছুটা বোধগম্য হয়েছে তবে এটি আমাকে খুব অস্বস্তি বোধ করে :( এই কাজটি করার জন্য আমাদের সময়সীমা বিবেচনা করা দরকার। এবং এটি লক্ষ্য করা গুরুত্বপূর্ণ যে প্রত্যাশাটি আসলে কেবলমাত্র ও চেয়ে পুরো অসীম দিগন্তের উপরে নিয়ে গেলেন Let ধরা যাক আমরা থেকে শুরু করব (আসলে, ডাইরিভেশনটি শুরু সময় নির্বিশেষে একই রকম; আমি অন্য সাবস্ক্রিপ্টের সাথে সমীকরণগুলিকে দূষিত করতে চাই না ) sst=0k

vπ(s0)=Eπ[G0|s0]G0=t=0T1γtRt+1Eπ[G0|s0]=a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at)×(t=0T1γtrt+1))=a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at)×(r1+γt=0T2γtrt+2))
টিΣএকটিΣΣএকটিΣএকটিএকটিΣΣ (1+ +γΣ টি - 2 টি = 0 γtআরটি+2 লক্ষনীয় যে দ্য উপরোক্ত সমীকরণ এমনকি যদি ঝুলিতে , সত্যটি ইউনিভার্সের সমাপ্তি অবধি সত্য হবে (সম্ভবত কিছুটা অতিরঞ্জিত হবে :))T
এই পর্যায়ে, আমি বিশ্বাস করি যে আমাদের বেশিরভাগেরই মনে থাকা উচিত যে উপরের চূড়ান্ত কীভাবে পরিচালিত করে - আমাদের কেবলমাত্র যোগফলের বিধি প্রয়োগ করতে হবে ( ) শ্রমসাধ্যভাবে । আসুন ভিতরে প্রতিটি পদে প্রত্যাশার লিনিয়ারিটির আইন প্রয়োগ করিabcabcaabbcc(r1+γt=0T2γtrt+2)

অংশ 1

a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at)×r1)

ভাল এটি বরং তুচ্ছ, সম্পর্কিতগুলি বাদে সমস্ত সম্ভাবনা অদৃশ্য হয়ে যায় (আসলে 1 এর সমষ্টি) । অতএব, আমাদের কাছে r1

a0π(a0|s0)s1,r1p(s1,r1|s0,a0)×r1

পার্ট 2
অনুমান করুন কী, এই অংশটি আরও তুচ্ছ - এটি কেবল সংক্ষেপের ক্রমটিকে পুনর্বিন্যাসের সাথে জড়িত।

a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at))=a0π(a0|s0)s1,r1p(s1,r1|s0,a0)(a1π(a1|s1)a2,...aTs2,...sTr2,...rT(t=0T2π(at+2|st+2)p(st+2,rt+2|st+1,at+1)))

আর ইউরেকা !! আমরা বড় বন্ধনীগুলির পাশ দিয়ে পুনরাবৃত্ত প্যাটার্নটি পুনরুদ্ধার করি। আসুন আমরা এটিকে সাথে একত্রিত করি এবং আমরা এবং অংশ 2 γt=0T2γtrt+2vπ(s1)=Eπ[G1|s1]

γEπ[G1|s1]=a1π(a1|s1)a2,...aTs2,...sTr2,...rT(t=0T2π(at+2|st+2)p(st+2,rt+2|st+1,at+1))(γt=0T2γtrt+2)
Σ একটি 0 π(একটি0|গুলি0) Σ গুলি 1 , R 1 P(গুলি1,R1|গুলি0,একটি0)×γবনাম π (গুলি1)
a0π(a0|s0)s1,r1p(s1,r1|s0,a0)×γvπ(s1)

পার্ট 1 + পার্ট 2

vπ(s0)=a0π(a0|s0)s1,r1p(s1,r1|s0,a0)×(r1+γvπ(s1))

এবং এখন যদি আমরা সময় মাত্রাটি সন্ধান করতে পারি এবং সাধারণ পুনরাবৃত্ত সূত্রগুলি পুনরুদ্ধার করতে পারি

vπ(s)=aπ(a|s)s,rp(s,r|s,a)×(r+γvπ(s))

চূড়ান্ত স্বীকারোক্তি, যখন আমি উপরে লোকেরা সম্পূর্ণ প্রত্যাশার আইন ব্যবহারের কথা উল্লেখ করি তখন আমি হেসেছিলাম। সুতরাং আমি এখানে


এরম ... ' ' প্রতীকটি কী বোঝাতে চাইছেন? কোনও ... একটি a0,...,aa
ফ্যাবিয়ান ওয়ার্নার

আরেকটি প্রশ্ন: কেন প্রথম সমীকরণটি সত্য? আমি জানি তবে আমাদের ক্ষেত্রে র্যান্ডম ভেরিয়েবলের একটি অসীম অনুক্রম সুতরাং আমাদের এই ভেরিয়েবলের ঘনত্বের গণনা করতে হবে (আমরা যে ঘনত্বটি জানি তার একটি অসীম পরিমাণে ভেরিয়েবল নিয়ে গঠিত) একসাথে অন্য কিছু (যথা রাষ্ট্র) with .. তুমি ঠিক কীভাবে তা কর? অর্থাৎ ? এক্স ( আর 0 , আর 1 , আর 2 , ) পি ( 0 , 1 , )E[f(X)|Y=y]=Xf(x)p(x|y)dxX(R0,R1,R2,........)p(r0,r1,....)
ফ্যাবিয়ান ওয়ার্নার

@FabianWerner। প্রথমে আপনার মস্তিষ্ককে শান্ত করার জন্য গভীর শ্বাস নিন :)। আমাকে আপনার প্রথম প্রশ্নের উত্তর দিন। । যদি আপনি মান ফাংশনের সংজ্ঞাটি স্মরণ করেন তবে এটি আসলে ছাড়ের ভবিষ্যতের পুরষ্কারগুলির সংমিশ্রণ। যদি আমরা আমাদের ভবিষ্যতের পুরষ্কারগুলির জন্য একটি অসীম দিগন্ত বিবেচনা করি, তবে আমাদের তখন অসীম সংখ্যার সমষ্টি প্রয়োজন। একটি পুরস্কার, একটি রাষ্ট্র থেকে একটি ব্যবস্থা গ্রহণের ফল যেহেতু পুরষ্কার অসীম সংখ্যা, সেখানে কর্মের অসীম নম্বর, অত: পর হওয়া উচিত । একটি a0,...,aa0a1,...,aa
কার্লসন ইউ

1
আসুন আমরা ধরে নিই যে আমি একমত যে কিছু অদ্ভুত (যা আমি এখনও সন্দেহ করি, সাধারণত, গণিতের প্রথম প্রথম সেমিস্টারের শিক্ষার্থীরা এমন কিছু নির্মাণের সাথে সীমাটি বিভ্রান্ত করে থাকে যা আসলে একটি অসীম উপাদান জড়িত থাকে) ... আমি এখনও একটি সহজ প্রশ্ন আছে: " কীভাবে সংজ্ঞায়িত হয়? আমি জানি যে এই অভিব্যক্তিটির সীমাবদ্ধ পরিমাণের অঙ্কের সাথে কী বোঝার কথা ... তবে অসীম অনেকগুলি? আপনি কি বোঝেন যে এই অভিব্যক্তিটি করে? a 1aa1...a
ফ্যাবিয়ান ওয়ার্নার

1
ইন্টারনেট। আপনি কি আমাকে কোনও পৃষ্ঠায় বা এমন কোনও জায়গায় উল্লেখ করতে পারেন যা আপনার অভিব্যক্তি সংজ্ঞা দেয়? যদি তা না হয় তবে আপনি আসলে নতুন কিছু সংজ্ঞায়িত করেছেন এবং এটি নিয়ে আলোচনার কোনও অর্থ নেই কারণ এটি কেবলমাত্র একটি প্রতীক যা আপনি তৈরি করেছিলেন (তবে এর পিছনে কোনও অর্থ নেই) ... আপনি সম্মত হন যে আমরা কেবল প্রতীক সম্পর্কে আলোচনা করতে সক্ষম যদি আমরা উভয়েই জানি তবে এর অর্থ কী? সুতরাং, এর অর্থ কী তা আমি জানি না, দয়া করে ব্যাখ্যা করুন ...
ফ্যাবিয়ান ওয়ার্নার

1

এই প্রশ্নের ইতিমধ্যে একটি দুর্দান্ত অনেক উত্তর রয়েছে, তবে বেশিরভাগটিতে ম্যানিপুলেশনগুলিতে কী চলছে তা বর্ণনা করার জন্য কয়েকটি শব্দ জড়িত। আমি আরও বেশি উপায় দিয়ে এটির উত্তর দেব, আমার ধারণা। শুরুতেই,

Gtk=t+1Tγkt1Rk

ধ্রুবক ছাড়ের গুণক in এবং 3.11 সমীকরণে সংজ্ঞায়িত করা হয়েছে এবং আমাদের বা তবে উভয়ই নয়। যেহেতু পুরষ্কারগুলি, , এলোমেলো পরিবর্তনশীল, তাই is এটি এলোমেলো ভেরিয়েবলগুলির একমাত্র লিনিয়ার সংমিশ্রণ হিসাবে।0γ1T=γ=1RkGt

vπ(s)Eπ[GtSt=s]=Eπ[Rt+1+γGt+1St=s]=Eπ[Rt+1|St=s]+γEπ[Gt+1|St=s]

সেই শেষ লাইনটি প্রত্যাশা মানগুলির লিনিয়ারিটি থেকে অনুসরণ করে। এজেন্ট লাভ সময় পদে পদে ব্যবস্থা গ্রহণের পর পুরস্কার । সরলতার জন্য, আমি অনুমান এটি মূল্যবোধের সসীম সংখ্যার উপর নিতে পারেন । Rt+1trR

প্রথম মেয়াদে কাজ। অর্থাৎ, আমি প্রত্যাশা মান গনা প্রয়োজন দেওয়া আমরা জানি যে বর্তমান রাষ্ট্র । এর সূত্রটি হ'লRt+1s

Eπ[Rt+1|St=s]=rRrp(r|s).

অন্য কথায় পুরস্কার চেহারাও সম্ভাবনা রাষ্ট্র উপর নিয়ন্ত্রিত হয় ; বিভিন্ন রাজ্যের বিভিন্ন পুরষ্কার থাকতে পারে। এই বন্টন একটি বিতরণ যে ভেরিয়েবল অন্তর্ভুক্ত একটি প্রান্তিক বন্টন হয় এবং , অ্যাকশন সময়ের এবং সময়ে রাষ্ট্র কর্ম যথাক্রমে পরে:rsp(r|s)astt+1

p(r|s)=sSaAp(s,a,r|s)=sSaAπ(a|s)p(s,r|a,s).

যেখানে আমি বইয়ের সম্মেলনটি অনুসরণ করে । গত সমতা বিভ্রান্তিকর হয়, তাহলে অঙ্কের ভুলে দমন (সম্ভাব্যতা এখন একটি যৌথ সম্ভাব্যতা মত দেখায়), গুণ আইন ব্যবহার এবং পরিশেষে উপর শর্ত পুনঃপ্রবর্তন মধ্যে সব নতুন পদ। প্রথম শব্দটি এখন এটি দেখতে সহজπ(a|s)p(a|s)ss

Eπ[Rt+1|St=s]=rRsSaArπ(a|s)p(s,r|a,s),

প্রয়োজনীয়. দ্বিতীয় মেয়াদে, যেখানে আমি ধরে যে একটি র্যান্ডম ভেরিয়েবল যা সীমাবদ্ধ সংখ্যার মান সীমাবদ্ধ করে । ঠিক প্রথম পদের মতো:Gt+1gΓ

Eπ[Gt+1|St=s]=gΓgp(g|s).()

আবার আমি লেখার মাধ্যমে সম্ভাব্যতা বিতরণকে "আনুভূক্ত করা" (আবার গুণনের আইন)

p(g|s)=rRsSaAp(s,r,a,g|s)=rRsSaAp(g|s,r,a,s)p(s,r,a|s)=rRsSaAp(g|s,r,a,s)p(s,r|a,s)π(a|s)=rRsSaAp(g|s,r,a,s)p(s,r|a,s)π(a|s)=rRsSaAp(g|s)p(s,r|a,s)π(a|s)()

সেখানে শেষ লাইনটি মার্কোভিয়ান সম্পত্তি থেকে অনুসরণ করে। মনে রাখবেন যে এর সমষ্টি সমস্ত ভবিষ্যৎ (ছাড়) পুরস্কৃত যে এজেন্ট পায় পর রাষ্ট্র । মার্কোভিয়ান সম্পত্তি হ'ল প্রক্রিয়াটি পূর্ববর্তী রাজ্য, ক্রিয়া এবং পুরষ্কারের সাথে স্মৃতিশক্তি কম। ভবিষ্যতের ক্রিয়াকলাপ (এবং তারা যে পুরষ্কার কাটবে) কেবল সেই অবস্থার উপর নির্ভর করে যেখানে পদক্ষেপ নেওয়া হয়েছে, সুতরাং , অনুমান দ্বারা। ঠিক আছে, সুতরাং প্রমাণ দ্বিতীয় শব্দটি এখনGt+1sp(g|s,r,a,s)=p(g|s)

γEπ[Gt+1|St=s]=γgΓrRsSaAgp(g|s)p(s,r|a,s)π(a|s)=γrRsSaAEπ[Gt+1|St+1=s]p(s,r|a,s)π(a|s)=γrRsSaAvπ(s)p(s,r|a,s)π(a|s)

প্রয়োজন হিসাবে, আবার। দুটি শর্তের সংমিশ্রণ প্রমাণ পূর্ণ করে

vπ(s)Eπ[GtSt=s]=aAπ(a|s)rRsSp(s,r|a,s)[r+γvπ(s)].

হালনাগাদ

আমি দ্বিতীয় পদের উদ্ভবের হাতের মুঠোয় মতো দেখতে পারে এমন ঠিকানা দিতে চাই। দিয়ে চিহ্নিত সমীকরণে , আমি শব্দটি ব্যবহার করি এবং তারপরে পরে চিহ্নিত সমীকরণে আমি দাবি করি যে মার্কোভিয়ান সম্পত্তি যুক্তি দিয়ে উপর নির্ভর করে না । সুতরাং, আপনি বলতে পারেন যে যদি এটি হয় তবে । কিন্তু এটা সত্য না. আমি কারণ উক্ত বিবৃতিটির বাম দিকের সম্ভাবনাটি বলে যে এটি , , এ শর্তযুক্ত হওয়ার সম্ভাবনা is , এবং()p(g|s)()gsp(g|s)=p(g)p(g|s,r,a,s)p(g|s)gsars। যেহেতু আমরা পারেন চেনেন বা অনুমান রাষ্ট্র , অন্যান্য কন্ডিশন কেউই Markovian সম্পত্তির কারণ কোন ব্যাপার। আপনি জানা না থাকলে বা অনুমান রাষ্ট্র , তারপর ভবিষ্যতে পুরষ্কার (অর্থ ), যা রাষ্ট্র তোমার দিকে শুরু উপর নির্ভর করবে কারণ যে নির্ধারণ করবে (নীতি উপর ভিত্তি করে) যা রাষ্ট্র যখন আপনি কম্পিউটিং এ শুরু ।ssgsg

যদি সেই যুক্তি আপনাকে বোঝায় না, কী তা গণনা করার চেষ্টা করুন :p(g)

p(g)=sSp(g,s)=sSp(g|s)p(s)=sSp(g|s)s,a,rp(s,a,r,s)=sSp(g|s)s,a,rp(s,r|a,s)p(a,s)=sSp(s)sSp(g|s)a,rp(s,r|a,s)π(a|s)sSp(s)p(g|s)=sSp(g,s)=p(g).

শেষ লাইনে যেমন দেখা যায়, এটি সত্য নয় যে । প্রত্যাশিত মান উপর যা রাষ্ট্র আপনি (অর্থাত পরিচয় শুরু নির্ভর ), আপনি যদি জানেন বা অনুমান রাষ্ট্র না ।p(g|s)=p(g)gss

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.