নিম্নলিখিত ডিফারেনশিয়াল সমীকরণ বিবেচনা
x˙(t)=f(x(t),u(t))
যেখানে
x রাষ্ট্র নেই এবং
u নিয়ন্ত্রণ পরিবর্তনশীল। সমাধানটি
x(t)=x0+∫t0f(x(s),u(s))ds.
যেখানে
x0:=x(0) হল প্রদত্ত মূল অবস্থা।
এখন নিম্নলিখিত প্রোগ্রামাম বিবেচনা করুন
s.t. V(x0):=maxu∫∞0e−ρtF(x(t),u(t))dtx˙(t)=f(x(t),u(t))x(0)=x0
যেখানেসময় পছন্দকে বোঝায়,হ'ল মান এবংএকটি উদ্দেশ্যমূলক ফাংশন। একটি ধ্রুপদী অর্থনৈতিক প্রয়োগ হ'ল সর্বোত্তম বৃদ্ধির রামসে-ক্যাস-কোপম্যানস মডেল। হ্যামিল্টন-জ্যাকোবি-বেলম্যান সমীকরণটি
ভি ( ⋅ ) এফ ( ⋅ ) ρ ভি ( এক্স ) = সর্বাধিক ইউ [ এফ ( এক্স , ইউ ) + ভি ′ ( এক্স ) ফ ( এক্স , ইউ ) ] ,ρ>0V(⋅)F(⋅)ρV(x)=maxu[F(x,u)+V′(x)f(x,u)],∀t∈[0,∞).
বলুন আমি জন্য এইচজেবি সমাধান করেছি V। সর্বোত্তম নিয়ন্ত্রণটি তখন
u∗=argmaxu[F(x,u)+V′(x)f(x,u)].
আমি রাষ্ট্র ও নিয়ন্ত্রণের জন্য অনুকূল নির্দিষ্ট আবক্র পাবেন
{(x∗(t),u∗(t)):t∈[0,∞)} ।
উইকি নিবন্ধে বলেছেন
... তবে পুরো রাষ্ট্রীয় স্থানের সমাধানের সময়, এইচজেবি সমীকরণটি সর্বোত্তমের জন্য প্রয়োজনীয় এবং পর্যাপ্ত শর্ত।
Bertsekas (2005) সালে ডায়নামিক প্রোগ্রামিং এবং অনুকূল নিয়ন্ত্রণ , ভোল 1, 3 য় সংস্করণ।, প্রোপজিসন 3.2.1 তিনি যে জন্য সমাধানে অনুকূল খরচ টু যেতে ফাংশন এবং সংশ্লিষ্ট তোমার দর্শন লগ করা * অনুকূল নয়। যাইহোক, তিনি স্পষ্টভাবে এটি পর্যাপ্তর উপপাদ্য হিসাবে ঘোষণা করেছেন।Vu∗
প্রকৃতপক্ষে, আমি কেবল এটি নিশ্চিত করতে চাই যে, আমি যদি এইচজেবি সমাধান করেছি এবং সম্পর্কিত রাষ্ট্র এবং নিয়ন্ত্রণের ট্র্যাজেক্টরিগুলি পুনরুদ্ধার করেছি, তবে আমাকে কোনও অতিরিক্ত অনুকূল পরিস্থিতির সাথে উদ্বিগ্ন হওয়ার দরকার নেই।
সমাধান
আমি চেষ্টা
আমি মনে করি আমি নিজেই এইচজেবি সমীকরণ দ্বারা সর্বোচ্চ নীতি থেকে প্রয়োজনীয় শর্তাদি অর্জন করতে সক্ষম হয়েছি।
H(x,u,V′(x)):=F(x,u)+V′(x)f(x,u)
ρV(x)=maxuH(x,u,V′(x))
ρV(x)=H(x,u∗,V′(x)).
q:[0,∞)→Rq(0)=limt→∞q(t)=0
x=x∗+εq
ε∈R
ρV(x∗+εq)=H(x∗+εq,u∗,V′(x∗+εq)).
ε=0ε
ρV′q=Hxq+HV′V′′q.
এখন সাথে অ্যাডেজমেন্ট ভেরিয়েবলটি সংজ্ঞায়িত করুন
λ=V′(x).
সময়ের সাথে পার্থক্য
λ˙=V′′x˙.
এবং নোট করুন যে
HV′=f(x,u)=x˙.
ফোকাসে এভারথিং প্লাগ করুন gives
ρλ=Hx+λ˙.
এটাই অনেক সুন্দর। সুতরাং এইচজেবি সমাধান করা অনুকূলতার জন্য প্রয়োজনীয় এবং পর্যাপ্ত (এখানে বাদ দেওয়া)। কারও উচিত এটি উইকে যুক্ত করা উচিত। এই জাতীয় সমস্যাগুলি সম্পর্কে চিন্তাভাবনা করা লোকদের জন্য সময় সাশ্রয় করতে পারে (আমার পক্ষে তেমন কিছু হবে না)।
তবে রূপান্তরযোগ্যতা শর্ত
অনুপস্থিত।
limt→∞e−ρtλ(t)=0
II চেষ্টা
পেওফের কার্যক্ষম সংজ্ঞায়িত করুন
J(u):=∫∞0e−ρtF(x,u)dt
নোট করুন যে
সংজ্ঞা অনুসারে । পারফরম্যান্সাল জন্য নিরপেক্ষ মেয়াদ যুক্ত করুন
∫∞0e−ρtλ[f(x,u)−x˙]dt=0
x˙=f(x,u)J(u)=∫∞0e−ρt[F(x,u)+λf(x,u)]dt−∫∞0e−ρtλx˙dt=∫∞0e−ρtH(x,u,λ)−∫∞0e−ρtλx˙dt
ডান টার্মের অংশগুলির দ্বারা একীকরণের ফলে আরএইচএস ফলন হবে
∫∞0e−ρtλx˙dt=[e−ρtλ(t)x(t)]∞0−∫∞0e−ρtx(λ˙−ρλ)dt
সেই পদটি পুনরায় প্রতিস্থাপন করুন
J(u)=∫∞0e−ρt[H(x,u,λ)+x(λ˙−ρλ)]dt−limt→∞e−ρtλ(t)x(t)+λ(0)x(0)
নির্ধারণ করুন
xu=x∗+εq=u∗+εp
যা
J(ε)=∫∞0e−ρt[H(x∗+εq,u∗+εp,λ)+(x∗+εq)(λ˙−ρλ)]dt−limt→∞e−ρtλ(t)[x∗(t)+εq(t)]+λ(0)x(0)
সর্বাধিকJε=0
Jε=∫∞0e−ρt[Hxq+Hup+q(λ˙−ρλ)]dt−limt→∞e−ρtλ(t)q(t)=0
যেহেতু এবং আমাদের অবশ্যই
qp
HuHxlimt→∞e−ρtλ(t)=0=ρλ−λ˙=0