যদি পরিবেশটিও স্টকেস্টিক হয় তবে সর্বোত্তম নীতি কি সর্বদা স্টোকাস্টিক (অর্থাত্ রাজ্য থেকে ক্রিয়াকলাপের সম্ভাবনা বন্টনের মানচিত্র) হয়?
না।
একটি অনুকূল নীতি সাধারণত নির্বিচারিক হয় যদি না:
গুরুত্বপূর্ণ রাষ্ট্রীয় তথ্য অনুপস্থিত (একটি POMDP)। উদাহরণস্বরূপ, এমন কোনও মানচিত্রে যেখানে এজেন্টকে তার সঠিক অবস্থানটি জানতে বা পূর্ববর্তী রাজ্যগুলি মনে রাখার অনুমতি দেওয়া হয় না এবং যে রাষ্ট্রটি দেওয়া হয় তা অবস্থানগুলির মধ্যে বিভক্ত করার পক্ষে যথেষ্ট নয়। যদি লক্ষ্যটি একটি নির্দিষ্ট প্রান্তে পৌঁছানো হয়, তবে সর্বোত্তম নীতিতে আটকা পড়ে না যাওয়ার জন্য কিছু এলোমেলো পদক্ষেপ অন্তর্ভুক্ত থাকতে পারে। নোট করুন যে এক্ষেত্রে পরিবেশ নির্বিচারে হতে পারে (যে কোনও ব্যক্তির দৃষ্টিকোণ থেকে যারা পুরো রাজ্যটি দেখতে পারে) তবে এখনও এটি সমাধানের জন্য স্টোকাস্টিক নীতি প্রয়োজন হতে পারে।
এখানে একরকম মিনিমেক্স গেম থিওরির দৃশ্যাবলী রয়েছে, যেখানে পরিবেশবাদী বা অন্য কোনও এজেন্টের দ্বারা একটি নিরোধবাদী নীতি শাস্তি পেতে পারে। কাঁচি / কাগজ / পাথর বা বন্দীর দ্বিধাদান ভাবুন।
স্বজ্ঞাতভাবে বলা যায়, পরিবেশ যদি পরিবেশবাদী হয় (অর্থাৎ যদি এজেন্ট কোনও অবস্থায় থাকে action এবং পদক্ষেপ নেয় 𝑎 তবে পরবর্তী অবস্থা always always সর্বদা একই থাকে, সময় কোন পদক্ষেপেই নয়) তবে সর্বোত্তম নীতিটিও নির্বিচারবাদী হওয়া উচিত (এটি হ'ল রাজ্য থেকে ক্রিয়াকলাপের ক্ষেত্রে একটি মানচিত্র হওয়া উচিত, এবং ক্রিয়াগুলির দ্বারা সম্ভাব্য বন্টন নয়)।
এটি যুক্তিসঙ্গত বলে মনে হচ্ছে, তবে আপনি কোনও মান ফাংশনের উপর ভিত্তি করে যে কোনও পদ্ধতিতে এই স্বীকৃতিটি আরও নিতে পারেন:
আপনি একটি অনুকূল মান ফাংশন পাওয়া যায়, তাহলে সম্মান সঙ্গে সাগ্রহে অভিনয় এটি হল অনুকূল নীতি।
উপরের বিবৃতিটি বেলম্যান অনুকূলতা সমীকরণের একটি প্রাকৃতিক ভাষার পুনরায় বিবৃতি:
বনাম*(s)=maxa∑r,s′p(r,s′|s,a)(r+γv∗(s′))
যেমন সর্বদা পরবর্তী পদক্ষেপের পুরষ্কার এবং ছাড়ের মূল্যকে সর্বাধিক করে তোলে এমন ক্রিয়াটি বেছে নেওয়ার সময় সর্বোত্তম মানগুলি পাওয়া যায়। দ্যসর্বোচ্চএকটি অপারেশন হ'ল ডিটারমিনিস্টিক (প্রয়োজনে সর্বাধিক মান নির্ধারণের জন্য বন্ধনগুলি ভাঙ্গতে পারেন যেমন ক্রমের একটি আদেশযুক্ত তালিকার সাথে)।
অতএব, MDP দ্বারা মডেল করা যায় এবং মান-ভিত্তিক পদ্ধতি দ্বারা সমাধান করা যায় এমন যে কোনও পরিবেশের (উদাহরণস্বরূপ মান পুনরাবৃত্তি, কিউ-লার্নিং) একটি অনুকূল নীতি রয়েছে যা নির্বিচারক।
এটি এমন পরিবেশে সম্ভব যে সর্বোত্তম সমাধানটি মোটেও স্টোকাস্টিক নাও হতে পারে (যেমন আপনি যদি নির্ধারক অনুকূল নীতিতে কোনও এলোমেলোতা যোগ করেন তবে নীতিটি কঠোরভাবে খারাপ হয়ে যাবে)। যাইহোক, যখন এক বা একাধিক রাজ্যে এক বা একাধিক ক্রিয়াকলাপের সর্বাধিক মানের জন্য বন্ধন থাকে তখন একাধিক সমতুল্য সর্বোত্তম এবং নির্মূলনীতি থাকে are আপনি একটি স্টোকাস্টিক নীতি তৈরি করতে পারেন যা এগুলিকে যে কোনও সংমিশ্রণে মিশিয়ে দেয় এবং এটি সর্বোত্তমও হবে।