যদি পরিবেশটিও স্টকেস্টিক হয় তবে সর্বনিম্ন নীতি কি সর্বদা স্টোকাস্টিক?


10

যদি পরিবেশটিও স্টকেস্টিক হয় তবে সর্বোত্তম নীতি কি সর্বদা স্টোকাস্টিক (অর্থাত্ রাজ্য থেকে ক্রিয়াকলাপের সম্ভাবনা বন্টনের মানচিত্র) হয়?

Intuitively, যদি পরিবেশ নির্ণায়ক (যেমন, যদি এজেন্ট অবস্থায় রয়েছেগুলি এবং পদক্ষেপ নেয় একটি, তারপরে পরবর্তী রাষ্ট্র গুলি' যে কোনও সময় পদক্ষেপের বিষয়টি বিবেচনা না করেই সর্বদা একরকম থাকে, তবে সর্বোত্তম নীতিটিও নির্বিচারবাদী হওয়া উচিত (এটি হ'ল রাজ্য থেকে ক্রিয়াকলাপের ক্ষেত্রে একটি মানচিত্র হওয়া উচিত, এবং ক্রিয়াগুলির উপর সম্ভাব্যতা বন্টনের জন্য নয়)।


এখানে একটি সম্পর্কিত প্রশ্ন: mathoverflow.net/q/44677
nbro

উত্তর:


6

যদি পরিবেশটিও স্টকেস্টিক হয় তবে সর্বোত্তম নীতি কি সর্বদা স্টোকাস্টিক (অর্থাত্ রাজ্য থেকে ক্রিয়াকলাপের সম্ভাবনা বন্টনের মানচিত্র) হয়?

না।

একটি অনুকূল নীতি সাধারণত নির্বিচারিক হয় যদি না:

  • গুরুত্বপূর্ণ রাষ্ট্রীয় তথ্য অনুপস্থিত (একটি POMDP)। উদাহরণস্বরূপ, এমন কোনও মানচিত্রে যেখানে এজেন্টকে তার সঠিক অবস্থানটি জানতে বা পূর্ববর্তী রাজ্যগুলি মনে রাখার অনুমতি দেওয়া হয় না এবং যে রাষ্ট্রটি দেওয়া হয় তা অবস্থানগুলির মধ্যে বিভক্ত করার পক্ষে যথেষ্ট নয়। যদি লক্ষ্যটি একটি নির্দিষ্ট প্রান্তে পৌঁছানো হয়, তবে সর্বোত্তম নীতিতে আটকা পড়ে না যাওয়ার জন্য কিছু এলোমেলো পদক্ষেপ অন্তর্ভুক্ত থাকতে পারে। নোট করুন যে এক্ষেত্রে পরিবেশ নির্বিচারে হতে পারে (যে কোনও ব্যক্তির দৃষ্টিকোণ থেকে যারা পুরো রাজ্যটি দেখতে পারে) তবে এখনও এটি সমাধানের জন্য স্টোকাস্টিক নীতি প্রয়োজন হতে পারে।

  • এখানে একরকম মিনিমেক্স গেম থিওরির দৃশ্যাবলী রয়েছে, যেখানে পরিবেশবাদী বা অন্য কোনও এজেন্টের দ্বারা একটি নিরোধবাদী নীতি শাস্তি পেতে পারে। কাঁচি / কাগজ / পাথর বা বন্দীর দ্বিধাদান ভাবুন।

স্বজ্ঞাতভাবে বলা যায়, পরিবেশ যদি পরিবেশবাদী হয় (অর্থাৎ যদি এজেন্ট কোনও অবস্থায় থাকে action এবং পদক্ষেপ নেয় 𝑎 তবে পরবর্তী অবস্থা always always সর্বদা একই থাকে, সময় কোন পদক্ষেপেই নয়) তবে সর্বোত্তম নীতিটিও নির্বিচারবাদী হওয়া উচিত (এটি হ'ল রাজ্য থেকে ক্রিয়াকলাপের ক্ষেত্রে একটি মানচিত্র হওয়া উচিত, এবং ক্রিয়াগুলির দ্বারা সম্ভাব্য বন্টন নয়)।

এটি যুক্তিসঙ্গত বলে মনে হচ্ছে, তবে আপনি কোনও মান ফাংশনের উপর ভিত্তি করে যে কোনও পদ্ধতিতে এই স্বীকৃতিটি আরও নিতে পারেন:

আপনি একটি অনুকূল মান ফাংশন পাওয়া যায়, তাহলে সম্মান সঙ্গে সাগ্রহে অভিনয় এটি হল অনুকূল নীতি।

উপরের বিবৃতিটি বেলম্যান অনুকূলতা সমীকরণের একটি প্রাকৃতিক ভাষার পুনরায় বিবৃতি:

v(s)=maxar,sp(r,s|s,a)(r+γv*(s'))

যেমন সর্বদা পরবর্তী পদক্ষেপের পুরষ্কার এবং ছাড়ের মূল্যকে সর্বাধিক করে তোলে এমন ক্রিয়াটি বেছে নেওয়ার সময় সর্বোত্তম মানগুলি পাওয়া যায়। দ্যসর্বোচ্চএকটি অপারেশন হ'ল ডিটারমিনিস্টিক (প্রয়োজনে সর্বাধিক মান নির্ধারণের জন্য বন্ধনগুলি ভাঙ্গতে পারেন যেমন ক্রমের একটি আদেশযুক্ত তালিকার সাথে)।

অতএব, MDP দ্বারা মডেল করা যায় এবং মান-ভিত্তিক পদ্ধতি দ্বারা সমাধান করা যায় এমন যে কোনও পরিবেশের (উদাহরণস্বরূপ মান পুনরাবৃত্তি, কিউ-লার্নিং) একটি অনুকূল নীতি রয়েছে যা নির্বিচারক।

এটি এমন পরিবেশে সম্ভব যে সর্বোত্তম সমাধানটি মোটেও স্টোকাস্টিক নাও হতে পারে (যেমন আপনি যদি নির্ধারক অনুকূল নীতিতে কোনও এলোমেলোতা যোগ করেন তবে নীতিটি কঠোরভাবে খারাপ হয়ে যাবে)। যাইহোক, যখন এক বা একাধিক রাজ্যে এক বা একাধিক ক্রিয়াকলাপের সর্বাধিক মানের জন্য বন্ধন থাকে তখন একাধিক সমতুল্য সর্বোত্তম এবং নির্মূলনীতি থাকে are আপনি একটি স্টোকাস্টিক নীতি তৈরি করতে পারেন যা এগুলিকে যে কোনও সংমিশ্রণে মিশিয়ে দেয় এবং এটি সর্বোত্তমও হবে।


1
"এমন পরিবেশে সম্ভব যে কোনও স্টোকাস্টিক নীতিই অনুকূল নয়", আপনার অর্থ নির্মাতামূলক নীতি?
এনবিরো

2
@ এনব্রো: না, আমি আসলেই বোঝাতে চাইছি যে সর্বোত্তম স্টোকাস্টিক নীতি নেই। সাধারণত এটি হয়। একটি সাধারণ গোলকধাঁধা সমাধানকারী উদাহরণস্বরূপ চিন্তা করুন। যদি অনুকূল নিরোধক সমাধানটি প্রারম্ভ থেকে প্রস্থান করার একক পথ হয় তবে এতে কোনও এলোমেলোতা যুক্ত করা নীতিটিকে আরও কঠোর করে তুলবে। পরিবেশটি এলোমেলো আওয়াজ যোগ করলে এটি পরিবর্তিত হয় না (উদাহরণস্বরূপ কখনও কখনও ব্যর্থ হয়)
নিল স্লেটার

2
আমি এখন বুঝতে পেরেছি. আপনি বলছেন যে সর্বদা একটি নিয়মনীতিবিরোধী নীতি থাকে, তারপরে একটি নীতি যা স্টোকাস্টিক এবং ডিটারমিনিস্টিক নীতি থেকে উদ্ভূত হয় তা সম্ভবত সর্বোত্তম নির্বাহী নীতির চেয়ে খারাপ হতে পারে।
nbro

1
@ এনব্রো: হ্যাঁ, এটিই
নিল স্লেটার

5

আমি বলব না।

উদাহরণস্বরূপ, মাল্টি-সশস্ত্র ডাকাত সমস্যাটি বিবেচনা করুন । সুতরাং তোমার আছেএন বাহুতে যা সকলেরই আপনাকে পুরষ্কার দেওয়ার সম্ভাবনা রয়েছে (1 পয়েন্ট, উদাহরণস্বরূপ), পিআমি, আমি 1 এবং এর মধ্যে হচ্ছে এন। এটি একটি সাধারণ স্টোকাস্টিক পরিবেশ: এটি একটি রাষ্ট্রীয় পরিবেশ, তবে এটি এখনও একটি পরিবেশ।

তবে স্পষ্টতই সর্বোত্তম নীতিটি হ'ল সর্বাধিকের সাথে বাহুটি বেছে নেওয়া পিআমি। সুতরাং এটি স্টোকাস্টিক নীতি নয়।

স্পষ্টতই, আপনি যদি এমন পরিবেশে থাকেন যেখানে আপনি অন্য এজেন্টের বিরুদ্ধে খেলেন (একটি গেম থিওরি সেটিং), আপনার অনুকূল নীতি অবশ্যই স্টোকাস্টিক হবে (উদাহরণস্বরূপ কোনও পোকার গেমের কথা ভাবেন)।


সর্বদা সর্বাধিকের সাথে বাহুটি বেছে নেওয়া কেন স্পষ্ট হবে পিআমি? পিআমি একটি সম্ভাবনা, তাই এটি নিশ্চিত নয় যে আপনি সর্বদা বাহুটি বেছে নিলে আপনি সর্বদা সর্বোচ্চ পরিমাণে পুরস্কার পাবেন (কমপক্ষে, সীমাবদ্ধ সময়ে) আমি
nbro

2
@ এনব্রো: এটি প্রত্যাশার মধ্যে নিশ্চিত, যা সর্বোত্তম নীতিটি সর্বাধিক। নীতিগুলি এলোমেলো সংখ্যা জেনারেটরদের দ্বিতীয়-অনুমান করার চেষ্টা করে না, এটি অসম্ভব বলে ধরে নেওয়া হয়েছে (যদি এটি সিস্টেমের অভ্যন্তরীণ অবস্থার কারণে সম্ভব হত তবে আপনাকে অবশ্যই অভ্যন্তরীণ রাজ্যটিকে মডেলটিতে যুক্ত করতে হবে, বা একটি POMDP হিসাবে গণ্য করতে হবে)
নীল স্লেটার

@ নিলস্ল্যাটার ঠিক আছে তবে সময় সসীম হলে উপসংহার পরিবর্তন হবে? আপনার যদি খেলার জন্য সীমিত পরিমাণ থাকে, তবে প্রত্যাশাটি, আমার ধারণা, খেলার জন্য উপলভ্য সময়টিও বিবেচনা করতে হবে।
এনবিরো

2
@ এনব্রো: এটি আপনার সিদ্ধান্তগুলি পরিবর্তন করতে পারে তবে সর্বোত্তম নীতি সম্পর্কে নয়। ডাকাত অস্ত্রের জন্য সর্বোত্তম নীতিটি সর্বশ্রেষ্ঠ বাহু ব্যবহারের বিষয়ে এখনও নির্বিচারক, তবে আপনি এটি জানেন না। এটি এক্সপ্লোরেশন বনাম শোষণ সম্পর্কে। আপনি বলতে পারেন যে সম্ভবত "ডাকাত সমস্যা অন্বেষণের জন্য সর্বোত্তম নীতি" হিসাবে রয়েছে। উদাহরণস্বরূপ স্টটন ও বার্তোতে ব্যবহৃত পরিভাষাগুলি নয়, তবে সম্ভবত কিছু পার্টিশনাররা এটি বলে, আমি জানি না। । ।
নিল স্লেটার

1
পরিবেশে কেবলমাত্র একটি রাষ্ট্র রয়েছে যেখানে আপনি বারবার একই সিদ্ধান্তের মুখোমুখি হন: আমাকে কোন বাহু নির্বাচন করতে হবে?
এড্রিয়েন ফোরবু

0

আমি একটি সম্ভাব্য ভূদৃশ্য সম্পর্কে ভাবছি, যেখানে আপনি নিজেকে অভিনেতা হিসাবে খুঁজে পেয়েছেন, বিভিন্ন অজানা শৃঙ্গ এবং গর্ত সহ। একটি ভাল নির্মাতারা পদ্ধতি সর্বদা আপনাকে নিকটতম স্থানীয় সর্বোত্তমের দিকে পরিচালিত করে, তবে অগত্যা গ্লোবাল সর্বোত্তম নয়। বিশ্বব্যাপী সর্বোত্তম খুঁজে পেতে, একটি এমসিএমসি অ্যালগরিদমের মতো কিছু একটি স্থানীয় সর্বোত্তম থেকে অব্যাহতি পেতে এবং বৈশ্বিক সর্বোত্তম খুঁজে পাওয়ার জন্য সাময়িকভাবে আরও খারাপ পরিণতিটিকে স্থিরভাবে গ্রহণ করতে দেয় allow আমার স্বজ্ঞাততা হ'ল স্টোকাস্টিক পরিবেশে এটিও সত্য।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.