গ্রীষ্মে আমি যে অনলাইন লার্নিং / ডাকাত সমস্যা নিয়ে কাজ করেছিলাম তার বিমূর্ততা এখানে দেওয়া হল। আমি এর আগে কোনও সমস্যা দেখিনি এবং এটি বেশ আকর্ষণীয় দেখায়। আপনি যদি কোনও সম্পর্কিত কাজ সম্পর্কে জানেন তবে আমি উল্লেখগুলি প্রশংসা করব।
সমস্যা সেটিংসটি হ'ল বহু-সশস্ত্র ডাকাত। তোমার হাতে এন। প্রতিটি বাহুতে পুরষ্কারের চেয়ে অজানা তবে স্থির সম্ভাবনার বন্টন রয়েছে যা এটি খেলে আয় করা যায়। সংক্ষিপ্ততার জন্য, ধরে নেওয়া যাক যে প্রতিটি বাহু আমি সম্ভাব্যতার সাথে 10 ডলার পুরস্কার প্রদান করে [i] এবং পরীক্ষার সাথে reward 0 পুরষ্কার দিয়েছি। 1-পি [i] ।
প্রতি রাউন্ড টিতে আপনি খেলার জন্য একটি সেট এস [টি] বেছে নিন । আপনি যে প্রতিটি বাহু নির্বাচন করেন তার জন্য, আপনি সামনের দিকে $ 1 ডলার দিতে হবে। প্রতিটি নির্বাচিত বাহুর জন্য, আপনি একটি বাহুটির (অজানা) পুরষ্কারের সম্ভাবনা বন্টন থেকে প্রাপ্ত পুরষ্কার সংগ্রহ করেন। সমস্ত পুরষ্কারগুলি আপনার ব্যাংক অ্যাকাউন্টে জমা হয় এবং সমস্ত অ্যাকাউন্ট সেই অ্যাকাউন্ট থেকে কেটে নেওয়া হয়। এছাড়াও, প্রতিটি পুনরাবৃত্তির শুরুতে আপনি $ 1 এর ক্রেডিট পান ।
সমস্যাটি হ'ল লম্বা পর্যায়ে দিগন্তে সর্বাধিক মুনাফা অর্জনের জন্য প্রতিটি পুনরাবৃত্তিতে খেলতে অস্ত্রের উপসেটটি বেছে নেওয়ার নীতি বিকাশ করা (যেমন খেলার জন্য বিয়োগ বিয়োগের ফিগুলি), সেই সীমাবদ্ধতার সাপেক্ষে যে এটি অবশ্যই অ-নেতিবাচক অ্যাকাউন্ট ব্যালেন্স বজায় রাখতে হবে সর্বদা.
প্রতি বাহু পুরষ্কার বিতরণগুলি পূর্ব বিতরণ থেকে চয়ন করা হয় বা বিরোধী দ্বারা নির্বাচিত কিনা তা আমি নির্দিষ্ট করেছিলাম না। উভয় পছন্দ অর্থপূর্ণ। প্রতিকূল সূত্রটি আমার কাছে আরও আবেদনময়, তবে সম্ভবত অগ্রগতি করা আরও কঠিন। এখানে, বিরোধীরা বিতরণগুলির একটি ভেক্টর (ডি 1, ডি 2, .., ডিএন) চয়ন করে। বিতরণগুলি দেওয়া, সর্বোত্তম বাজেটের ভারসাম্য নীতি হ'ল সমস্ত বাহু খেলুন যার প্রত্যাশিত পুরষ্কার $ 1 এর চেয়ে বেশি। পিটিকে এই সর্বোত্তম সর্বজ্ঞানী নীতির প্রতি-পদক্ষেপের মুনাফা হতে দিন। আমি চাই আমার অনলাইন নীতিটি আফসোসকে কমিয়ে আনুক (অর্থাত্ একটি টাইম উইন্ডো টি দিয়ে লাভের ক্ষতি) এই সর্বজ্ঞানী নীতিটি ছড়িয়ে দেওয়া উচিত।