ইউসিবি প্রকৃতপক্ষে স্টোকাস্টিক ক্ষেত্রে (একটি টি রাউন্ড গেমের জন্য একটি লগ টি ফ্যাক্টর পর্যন্ত) সর্বোত্তম কাছাকাছি, এবং আরও সমস্যা নির্ভর অর্থে পিনস্কারের অসমতার ব্যবধান পর্যন্ত। অডিবার্ট এবং বুব্যাকের সাম্প্রতিক কাগজটি সবচেয়ে খারাপ ক্ষেত্রে এই লগ নির্ভরতা অপসারণ করে, তবে অনুকূল ক্ষেত্রে আরও খারাপভাবে আবদ্ধ হয় যখন বিভিন্ন বাহু ভালভাবে পৃথক পুরষ্কার লাভ করে।
সাধারণভাবে, ইউসিবি হল অ্যালগোরিদমের বৃহত্তর পরিবারের একজন প্রার্থী। গেমের যে কোনও পর্যায়ে, আপনি এমন সমস্ত বাহুগুলি দেখতে পারেন যা "অযোগ্য" নয়, যাঁর উপরের আত্মবিশ্বাসটি কোনও বাহুর নীচের আত্মবিশ্বাসের চেয়ে কম নয়। এ জাতীয় যোগ্য অস্ত্রগুলির যে কোনও বিতরণের উপর ভিত্তি করে বাছাই করা একটি বৈধ কৌশল গঠন করে এবং ধ্রুবকদের কাছে একইরকম অনুশোচনা পায়।
অভিজ্ঞতাগতভাবে, আমি মনে করি না যে অনেকগুলি বিভিন্ন কৌশলগুলির একটি উল্লেখযোগ্য মূল্যায়ন হয়েছে, তবে আমি মনে করি ইউসিবি প্রায়শই বেশ ভাল থাকে।
সর্বাধিক সাম্প্রতিক গবেষণাগুলি স্টোকাস্টিক পুরষ্কার সহ সাধারণ কে-সশস্ত্র বিন্যাসের বাইরে, খুব বড় (বা অসীম) অ্যাকশন স্পেসে, পার্শ্ব সম্পর্কিত তথ্য সহ বা ছাড়াই এবং স্টোকাস্টিক বা প্রতিকূল প্রতিক্রিয়ার অধীনে দস্যু সমস্যাগুলি বাড়ানোর দিকে মনোনিবেশ করেছে। এমন পরিস্থিতিতেও কাজ হয়েছে যেখানে পারফরম্যান্সের মানদণ্ড আলাদা (যেমন কেবল সেরা বাহুর সনাক্তকরণ)।