সেরা ডাকাত অ্যালগরিদম?


27

সর্বাধিক সুপরিচিত ডাকাত অ্যালগরিদম হ'ল আপার কনফিডেন্স বাউন্ড (ইউসিবি) যা এই শ্রেণীর অ্যালগরিদমকে জনপ্রিয় করেছে। সেই থেকে আমি ধারণা করছি এখন আরও ভাল অ্যালগরিদম আছে। বর্তমানের সেরা অ্যালগরিদম কী (উভয় ক্ষেত্রে অভিজ্ঞতামূলক পারফরম্যান্স বা তাত্ত্বিক সীমার ক্ষেত্রে)? এই অ্যালগরিদম কি কোনও অর্থে অনুকূল?

উত্তর:


25

এনআইপিএস ২০১১-এর একটি গবেষণাপত্র ("থম্পসন স্যাম্পলিংয়ের এক অভিজ্ঞতামূলক মূল্যায়ন") পরীক্ষায় দেখা গেছে যে থম্পসন স্যাম্পলিং ইউসিবিকে মারধর করে। ইউসিবি এমন লিভার বাছাইয়ের উপর ভিত্তি করে যা আশাবাদী অনুমানের অধীনে সর্বাধিক পুরষ্কারের প্রতিশ্রুতি দেয় (অর্থাত্ আপনার প্রত্যাশিত পুরষ্কারের প্রাক্কলনের অনুমানের পরিমাণটি বেশি, সুতরাং আপনি লিভারগুলি টানেন যা আপনি ভাল জানেন না)। পরিবর্তে, থম্পসন স্যাম্পলিং পুরোপুরি বেয়েসিয়ান: এটি একটি উত্তরোত্তর বিতরণ থেকে একটি দস্যু কনফিগারেশন (অর্থাত্ প্রত্যাশিত পুরষ্কারের ভেক্টর) উত্পন্ন করে এবং তারপরে কাজ করে যেমন এটি সত্যিকারের কনফিগারেশন (যেমন এটি সর্বাধিক প্রত্যাশিত পুরষ্কার সহ লিভারকে টেনে তোলে)।

বেইসিয়ান কন্ট্রোল রুল (" শিখুন এবং অভিনয়ের জন্য একটি নূন্যতম আপেক্ষিক এন্ট্রপি নীতি ", জেআইআইআর), থম্পসন স্যাম্পলিংকে তথ্য-তাত্ত্বিক নীতি এবং কার্যকারিতা থেকে প্রাপ্ত করে। বিশেষত, এটি প্রদর্শিত হয় যে আপনি যখন কৌশল এবং (অজানা) সর্বোত্তম কৌশলটির মধ্যে কেএলকে ন্যূনতম করতে চান এবং যদি আপনি কার্যকারণীয় বাধা বিবেচনা করেন তবে বেইসিয়ান কন্ট্রোল বিধিটিই সর্বোত্তম কৌশল strategy কেন এটি গুরুত্বপূর্ণ তা কারণ কারণগুলিকে বায়েশিয়ান অনুক্রমের ক্রিয়াকলাপ হিসাবে দেখানো যেতে পারে: যখন আপনার পারফরম্যান্সের মানদণ্ডটি আপনার অনুমানকারী এবং (অজানা) সত্য বিতরণের মধ্যে কেএল হয় তখন বেইসিয়ান অনুমানটি সর্বোত্তম ভবিষ্যদ্বাণী কৌশল হিসাবে দেখানো যেতে পারে।


16

ইউসিবি প্রকৃতপক্ষে স্টোকাস্টিক ক্ষেত্রে (একটি টি রাউন্ড গেমের জন্য একটি লগ টি ফ্যাক্টর পর্যন্ত) সর্বোত্তম কাছাকাছি, এবং আরও সমস্যা নির্ভর অর্থে পিনস্কারের অসমতার ব্যবধান পর্যন্ত। অডিবার্ট এবং বুব্যাকের সাম্প্রতিক কাগজটি সবচেয়ে খারাপ ক্ষেত্রে এই লগ নির্ভরতা অপসারণ করে, তবে অনুকূল ক্ষেত্রে আরও খারাপভাবে আবদ্ধ হয় যখন বিভিন্ন বাহু ভালভাবে পৃথক পুরষ্কার লাভ করে।

সাধারণভাবে, ইউসিবি হল অ্যালগোরিদমের বৃহত্তর পরিবারের একজন প্রার্থী। গেমের যে কোনও পর্যায়ে, আপনি এমন সমস্ত বাহুগুলি দেখতে পারেন যা "অযোগ্য" নয়, যাঁর উপরের আত্মবিশ্বাসটি কোনও বাহুর নীচের আত্মবিশ্বাসের চেয়ে কম নয়। এ জাতীয় যোগ্য অস্ত্রগুলির যে কোনও বিতরণের উপর ভিত্তি করে বাছাই করা একটি বৈধ কৌশল গঠন করে এবং ধ্রুবকদের কাছে একইরকম অনুশোচনা পায়।

অভিজ্ঞতাগতভাবে, আমি মনে করি না যে অনেকগুলি বিভিন্ন কৌশলগুলির একটি উল্লেখযোগ্য মূল্যায়ন হয়েছে, তবে আমি মনে করি ইউসিবি প্রায়শই বেশ ভাল থাকে।

সর্বাধিক সাম্প্রতিক গবেষণাগুলি স্টোকাস্টিক পুরষ্কার সহ সাধারণ কে-সশস্ত্র বিন্যাসের বাইরে, খুব বড় (বা অসীম) অ্যাকশন স্পেসে, পার্শ্ব সম্পর্কিত তথ্য সহ বা ছাড়াই এবং স্টোকাস্টিক বা প্রতিকূল প্রতিক্রিয়ার অধীনে দস্যু সমস্যাগুলি বাড়ানোর দিকে মনোনিবেশ করেছে। এমন পরিস্থিতিতেও কাজ হয়েছে যেখানে পারফরম্যান্সের মানদণ্ড আলাদা (যেমন কেবল সেরা বাহুর সনাক্তকরণ)।


4

শিল্পের বর্তমান অবস্থাটি এভাবে সংক্ষেপে বলা যেতে পারে:

  • RT=O(KlogTΔ)
  • R~T=O(TKlogK)
  • প্রসঙ্গে: এটি জটিল

TKΔ

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.