সাধারণ পুরষ্কার বিতরণের জন্য একাধিক সশস্ত্র ডাকাত


11

আমি একটি বহু-সশস্ত্র ডাকাত সমস্যা নিয়ে কাজ করছি যেখানে আমাদের পুরষ্কার বিতরণ সম্পর্কে কোনও তথ্য নেই।

আমি অনেকগুলি কাগজপত্র পেয়েছি যা জ্ঞাত বাউন্ডের সাথে বিতরণ করার জন্য এবং [0,1] সমর্থন সহ সাধারণ বিতরণের জন্য আক্ষেপের গ্যারান্টির গ্যারান্টি দেয়।

আমি সন্ধান করতে চাই যে এমন পরিবেশে ভাল পারফর্ম করার কোনও উপায় আছে যেখানে পুরষ্কার বিতরণটির সমর্থন সম্পর্কে কোনও গ্যারান্টি নেই। আমি একটি ননপ্যারমেট্রিক সহনশীলতা সীমা গণনা করার চেষ্টা করছি এবং পুরষ্কার বিতরণ করার জন্য এই নম্বরটি ব্যবহার করছি যাতে আমি এই কাগজে উল্লিখিত অ্যালগরিদম 2টি ব্যবহার করতে পারি ( http://jMLr.org/proceedings/papers/v23/agrawal12/agrawal12.pdf )। কেউ কি মনে করেন যে এই পদ্ধতির কাজ হবে?

যদি তা না হয় তবে কেউ কি আমাকে সঠিক জায়গায় চিহ্নিত করতে পারেন?

একটি গুচ্ছ ধন্যবাদ!

উত্তর:


6

এমএবি আলগোরিদিমগুলিতে গবেষণাটি তাত্ত্বিক পারফরম্যান্স গ্যারান্টির সাথে ঘনিষ্ঠভাবে জড়িত। প্রকৃতপক্ষে, এই অ্যালগরিদমগুলিতে আগ্রহের পুনরুত্থান (স্মরণ করুন 30 এর দশকে থম্পসন নমুনা প্রস্তাব করা হয়েছিল) কেবল তখনই ঘটেছিল যখন আউয়ের 2002 এর কাগজটি বিভিন্ন ইউসিবি এবং লোভীর জন্য আফসোস সীমাবদ্ধ হিসাবে প্রমাণিত হয়েছিল er ম্যাথক্যাল আলগোরিদিম। যেমন, তাত্ত্বিকভাবে বলা যায় না এমন প্রায় কিছুই নেই বলে সমস্যার মধ্যে পুরষ্কার বিতরণের কোনও সীমাবদ্ধ নেই।O(log(T))ϵ

এমনকি আপনি যে সাধারণ থম্পসন স্যাম্পলিং অ্যালগরিদমটি উল্লেখ করেছেন তার জন্য বার্নল্লি বিতরণ করা পুরষ্কারের প্রয়োজন হয় এবং এমনকি লোগারিথমিক আফসোসকে আবদ্ধ করতে 80 বছর সময় লেগেছিল!

বাস্তবে, তবে, যেসব ক্ষেত্রে আপনি নির্দিষ্ট পরিমাণের জন্য পুরষ্কার বিতরণ জানেন না, আপনি কেবলমাত্র এটি বৃহত সংখ্যক দ্বারা ভাগ করে স্কেল করতে পারেন , এবং যদি আপনি উপরে কোনও পুরস্কার লক্ষ্য করেন তবে এর চেয়ে দ্বিগুণ মান, । যদিও এই পদ্ধতির ব্যবহারের জন্য কোনও আফসোস গ্যারান্টি নেই তবে এটি সাধারণত বেশ ভালভাবে কাজ করে।[0,1]SSS:=2S

এছাড়াও, আপনি উল্লেখ করেছেন যে থম্পসন স্যাম্পলিং অ্যালগরিদমটির বার্নৌল্লি ট্রায়াল প্রয়োজন, যাতে আপনি নির্বিচারে অবিচ্ছিন্ন পুরষ্কার ব্যবহার করতে পারবেন না। আপনি একটি বিটার পরিবর্তে গাউসীয় উত্তরোত্তর বিতরণ মাপসই করতে পারেন, তবে এটি আপনার পূর্বের পছন্দটি সম্পর্কে কিছুটা সংবেদনশীল, তাই আপনি এটি খুব সমতল হতে সেট করতে চাইতে পারেন। আপনি যদি নিজের বাস্তবায়ন সম্পর্কে কিছু প্রমাণ করতে চান না তবে এটি সম্ভবত বেশ কার্যকর হবে।


1
প্রতিক্রিয়া জন্য অনেক ধন্যবাদ! আমি সত্যিই এটার প্রশংসা করছি! যদিও আমি একটি প্রশ্ন ছিল। আমি মনে করি কাগজে অ্যালগরিদম 2 (পৃষ্ঠার 39.4 শীর্ষে) আমি উল্লেখ করেছি পুরষ্কার বিতরণ সম্পর্কে কোনও প্রয়োজন নেই তবে এটি সমর্থন করে যে [0,1] এ রয়েছে। আপনি কি অ্যালগরিদম 1 এর দিকে চেয়েছিলেন?
অতিথি

হ্যাঁ, দুর্দান্ত, বার্নোল্লি নমুনায় আসল মানগুলিতে রূপান্তর করার জন্য একটি আকর্ষণীয় কৌশল the যে কোনও ইভেন্টে, যেমন আপনি বলেছেন, আপনার এখনও আবদ্ধ ভেরিয়েবলগুলি দরকার, আপনি যে সস্তা ডাবল ট্রিকটি উল্লেখ করেছেন তা দিয়ে এটি করতে পারেন এবং থম্পসন স্যাম্পলিংয়ের এই সংস্করণটি ব্যবহার করতে পারেন। তবে আপনি কোনও গৌসিয়ান উত্তরোত্তর ব্যবহার করে এমন পদ্ধতি প্রণয়ন করা ভাল।
ফেয়ারিডক্স

আমি গাউসিয়ান উত্তরোত্তর পদ্ধতিতে আরও নজর রাখব, তবে গাউসির বিবেচনায় "ফ্ল্যাট" বলতে কী বোঝ? আমি ধরে নেব যে বিটা (1,1) (ইউনিফর্ম) এর মতো কিছু আগে মিলবে, সঠিক?
অতিথি

ঠিক আছে, তবে আনবাউন্ডেড ডোমেনের আগে আপনি অবশ্যই অভিন্ন থাকতে পারবেন না। সুতরাং, আপনার যদি কোনও গাউসিয়ান উত্তরোত্তর মডেল থাকে আপনার সম্ভবত কোনও গাউসিয়ান আগে থাকতে পারে, তাই আপনি সাধারণত এটি "সমতল" বা যতটা সম্ভব তথ্যহীন হিসাবে রাখতে চান। এর অর্থ হ'ল আপনি যেমন দাঁড়াতে পারেন তত বৈকল্পিকতা তৈরি করা। আমি কোনও বিশেষজ্ঞ নই তবে কীভাবে অপ্রয়োজনীয়, এবং সম্ভাব্যভাবে অনুচিত, প্রিয়ার আপনি কীভাবে সন্ধান করতে চান সেগুলি কীভাবে তৈরি করবেন সে সম্পর্কে সম্পূর্ণ স্টাডি রয়েছে। এছাড়াও, যদি আপনার কঠোরভাবে ইতিবাচক পুরষ্কার থাকে তবে আপনি অন্য কোনও মডেল বিবেচনা করতে চাইতে পারেন।
ফেয়ারিডক্স
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.