সাধারণ লোকের পদে থম্পসন নমুনা কী?

আমি থম্পসন স্যাম্পলিং এবং এটি কীভাবে কাজ করে তা বুঝতে অক্ষম । আমি মাল্টি আর্ম ব্যান্ডিট সম্পর্কে পড়ছিলাম এবং উচ্চ আত্মবিশ্বাসের বাউন্ড অ্যালগরিদম পড়ার পরে, অনেক পাঠ্যে পরামর্শ দেওয়া হয়েছিল যে থম্পসন স্যাম্পলিং ইউসিবির চেয়ে আরও ভাল অভিনয় করে। থম্পসন স্যাম্পলিং সাধারণ ব্যক্তির বা সাধারণ ভাষায় কী?

আরও বোঝার জন্য নিখরচায় রেফারেন্স নিবন্ধ সরবরাহ করুন।

machine-learning definition multiarmed-bandit

— Dejavu
সূত্র

উত্তর:

আমি কোনও গণিত ছাড়াই ব্যাখ্যা দেওয়ার চেষ্টা করতে যাচ্ছি। এমএবি সমস্যা সম্পর্কিত অন্য প্রশ্নের উত্তরে আমি তৈরি কিছু পয়েন্ট থেকে এই উত্তরের অংশটি পুনরাবৃত্তি হয়েছে ।

কৌশলগত ট্রেড বন্ধ বহু-হাতি ডাকাত সমস্যার মধ্যে: মধ্যে বহু-হাতি ডাকাত সমস্যার জুয়াড়ি একটি "ডাকাত" প্রতিটি বৃত্তাকার এবং প্রচেষ্টা পালন করে চক্রের একটি প্রদত্ত সংখ্যার উপর তার মোট প্রত্যাশিত রিটার্ন পূর্ণবিস্তার। প্রত্যেকটি দস্যুর প্রত্যাশিত প্রত্যাবর্তন সমস্যার কিছু অজানা প্যারামিটার দ্বারা বর্ণিত হয়েছে, এবং তাই আমরা প্রতিটি রাউন্ডে আরও ফলাফল পর্যবেক্ষণ করার সাথে সাথে আমরা এই অজানা প্যারামিটারগুলি সম্পর্কে আরও তথ্য পাই, এবং সেইজন্য প্রতিটি ডাকাতকে প্রত্যাশিত প্রত্যাবর্তনের বিষয়ে । খেলার প্রতিটি রাউন্ডে (শেষ ব্যতীত), এমএবি সমস্যাটি জুয়া খেলোয়াড়ের দুটি উদ্দেশ্যগুলির মধ্যে কৌশলগত বাণিজ্য- জড়িত :

তাত্ক্ষণিক পুরষ্কার: প্রতিটি রাউন্ডে তিনি এমন একটি বিতরণ বেছে নিতে চান যা তাকে এই রাউন্ডে একটি উচ্চ প্রত্যাশিত পুরষ্কার দেয়, যাতে তিনি (বর্তমানে) অনুগ্রহকারীদের উচ্চতর গড় পুরষ্কারের জন্য অগ্রাধিকার দেয়;
ভবিষ্যতের পুরষ্কার (তথ্য প্রাপ্তিতে প্রভাবিত): অন্যদিকে, তিনি বিতরণগুলি সম্পর্কে আরও তথ্য (বিশেষত যাঁরা অন্যদের মতো খেলেননি) অর্জন করে সত্য প্রত্যাশিত পুরষ্কারগুলি সম্পর্কে তার জ্ঞানকে পরিমার্জন করতে চান, যাতে সে পারে ভবিষ্যতের রাউন্ডে তার পছন্দগুলি উন্নত করুন।

এই দুটি জিনিসের আপেক্ষিক গুরুত্ব বাণিজ্য বন্ধ নির্ধারণ করবে এবং এই আপেক্ষিক গুরুত্বটি বেশ কয়েকটি কারণের দ্বারা প্রভাবিত হয়। উদাহরণস্বরূপ, যদি সমস্যাটিতে কেবলমাত্র অল্প সংখ্যক অবশিষ্ট রাউন্ড থাকে তবে ভবিষ্যতের বিচারগুলির জন্য অনুমান তুলনামূলকভাবে কম মূল্যবান, অন্যদিকে যদি প্রচুর পরিমাণে অবশিষ্ট রাউন্ড থাকে তবে ভবিষ্যতের পুরষ্কারের জন্য অনুমান তুলনামূলকভাবে বেশি মূল্যবান। সুতরাং জুয়া খেলোয়াড়কে বিবেচনা করা উচিত যে তিনি বর্তমান রাউন্ডে তাত্ক্ষণিক পুরষ্কারগুলি সর্বাধিক করে তোলার দিকে কতটা মনোনিবেশ করতে চান এবং তিনি এ থেকে কতটা বিচ্যুত হতে চান, সেই অজ্ঞাত প্যারামিটারগুলি সম্পর্কে আরও জানতে যা প্রতিটি দস্যুদের প্রত্যাশিত পুরষ্কার নির্ধারণ করে।

থম্পসন নমুনা: থম্পসন স্যাম্পলিংয়ের প্রাথমিক ধারণাটি হ'ল প্রতিটি রাউন্ডে আমরা আমাদের বিদ্যমান মেশিনগুলির জ্ঞান গ্রহণ করি যা অজানা প্যারামিটারগুলি সম্পর্কে উত্তরোত্তর বিশ্বাসের আকারে, এবং আমরা এই উত্তরোত্তর বিতরণ থেকে প্যারামিটারগুলিকে "নমুনা" দিই। এই নমুনাযুক্ত প্যারামিটার প্রতিটি মেশিনের জন্য প্রত্যাশিত পুরষ্কারের একটি সেট দেয় এবং আমরা এখন সেই নমুনাযুক্ত প্যারামিটারের অধীনে সর্বাধিক প্রত্যাশিত রিটার্নের সাথে বাজি ধরে।

প্রথমদিকে , থম্পসন স্যাম্পলিং স্কিমটি প্রতিটি রাউন্ডে তাত্ক্ষণিক প্রত্যাশিত প্রত্যাবর্তনকে সর্বাধিক করার প্রচেষ্টা জড়িত বলে মনে হচ্ছে (যেহেতু এটি প্যারামিটারের নমুনা দেওয়ার পরে এই সর্বাধিকীকরণ পদক্ষেপ জড়িত)। তবে, যেহেতু এটি উত্তরোত্তর থেকে প্যারামিটারের এলোমেলো নমুনা জড়িত, এই স্কিমটিতে একটি অন্তর্নিহিত জড়িতবর্তমান পুরষ্কার সর্বাধিকীকরণের বৈচিত্র্য, আরও তথ্যের জন্য অনুসন্ধান করা। বেশিরভাগ সময় আমরা একটি প্যারামিটার "নমুনা" পাই যা উত্তরের মূল অংশে কোথাও থাকে এবং মেশিনের পছন্দটি তাত্ক্ষণিক পুরষ্কারের আনুমানিক সর্বাধিকীকরণ করবে। যাইহোক, কখনও কখনও আমরা এলোমেলোভাবে প্যারামিটার মানটি নমুনা করব যা উত্তরোত্তর বিতরণের লেজগুলির অনেক দূরে, এবং সেক্ষেত্রে আমরা এমন একটি মেশিন বেছে নেব যা তাত্ক্ষণিক পুরষ্কারকে সর্বাধিকতর করে না - যেমন, এটি "অনুসন্ধানের আরও কিছু গঠন করবে" "ভবিষ্যতের পুরষ্কারে সহায়তা করার জন্য।

থম্পসন স্কিমটিতে এমন দুর্দান্ত সম্পত্তিও রয়েছে যা আমরা আরও "তথ্য" পাওয়ার সাথে সাথে আমাদের "অনুসন্ধান" হ্রাস করার প্রবণতা অর্জন করি এবং এটি সমস্যাটির পছন্দসই কৌশলগত বাণিজ্যকে নকল করে, যেখানে আমরা আরও তথ্য পাওয়ার সাথে সাথে অনুসন্ধানগুলিতে কম মনোযোগ দিতে চাই। আমরা যত বেশি বেশি রাউন্ড খেলি এবং আরও বেশি বেশি ডেটা পেয়েছি, উত্তরোত্তর সত্যিকারের প্যারামিটার মানগুলির নিকটে রূপান্তরিত করে এবং থম্পসন স্কিমের এলোমেলো "নমুনা" প্যারামিটার মানগুলির চারপাশে আরও দৃ tight়ভাবে প্যাক হয়ে যায় যা এর সর্বাধিককরণের দিকে পরিচালিত করে তাত্ক্ষণিক পুরষ্কার। অতএব, এই স্কিমটির খুব কম তথ্য নিয়ে প্রথম দিকে আরও "অনুসন্ধান-ওরিয়েন্টেড" হওয়ার এবং পরে প্রচুর ডেটা থাকার পরে কম "অনুসন্ধান-ওরিয়েন্টেড" হওয়ার প্রবণতা রয়েছে।

এখন এটি বলার পরে, থম্পসন স্যাম্পলিং স্কিমের একটি স্পষ্ট ত্রুটি এটি হ'ল এটি এমএবি সমস্যাটিতে থাকা রাউন্ডগুলির সংখ্যাটি বিবেচনায় নেয় না। এই স্কিমটি কখনও কখনও অসীম রাউন্ডগুলির সাথে একটি গেমের ভিত্তিতে তৈরি করা হয় এবং এই ক্ষেত্রে এটি কোনও সমস্যা নয়। তবে সীমাবদ্ধ রাউন্ডে এমএবি সমস্যাগুলিতে, ভবিষ্যতের রাউন্ডের সংখ্যা হ্রাস হওয়ায় "অনুসন্ধান" হ্রাস করার জন্য অবশিষ্ট রাউন্ডগুলির সংখ্যা বিবেচনা করা ভাল। (এবং বিশেষত, সর্বশেষ রাউন্ডের সর্বোত্তম খেলাটি অনুসন্ধানগুলি সম্পূর্ণ উপেক্ষা করা এবং সর্বাধিক উত্তর প্রত্যাশিত প্রত্যাবর্তনের সাথে দস্যুদের উপর বাজি ধরা)) থম্পসন স্কিমটি এটি করে না, সুতরাং এটি একরকম সীমাবদ্ধ-রাউন্ড গেম খেলবে এটি কিছু ক্ষেত্রে স্পষ্টত উপ-অনুকূল is

— বেন - মনিকা পুনরায় স্থাপন করুন
সূত্র

আমি আশা করি আমি এই প্রতিক্রিয়াটি একাধিক থাম্ব আপ দিতে পারতাম। আমি সম্ভবত পোস্টারিয়রগুলি কীভাবে আপডেট করব তা যুক্ত করব - উদাহরণস্বরূপ যদি পোস্টারিয়রগুলি সাধারণ বিতরণ হিসাবে উপস্থাপিত হয় - পোস্টারিয়ারগুলির গড় এবং মান বিচ্যুতির জন্য আপডেটগুলি কীভাবে হয়। আমি এ কথাটি বলি কারণ আমি নিজেকে জানি না

— মেলো

আমি এটি একটি শট দেব এবং আমি আশা করি আপনি এটি পছন্দ করি! নীচে কিছু সূত্র রয়েছে যা আপনাকে ভয় দেখাতে পারে। আমি এটি আশা করি না, কারণ আমি তাদের সবচেয়ে সহজ পদ্ধতিতে ব্যাখ্যা করার জন্য যথাসাধ্য চেষ্টা করব।

এই দুটি সূত্র:

সম্ভাবনা: $P(r|\theta,a,x)$
এবং উত্তরোত্তর: $P(\theta|D)$

টি এল; ডিআর

থম্পসন স্যাম্পলিং আপনাকে অনুমতি দেয়

আপনার মনে হয় যে সমস্ত মডেল প্যারামিটারগুলি সম্ভব তা থেকে একটি র্যান্ডম মডেল প্যারামিটার চয়ন করুন।
সেই নির্দিষ্ট মডেলের প্যারামিটার অনুসারে একবার কাজ করুন।
সেই নির্দিষ্ট মডেল প্যারামিটারের সাথে আপনি যে পুরষ্কার পেয়েছেন তা পর্যবেক্ষণ করুন।
এই নতুন অভিজ্ঞতা থেকে শিখুন এবং সম্ভাব্য মডেল প্যারামিটারগুলি সম্পর্কে আপনার বিশ্বাস আপডেট করুন।

সম্ভাবনা ??

সম্ভাবনা এমন একটি বিষয় যা সংজ্ঞায়িত করে যে জিনিসগুলি কীভাবে সম্ভাব্য । এই ক্ষেত্রে সম্ভাবনা বলছেন কিভাবে সম্ভবত এটা যে আমরা পুরস্কার পেতে যদি খেলা কর্ম প্রসঙ্গের । উদাহরণস্বরূপ, যদি বৃষ্টি হচ্ছে (প্রসঙ্গ!) এবং আপনি একটি ছাতা নিচ্ছেন (পদক্ষেপ!) আপনি শুকনো থাকবেন (পুরষ্কার! :))। অন্যদিকে, যদি বৃষ্টি না হয় (প্রসঙ্গ!) এবং আপনি একটি ছাতা নিচ্ছেন (পদক্ষেপ!) আপনাকে অতিরিক্ত ওজন বহন করতে হবে (নেতিবাচক পুরষ্কার! :() তাই সম্ভাবনা হ'ল কেন্দ্রীয় বিষয় যা আপনি বুঝতে চান। সম্ভাবনা সম্পর্কে যদি আপনি সমস্ত কিছু জানেন তবে অনুকূল অভিনয় করা সহজ। $r$ $a$ $x$

কি সেই আজব বৃত্তের ??

আপনি যেমন খেয়াল করে থাকতে পারেন আমি সেই অদ্ভুত বৃত্ত নামে থিটা নামে কিছু লিখিনি। (গণিতবিদদের অভ্যাস রয়েছে যেগুলি বোঝাও আরও কঠিন করে গ্রীক অক্ষর দিয়ে কোন অংশগুলি সবচেয়ে কঠিন hard এই মডেল পরামিতি উপস্থাপন করে। এই পরামিতিগুলি ব্যবহার করা হয় যখন প্রসঙ্গ + ক্রিয়া এবং পুরষ্কারের মধ্যে সম্পর্ক আরও কঠিন হয় difficult উদাহরণস্বরূপ, কোনও মডেলের প্যারামিটার হতে পারে যদি 1 মিমি বৃষ্টি আপনার মাথার উপরে পড়ে তবে আপনার পুরষ্কারটি কতটা নামবে। অন্য একটি মডেল প্যারামিটারে উল্লেখ করা যেতে পারে যে আপনি ছাতা নিলে আপনার পুরষ্কারটি কত কমে যায়। আমি কেবল বলেছি যে সম্ভাবনা হ'ল আপনি যা বুঝতে চান সেটি কেন্দ্রীয় বিষয়; এবং সম্ভাবনার কেন্দ্রবিন্দু হ'ল মডেল পরামিতি। আপনি যদি মডেল পরামিতি জানেন $\theta$ $\theta$ $\theta$ , আপনি কীভাবে প্রসঙ্গে + ক্রিয়াগুলি পুরষ্কারের সাথে সম্পর্কিত এবং এটি সর্বোত্তম কাজ করা সহজ you

সুতরাং আমরা কীভাবে এই মডেল পরামিতিগুলি জানতে পারি যে আমি সর্বাধিক পুরষ্কার পেতে পারি ??

এটি বহু-সশস্ত্র ডাকাত সমস্যার জন্য প্রয়োজনীয় প্রশ্ন। আসলে এটির দুটি অংশ রয়েছে। আপনি বিভিন্ন প্রসঙ্গে সমস্ত ধরণের ক্রিয়া অন্বেষণ করে মডেল পরামিতিগুলি অবিকল জানতে চান। তবে আপনি যদি ইতিমধ্যে জানেন যে কোন ক্রিয়াটি নির্দিষ্ট প্রসঙ্গে উপযুক্ত তবে আপনি সেই ক্রিয়াটি কাজে লাগাতে এবং যথাসম্ভব পুরষ্কার পেতে চান। সুতরাং আপনি যদি নিজের মডেলের পরামিতিগুলি সম্পর্কে অনিশ্চিত থাকেন আপনি কিছু অতিরিক্ত অনুসন্ধান করতে চাইতে পারেন। আপনি যদি আমাদের মডেল পরামিতি- সম্পর্কে বেশ নিশ্চিত হন তবে আপনি কোন পদক্ষেপ নেবেন তাও নিশ্চিত। এটি এক্সপ্লোরেশন বনাম শোষণ বাণিজ্য বন্ধ হিসাবে পরিচিত। $\theta$ $\theta$

এই পোস্টারিয়র সম্পর্কে আপনি কিছু বলেননি

এই অনুকূল আচরণের কী আপনার (UN) মডেল পরামিতি সম্পর্কে নিশ্চয়তা । এবং উত্তরোত্তরটি ঠিক বলেছেন: আমরা পূর্ববর্তী সমস্ত প্রসঙ্গে পূর্ববর্তী সমস্ত পুরষ্কার পেয়েছি, আপনি কতটা জানেন সম্পর্কে । উদাহরণস্বরূপ, আপনি যদি কখনও বাইরে না থাকেন তবে জানেন না যে বৃষ্টি আপনার মাথায় পড়লে আপনি কতটা নাখোশ হয়ে পড়েন। অন্য কথায়, আপনি অসুখী-যখন-বৃষ্টি-অন-হেড মডেল প্যারামিটার সম্পর্কে খুব অনিশ্চিত। আপনি যদি মাঝে মাঝে ছাতা সহ এবং তার বাইরে বৃষ্টিপাত করেন তবে আপনি এই অস্পষ্ট মডেল প্যারামিটার সম্পর্কে কিছু শিখতে পারেন। $\theta$ $\theta$

এখন থমসন স্যাম্পলিং এই সমস্ত অনিশ্চয়তার সাথে কী করার পরামর্শ দেয় ??

থমসন স্যাম্পলিং খুব সহজ কিছু প্রস্তাব দেয়: কেবল আপনার উত্তোলক থেকে একটি এলোমেলো মডেল পরামিতি চয়ন করুন, একটি পদক্ষেপ নিন এবং কী ঘটে তা পর্যবেক্ষণ করুন। উদাহরণস্বরূপ, যখন আপনি আগে কখনও বাইরে ছিলেন না, অসুখী-যখন-বৃষ্টি-অন-মাথার প্যারামিটার কিছু হতে পারে। সুতরাং আমরা কেবল একটি বাছাই করি, আমরা ধরে নিই যে বৃষ্টি যখন আমাদের মাথায় পড়ে তখন আমরা সত্যই অসন্তুষ্ট হই। আমরা দেখতে পাচ্ছি যে বৃষ্টি হচ্ছে (প্রসঙ্গে) তাই আমরা একটি ছাতা নিলাম (ক্রিয়া) কারণ আমাদের মডেল প্যারামিটারটি আমাদের জানায় যে আমরা এভাবে সর্বোচ্চ সওয়াব পেতে পারি। এবং প্রকৃতপক্ষে, আপনি লক্ষ্য করেছেন যে একটি ছাতা নিয়ে বৃষ্টিতে হাঁটতে আপনি খানিকটা কুরুচিপূর্ণ হন তবে সত্যই অসন্তুষ্ট হন না। আমরা এ থেকে শিখতে পারি যে বৃষ্টি + ছাতা ক্ষুধার্ত। পরের বার যখন বৃষ্টি হয় তখন আপনার মাথায় বৃষ্টি পড়লে কী হয় সে সম্পর্কে আপনি আবার এলোমেলো বিশ্বাস বাছুন। এবার এটি হতে পারে এটি আপনাকে মোটেই বিরক্ত করে না। যাহোক, আপনি একবার আপনার গন্তব্যে অর্ধপথে নেমে গেলে আপনি ভিজতে শুরু করছেন এবং আপনি শিখবেন যে ছাতা ছাড়াই বৃষ্টি সত্যিই খারাপ। এটি অখুশি-যখন-বৃষ্টি-অন-মাথায় আপনার অনিশ্চয়তা হ্রাস করে, কারণ এখন আপনি জানেন যে এটি সম্ভবত বেশি high

এটা খুব সহজ শোনায় !!

হ্যাঁ, এটি এত জটিল নয়। কঠিন অংশটি একটি মডেল প্যারামিটার পোস্টেরিয়র থেকে নমুনা দিচ্ছে। আপনার সমস্ত মডেলের পরামিতিগুলির উপর বিতরণ পাওয়া এবং বজায় রাখা, এটি আপনার নির্দিষ্ট সমস্যার জন্য উপযুক্ত। তবে ... এটি অবশ্যই করণীয় :)।

— পিটার
সূত্র