"মন্টে-কার্লো অনুসন্ধান" কীভাবে কাজ করে?


16

আমি আলফা গো সম্পর্কে একটি রেডডিট পোস্টে এই ধারণাটি সম্পর্কে শুনেছি। আমি কাগজ এবং নিবন্ধটি দিয়ে যাওয়ার চেষ্টা করেছি, কিন্তু আসলেই অ্যালগরিদমটি বুঝতে পারি না।

সুতরাং, কেউ মন্টে-কার্লো অনুসন্ধানের অ্যালগরিদম কীভাবে কাজ করে এবং গেম-প্লেয়িং এআই বটগুলি তৈরিতে এটি কীভাবে ব্যবহৃত হচ্ছে তার একটি সহজেই বোঝার ব্যাখ্যা দিতে পারে?


এমসিটিএস অ্যালগরিদমের একটি দুর্দান্ত বিবরণ পাওয়া যাবে: https ://towardsdatasज्ञान.com/monte-carlo-tree-search-in-reinforment-learning-b97d3e743d0f এ ।
nbro

উত্তর:


13

মন্টি কার্লো পদ্ধতিটি এমন একটি পদ্ধতির যেখানে আপনি প্রচুর পরিমাণে এলোমেলো মান বা সিমুলেশন উত্পন্ন করেন এবং সাধারণ প্যাটার্নগুলির উপর নির্ভর করে কিছু উপায় এবং উপায়গুলি যেমন উপায় এবং রূপগুলি তৈরি করেন।

উদাহরণ হিসাবে, আপনি এটি আবহাওয়ার পূর্বাভাসের জন্য ব্যবহার করতে পারেন । দীর্ঘমেয়াদী আবহাওয়ার পূর্বাভাস দেওয়া বেশ কঠিন, কারণ এটি একটি বিশৃঙ্খল ব্যবস্থা যেখানে ছোট পরিবর্তনগুলি খুব আলাদা ফলাফলের দিকে নিয়ে যেতে পারে। মন্টি কার্লো পদ্ধতি ব্যবহার করে আপনি প্রচুর পরিমাণে সিমুলেশন চালাতে পারেন, যার মধ্যে প্রতিটি সামান্য ভিন্ন বায়ুমণ্ডলীয় পরিবর্তন রয়েছে। তারপরে আপনি ফলাফলগুলি বিশ্লেষণ করতে পারেন এবং উদাহরণস্বরূপ বৃষ্টিপাতের সাথে কত সিমুলেশন শেষ হয়েছিল তার ভিত্তিতে একটি নির্দিষ্ট দিনে বৃষ্টির সম্ভাবনা গণনা করুন।

আলফা গোতে মন্টি কার্লো ব্যবহার করার ক্ষেত্রে, তারা মনে হয় তথাকথিত মন্টি কার্লো ট্রি অনুসন্ধান ব্যবহার করছে । এই পদ্ধতির ক্ষেত্রে, আপনি সম্ভাব্য পদক্ষেপের একটি গাছ তৈরি করেন, ভবিষ্যতে কয়েকটি ঘুরিয়ে নিয়ে সেরা ক্রমটি সন্ধান করার চেষ্টা করেন। যাইহোক, যেহেতু গেমের সম্ভাব্য পদক্ষেপের সংখ্যা খুব বেশি, তাই আপনি খুব বেশি এগিয়ে যেতে পারবেন না। এর অর্থ হ'ল যে কয়েকটি চলন এখন ভাল দেখায় তা পরে খারাপ হতে পারে।

সুতরাং, মন্টি কার্লো ট্রি অনুসন্ধানে, আপনি চালনার একটি প্রতিশ্রুতিবদ্ধ ক্রম চয়ন করুন এবং গেমটি কীভাবে সেই দিক থেকে এগিয়ে যেতে পারে তার এক বা একাধিক সিমুলেশন চালান। তারপরে আপনি সেই সিমুলেশনের ফলাফলগুলি কীভাবে সুনির্দিষ্টভাবে চলতে পারে তার নির্দিষ্ট ক্রমটি কতটা ভাল তা সম্পর্কে আরও ভাল ধারণা পেতে আপনি সেই অনুসারে গাছটি আপডেট করতে পারেন। আপনি কোনও ভাল পদক্ষেপ না পাওয়া পর্যন্ত প্রয়োজন অনুযায়ী পুনরাবৃত্তি করুন।

আপনি যদি আরও তথ্য চান বা কিছু চিত্র দেখতে চান তবে আমি এই বিষয়টিতে একটি আকর্ষণীয় কাগজ পেয়েছি: সি। ব্রাউন এট। মন্টে কার্লো ট্রি অনুসন্ধান পদ্ধতিগুলির একটি জরিপ ( উন্মুক্ত সংগ্রহস্থল / স্থায়ী লিঙ্ক (পেওয়াল্ড) )


সুতরাং মূলত আল্টাগোতে মন্টি কার্লো কি দীর্ঘমেয়াদী কৌশলগুলি তৈরি করে, বিভিন্ন পদক্ষেপের সংমিশ্রণের কথা বিবেচনা করে, অন্যান্য উপায়ের পরিবর্তে (কোনও কৌশল বাছাই এবং তারপরে এটি অর্জনের পদক্ষেপগুলি বেছে নেওয়া)?
দিয়েগো আন্তোনিও রোজারিও পালোমিনো

মন্টি কার্লো পদ্ধতির মূল উপাদানটির কোনও উল্লেখ নেই, যা অনুসন্ধানের জন্য প্রয়োজনীয় পদক্ষেপের নির্বাচনের সাথে সংহত স্টোকাস্টিক উপাদান। উভয়ই লেনার প্রসেসিংয়ের উল্লেখ করার জন্য সঠিকতার বাণিজ্য বন্ধ ছিল না। সেগুলি সবচেয়ে গুরুত্বপূর্ণ দুটি দিক এবং উত্তর থেকে অনুপস্থিত। পরিবর্তে, "এলোমেলো মান বা সিমুলেশনগুলির বৃহত সংখ্যক" উল্লেখ করা হয়েছিল, যখন এটি সিউডো-এলোমেলো কারণগুলির থেকে কম সংখ্যক সিমুলেশন (কম পরিমিত অনুসন্ধান) যা মন্টে কার্লো রূপান্তরটির বৈশিষ্ট্য।
ফৌচ্রিস্টিয়ান
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.