আলফাজিরো কাগজে ডিরিচলেট শব্দের উদ্দেশ্য


10

ডিপমাইন্ডের আলফাগো জিরো এবং আলফাজিরো কাগজগুলিতে, তারা মন্টি কার্লো ট্রি অনুসন্ধানের মূল নোড (বোর্ড স্টেট) থেকে ক্রিয়াকলাপের পূর্ব সম্ভাব্যতার সাথে ডিরিচলেট শব্দের যোগ করার বর্ণনা দিয়েছেন :

মূল নোড , বিশেষত , যেখানে ডিরিচলেট শব্দটি যুক্ত করে অতিরিক্ত অন্বেষণ করা যায় এবং ; এই গোলমালটি নিশ্চিত করে যে সমস্ত পদক্ষেপের চেষ্টা করা যেতে পারে, তবে অনুসন্ধানটি এখনও খারাপ চালগুলি ছাড়িয়ে যেতে পারে।গুলি0পি(গুলি,একটি)=(1-ε)পিএকটি+ +εηএকটিη~dir(0.03)ε=0.25

(আলফাগো জিরো)

এবং:

মূল নোডের পূর্ব সম্ভাবনার সাথে ডিরিচলেট শব্দ হয়েছিল; এটি একটি সাধারণ অবস্থানে আইনী পদক্ষেপের আনুমানিক সংখ্যার of এর মান হিসাবে বিপরীত অনুপাতে স্কেল করা হয়েছিলদাবা, শোগি এবং গো যথাক্রমে ।dir(α)α={0.3,0.15,0.03}

(AlphaZero)

দুটি জিনিস যা আমি বুঝতে পারি না:

  1. P(s, a)একটি মাত্রিক ভেক্টর। Is সাধারণভাবে সংক্ষেপে সঙ্গে Dirichlet বিতরণের জন্য পরামিতি, প্রতিটি মান ?এনdir(α)এনα

  2. বহুবারিক বিতরণের পূর্বের সংশ্লেষ হিসাবে আমি কেবল ডিরিচলেট জুড়ে এসেছি। কেন এখানে বাছাই করা হয়েছিল?

প্রসঙ্গে, P(s, a)প্রদত্ত রাষ্ট্র / ক্রিয়াকলাপের জন্য PUCT (বহুবর্ষীয় উচ্চতর আত্মবিশ্বাসের গাছ, উচ্চ আত্মবিশ্বাসের সীমারেখায় বৈকল্পিক) এর একটি মাত্র উপাদান। এটি একটি ধ্রুবক এবং একটি মেট্রিক দ্বারা স্কেল করে দেওয়া হয়েছে যে এমসিটিএস চলাকালীন প্রদত্ত ক্রিয়াটি তার ভাইবোনদের মধ্যে কতবার নির্বাচিত হয়েছে এবং আনুমানিক ক্রিয়াকলাপে যুক্ত হয়েছে Q(s, a):

  • PUCT(s, a) = Q(s, a) + U(s, a)
  • ইউ(গুলি,একটি)=puctপি(গুলি,একটি)Σএন(গুলি,)1+ +এন(গুলি,একটি)

2
ঠিক আছে তাই দির (ক) এর অর্থ আসলে দির (ক, ক, ...)। <1 এর জন্য, এটি R of n (আরও ছোট, আরও শক্তভাবে) এর স্ট্যান্ডার্ড বেস ভেক্টরগুলির কাছাকাছি কেন্দ্রীভূত হবে। সুতরাং ডিরিচলেট (ক) (1) পরামিতিগুলির যোগফলকে ধ্রুবক হিসাবে ধরে রাখতে সহায়তা করে, (2) ভিত্তি ভেক্টরগুলির নিকটে মনোনিবেশ করে এবং (3) এগুলির কোনওটিকেই পছন্দ করে না।
সন্ন্যাসী

উত্তর:


6

প্রশ্ন 1 সরল, এখানে প্রদত্ত মানের পুনরাবৃত্তির একটি ভেক্টর। (ম্যাক্স এস দ্বারা উত্তর হিসাবে)α

প্রশ্ন 2 আরও আকর্ষণীয়: ডেরিচলেট বিতরণে এই প্রসঙ্গে নিম্নলিখিত ব্যাখ্যাটি প্রাসঙ্গিক রয়েছে: যখন ফলাফল সম্ভাবনার সাথে কিছু (অজানা) শ্রেণিবদ্ধ বিতরণ থেকে আঁকা ফলাফল-গণনাগুলির পরিদর্শনকারী ভেক্টর হয় , তখন সম্ভাবনা হ'ল প্রকৃত অন্তর্নিহিত বিতরণ যা আপনি পরিলক্ষিত গণনা হিসাবে। (এটি মূলত দ্বৈত বিতরণের সংজ্ঞা))απডিআমিR(α)(π)সিএকটিটি(π)α

এখন P(s,a)সম্ভাব্যতা যে একটি ভাল খেলোয়াড় প্লে করা হবে অনুমান aমধ্যে s, তার শ্রেণীগত বন্টন, যা AlphaZero শিখতে চায় পরামিতি হয়। সুতরাং জন্য যুক্তিসঙ্গত অনুমানের নমুনা দিতেন আমরা যদি কোনও ভাল খেলোয়াড়ের খেলার চলন - -সময় পর্যবেক্ষণ করি । কিন্তু যদি কিছু , তারপর সব আছে , অন্বেষণ প্রতিরোধ। গোলমাল যোগ করে তারা ধরে নেয় যে তারা প্রতিটি পদক্ষেপটি অল্প সংখ্যক বার being (এখানে নির্বাচিত 0.3, 0.15, 0.03) বাজানো পর্যবেক্ষণ করেছে ।ডিআমিR(α)পিআমি=P(s,a)ααআমি=0π~ডিআমিR(α)πআমি=0α

তারা কীভাবে প্রতিবন্ধকতা পেয়েছিল, আমার অনুমান যে তারা প্রতিটি খেলায় 10 ডলার এলোমেলো নাটকটি পর্যবেক্ষণ করেছে: দাবাতে, ধরে নিয়েছে যে আপনি প্রতিটি পদক্ষেপটি 0.3 বার খেলেছেন। অ্যালিসের মতে সেখানে ~ 35 টি চালনা উপলব্ধ রয়েছে তা প্রদত্ত , লেখকরা ধরে নেবেন যে আপনি প্রতিটি নোডে ~ 10 এলোমেলো পদক্ষেপ দেখেছেন। গো-তে, যদি আমরা গড় ~ 270 আইনী পদক্ষেপ গ্রহণ করি (361 বোর্ড পজিশনের 3/4), আমরা ~ 8 এলোমেলো পদক্ষেপগুলি পর্যবেক্ষণের সমতুল্য দেখি। (আমার কাছে শোগির ডেটা নেই))ডিআমিR(0.3)


3

প্রশ্ন নম্বর 1 এর জন্য উত্তর হ্যাঁ, একটি ভেক্টর, তবে এই ক্ষেত্রে সমস্ত মান একই। উইকিপিডিয়া অনুসারে এটিকে একটি প্রতিসম ডেরিচলেট বিতরণ বলা হয় এবং এটি ব্যবহৃত হয় যখন "পূর্ববর্তী জ্ঞান যখন অন্য উপাদানগুলির পক্ষে কোনও উপাদানকে সমর্থন করে না"। এক্ষেত্রে এর অর্থ হ'ল আপনি কোনও নির্দিষ্ট উপাদানগুলিতে আরও শব্দটি যোগ করতে চান না।α

প্রশ্ন 2 এর জন্য, একটি ডিরিচলেট বিতরণ থেকে প্রাপ্ত নমুনাগুলিতে এমন বৈশিষ্ট্য রয়েছে যা উপাদানগুলি 1 হবে I


ধন্যবাদ। একটি সংক্ষিপ্তসার ছাড়াও (যা আমরা কিছু নির্বিচারে বিতরণের সেটকে স্কেল করেও করতে পারি), এটি স্ট্যান্ডার্ড বেস ভেক্টরকে পছন্দ করে। এটি দরকারী বলে মনে হচ্ছে।
সন্ন্যাসী
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.