আলফাগো নীতি নেটওয়ার্ক এবং মান নেটওয়ার্কের মধ্যে পার্থক্য


25

আমি গুগলের আলফাগো ( http://googleresearch.blogspot.co.uk/2016/01/alphago-mastering-ancient-game-of-go.html ) সম্পর্কে একটি উচ্চ স্তরের সংক্ষিপ্ত বিবরণ পড়ছিলাম এবং আমি "নীতি" শর্তগুলি পেলাম নেটওয়ার্ক "এবং" মান নেটওয়ার্ক "। একটি উচ্চ স্তরে, আমি বুঝতে পারি যে নীতি নেটওয়ার্কটি চালগুলি প্রস্তাব দেওয়ার জন্য ব্যবহৃত হয় এবং মান নেটওয়ার্কটি ব্যবহার করা হয়, "অনুসন্ধান গাছের গভীরতা হ্রাস করুন [এবং অনুমান করুন] সমস্ত পথে অনুসন্ধানের জায়গায় প্রতিটি পদে বিজয়ী খেলা শেষ "।

এই দুটি নেটওয়ার্ক আমার কাছে অপ্রয়োজনীয় বলে মনে হচ্ছে। নীতি নেটওয়ার্ক যদি এর নীতিগুলি ছাঁটাই করতে মান নেটওয়ার্ক ব্যবহার না করে তবে কী করছে? এটি বেশ পরিষ্কার বলে মনে হচ্ছে যে মান নেটওয়ার্কটি একটি গভীর শিক্ষার স্নায়বিক নেটওয়ার্ক; পলিসি নেটওয়ার্কটি কি কেবল একটি তাত্ত্বিক বিমূর্ততা এবং সত্যিকারের নিউরাল নেটওয়ার্ক নয়? মান নেটওয়ার্কের জন্য লক্ষ্য পরিবর্তনশীলটি জয় / ক্ষতি বলে মনে হচ্ছে। পলিসি নেটওয়ার্কের জন্য কি কোনও টার্গেট ভেরিয়েবল রয়েছে; যদি তাই হয়, এটা কি? নীতি নেটওয়ার্কটি কী অপ্টিমাইজ করার চেষ্টা করছে?

প্রকৃতিতে প্রকাশিত গুগলের কাগজের পুরো পিডিএফ এখানে পাওয়া যাবে: https://vk.com/doc-44016343_437229031?dl=56ce06e325d42fbc72


তাত্ক্ষণিক নোট হিসাবে: নীতি নেটওয়ার্কের জন্য লক্ষ্য পরিবর্তনশীল একটি সম্ভাবনা বন্টন। কাগজ থেকে: "এই নিউরাল নেটওয়ার্কটির (মান নেটওয়ার্ক) নীতি নেটওয়ার্কের সাথে একই রকমের স্থাপত্য রয়েছে, তবে সম্ভাব্য বন্টনের পরিবর্তে একক পূর্বাভাস দেয়"
জিমানো

3
যদি অন্য কেউ যদি আমার মতো এই পুরানো প্রশ্নটিতে হোঁচট খায় তবে আপনি জেনে খুশি হবেন যে আলফাগোর উত্তরসূরি, "আলফাগো জিরো", পাশাপাশি এর উত্তরসূরি "আলফাজিরো" কেবলমাত্র একটি নেটওয়ার্ক প্রশিক্ষণ দিয়ে অনর্থকতা থেকে মুক্তি পেতে পারে যার ফলাফল উভয় পলিসি নেটওয়ার্কের কার্য সম্পাদন করে (সম্ভাব্য পদক্ষেপের উপরে সম্ভাব্য বন্টন দেয়) এবং মান নেটওয়ার্ক (বোর্ড প্রদত্ত জয়ের সম্ভাবনা দেয়)। এখানে ব্লগ পোস্ট: ডিপমাইন্ড.com/ ব্লগ / আলফাগো- এজোরো-ইয়ার্নিং -স্ক্র্যাচ এবং কাগজটি এর মধ্যে লিঙ্কযুক্ত।
কেভিন ওয়াং

উত্তর:


11

সংক্ষেপে প্রতিটি জালের আলাদা উদ্দেশ্য রয়েছে যেমনটি আপনি উল্লেখ করেছেন:

  • গাছের অনুসন্ধানের গভীরতা হ্রাস করার জন্য পাতাগুলিতে মান নেটওয়ার্ক ব্যবহার করা হত।
  • নীতি নেটওয়ার্কটি নোড থেকে অনুসন্ধানের প্রশস্ততা হ্রাস করার জন্য (তাত্ক্ষণিক পদক্ষেপের প্রতিশ্রুতি দেওয়ার) জন্য ব্যবহৃত হয়েছিল।

সাধারণভাবে, আপনি একটি সর্বোত্তম নীতি সন্ধান করতে বা প্যারামাইট্রাইজড পলিসি ফাংশনটিকে অনুকূল করতে অবশ্যই পলিসি স্পেসে সরাসরি অনুসন্ধানের জন্য মূল্য ফাংশন পদ্ধতিগুলি ব্যবহার করতে পারেন (অবশ্যই সেখানে বিভিন্ন উপকারিতা আছে)। আপনি প্রতিটি ক্ষেত্রে ফাংশন আনুমানিক (যেমন ডিপ নেট) ব্যবহার করতে পারেন can আমি দেখছি যে মূলত আপনি পলিসি নেট সম্পর্কে বিভ্রান্ত হয়ে পড়েছেন তাই আমি আমার উত্তরটি এতে ফোকাস করি।

পলিসি নেটটি প্রথম ছিল:

এমন একটি চালচলন করার প্রশিক্ষণ দেওয়া হয় যা সম্ভবত কোনও বোর্ড একটি বোর্ড রাষ্ট্র দিয়ে থাকে (সুতরাং ইনপুট একটি বোর্ডের রাজ্য এবং আউটপুট হিস্টগ্রাম যা সেই রাষ্ট্রের প্রদত্ত প্রতিটি ক্রিয়াকলাপের সম্ভাবনা দেখায়)। নেটগুলি রাজ্য থেকে ক্রিয়াকলাপে ম্যাপিংয়ের অন্তর্ভুক্ত সম্ভাব্যতা কার্যটি আনুমানিক করতে পারে। সর্বোপরি উপলব্ধ ডেটা থেকে আপনার নীতি তৈরি করা শুরু করা ভাবা যুক্তিসঙ্গত। বিশেষজ্ঞরা সরানো তদারকি প্রশিক্ষণের পরে নীতি নেটটি গেমটি যথেষ্ট পরিমাণে খেলতে পারে (যদিও এটি মাস্টার্সের স্তর থেকে অনেক দূরে)। সহজভাবে, আপনি পেশাদার খেলোয়াড়দের অ্যাকশন নির্বাচনের সাধারণ প্যাটার্নটি ক্যাপচার করার চেষ্টা করেছিলেন।

তারপর,

পূর্ববর্তী শিখেছি নীতিটি অনুকূলিত করার জন্য এটি প্রতিপক্ষের সাথেই খেলাগুলিতে প্রশিক্ষিত হয়েছিল। এবার এর ওজনগুলি পুনরায় সংক্ষেপণ অ্যালগরিদম ব্যবহার করে আপডেট করা হয়েছিল। এটি করে আপনি প্রত্যাশিত পুরষ্কার সর্বাধিকীকরণের দিকে নেট প্যারামিটারগুলি আপডেট করেন। অবশেষে আপনার একটি নেট রয়েছে যা কেবল পেশাদার খেলোয়াড়ের মতোই ক্রিয়াকলাপই পছন্দ করে না তবে গেমটি জয়ের দিকেও চালিয়ে যায় (তবে এটি পরিকল্পনা করতে পারে না!)।

এই পদক্ষেপের পরে, তারা রিগ্রেশন দ্বারা শিখেছি নীতিটির আরও কিছু গোলমাল সংস্করণের মান ফাংশনটি প্রায় অনুমান করেছিল (ইনপুটটি স্টেট বোর্ড এবং গেমের ফলাফলকে লক্ষ্য করে)। লিফ নোডের মূল্যায়নকে প্রভাবিত করতে আপনি এই নেটওয়ার্কটি ব্যবহার করতে পারেন।

ধারণামূলকভাবে বলতে গেলে, পলিসি নেট আপনাকে ক্রিয়াকলাপের সম্ভাবনা দেয় তবে গেমটি, রাষ্ট্র জয়ের জন্য আপনি কোনও ভাল পরিণতি অর্জন করবেন না তা বোঝায় না। আলফাগোতে কিছু "অন্ধ দাগ" ছিল এবং টুর্নামেন্ট চলাকালীন কিছু সত্যই খারাপ পদক্ষেপ করেছিল তবে একটি ব্যতিক্রমী পদক্ষেপ যা একজন মানুষ কখনও ভাবতেও পারেনি।

অবশেষে আপনি এই নেটগুলির সাথে আপনার পরিকল্পনার অ্যালগরিদম (এমসিটিএস) ব্যবহার করতে পারেন। কেন আমরা এই সমস্ত পদক্ষেপ নিয়েছি? সংক্ষেপে, কোনও "স্বজ্ঞাত" ছাড়াই সাধারণ এমসিটিএস ব্যর্থ হত।


আমি অভিনেতা-সমালোচক সম্পর্কে জেনে এই প্রশ্নটিতে ফিরে এসেছি এবং কীভাবে এটি খাঁটি মান ভিত্তিক বনাম নীতি ভিত্তিক পদ্ধতিগুলির মধ্যে ব্যয় / সুবিধাগুলি অফসেট করে। আমি এই উত্তর এই বিস্তারিত ব্যাখ্যা নিকটস্থ আসে মনে, কিন্তু এটি ডেভিড সিলভার এর বক্তৃতা খুব ভাল আচ্ছাদিত করা হয়: www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/pg.pdf (বক্তৃতা 7, এটা ইউটিউবেও উপলব্ধ - youtube.com/… )।
নিল স্লেটার

খাঁটি এমসিটিএস-ভিত্তিক পন্থাগুলি যদিও সফল হতে দেখেছে, তাই আরও বিস্তৃত প্রসঙ্গে আমি বলব না যে এটি ব্যর্থ হত।
জিমানো

1
আমি কেবল গো খেলার ক্ষেত্রে এবং গেমের খেলার মাস্টার স্তরে পৌঁছানোর বিষয়ে উল্লেখ করছি। আসলে ডেভিড সিলভার (অন্যান্য গবেষক হিসাবে) তাঁর পিএইচডি করার পর থেকে এমসিটিএস-এর গো-এর গেমটি সমাধান করার জন্য কাজ করছিলেন। তবে উপরের পদ্ধতির সংমিশ্রণ পর্যন্ত কোনও কিছুই উচ্চ স্তরে প্রতিযোগিতা করতে পারেনি।
কনস্টান্টিনোস

9

দুটি ভিন্ন নেটওয়ার্ক বোঝার জন্য আমার সংক্ষিপ্ত চিন্তার প্রক্রিয়া এখানে।

প্রথমত, লক্ষ্যটি হল একটি বিস্তৃত অনুসন্ধান না করে একটি অনুকূল সমাধান (বা খুব কাছের-অনুকূল) অনুসন্ধান করা, যা অবশ্যই চ্যালেঞ্জিং।

প্রতি পজিশনে বা রাজ্যে, এন চালগুলি সম্ভব হবে এবং প্রতিটি পদক্ষেপে একটি সম্পূর্ণ অনুসন্ধান গাছে তার নিজস্ব গভীরতা ডি থাকবে। তাত্ত্বিকভাবে বা গাণিতিকভাবে সমস্ত পথ ধরে চলতে এবং একটি অনুকূল সমাধান (গুলি) খুঁজে পাওয়া সম্ভব। তবে আমরা সম্পূর্ণ অনুসন্ধান করতে চাই না।

একটি আনুমানিক পদ্ধতির বিকাশের জন্য এখন আমরা দুটি পৃথক প্রশ্ন পেয়েছি।

চতুর্থাংশ 1। আমরা কীভাবে N প্রতি পজিশনে কিছু পদক্ষেপ এড়িয়ে যেতে বা উপেক্ষা করতে পারি? (অর্থাত্, শ্বাস হ্রাস)

Q2 এর। সর্বোত্তম সমাধান খুঁজে না পেয়ে আমরা কীভাবে শেষ হওয়া অবধি কোনও অনুসন্ধানের গাছের মধ্যবর্তী গভীরতায় থামব? (যেমন গভীরতা হ্রাস)

নীতি নেটওয়ার্কটি মূলত N এর বাইরে অকেজো চালগুলি ফিল্টার করার জন্য ডিজাইন করা হয়েছে, তবুও কোনও অনুকূল সমাধান খুঁজে পেতে ব্যর্থ হয়েছে। এখানে এই নেটওয়ার্কটি প্রাথমিকভাবে মানব বিশেষজ্ঞ পদক্ষেপের উপর নির্ভর করে, এসএল এবং পরে আরএল দ্বারা উন্নত।

মান নেটওয়ার্কটি মূলত সম্পূর্ণ অনুসন্ধান ব্যতীত বিজয়ী সম্ভাবনা সন্ধানের জন্য ডিজাইন করা হয়েছে।

এই দুটি নেটওয়ার্কের একটি অনুকূল সমাধান সন্ধানের একটি সাধারণ লক্ষ্য রয়েছে, তবে প্রতিটি কৌশলগত পদক্ষেপে প্রতিটি নেটওয়ার্ক আলাদা আলাদা ভূমিকা পালন করে।

আমি কেবল আশা করি এটি সাহায্য করবে। আমি জানি এটি এখনও উচ্চ স্তরে থাকবে।


আপনার দুটি উপায় ব্যাখ্যা খুব সংক্ষিপ্ত।
টিম

6

আমার মনে হয় ওপি আলফা-বিটা নিয়ে আলফাগো সম্পর্কে বিভ্রান্ত করছে। আলফা-বিটাতে, আপনি প্রকৃতপক্ষে ছাঁটাইয়ের সাহায্যে নীতি নেটওয়ার্কটি ব্যবহার করবেন তবে এখানে নেই। আবার অ্যালগরিদম মন্টে-কার্লো গাছ অনুসন্ধান (এমসিটিএস) এর উপর নির্ভর করে বলে কোনও ছাঁটাই নেই।

যে কেউ আমার উত্তরটি খুব দীর্ঘ বলে মনে করে সে সংক্ষিপ্ত বিভাগে চলে যেতে পারে, যেখানে আমি জানিয়েছি কেন দুটি নেটওয়ার্ক অনর্থক নয়।

নিম্নলিখিত উদাহরণে, আমি আমার ধারণাগুলি বুঝতে সহজ করার জন্য কিছু সরলীকরণ করব।

উদাহরণ:

ভাবুন আপনার এমন একটি অবস্থান রয়েছে যেখানে দুটি আইনী পদক্ষেপ রয়েছে। প্রথম পদক্ষেপটি আপনার জন্য একটি মৃত-হারিয়ে যাওয়া, তবে, দ্বিতীয় পদক্ষেপ আপনাকে একটি জয়যুক্ত সুবিধা দেয়।

  • প্রথম পদক্ষেপ: আপনার জন্য জোর করে ক্ষতি
  • দ্বিতীয় পদক্ষেপ: জোর করে আপনার জন্য জয়

মূল্যায়ন নেটওয়ার্ক

আসুন ধরে নেওয়া যাক গুগল আপনাকে যে মূল্যায়ন নেটওয়ার্ক দেয় তা নিখুঁত। এটি আমাদের উদাহরণে যে কোনও পাতার অবস্থান নিখুঁতভাবে মূল্যায়ন করতে পারে। আমরা উদাহরণে আমাদের মান নেটওয়ার্ক পরিবর্তন করব না।

আমাদের উদাহরণকে সহজ করার জন্য, ধরে নেওয়া যাক আমাদের মান নেটওয়ার্কটি দেয়:

  • যে কোনও পাতার অবস্থানের জন্য -1000 যা আপনার জন্য ক্ষতি
  • যে কোনও পাতার অবস্থানের জন্য +1000 যা আপনার জন্য একটি জয়

পলিসি নেটওয়ার্ক

ধরে নেওয়া যাক গুগল আপনাকে দুটি নীতিগত নেটওয়ার্ক দেয়। আমাদের অবস্থানের জন্য উত্পন্ন সম্ভাবনাগুলি হ'ল:

  • নীতি 1: মুভি 1 এর জন্য 0.9 এবং সরানো 2 এর জন্য 0.1
  • নীতি 2: 1 পদক্ষেপের জন্য 0.2 এবং সরানো 2 এর জন্য 0.8।

নোট করুন যে আমাদের প্রথম নীতি নেটওয়ার্ক আমাদের উদাহরণের জন্য ভুল পূর্ববর্তী সম্ভাবনা দেয় । এটি 1 পদক্ষেপের জন্য 0.9 দেয়, যা একটি হেরে যাওয়া চাল। এটি ঠিক আছে কারণ গুগলও নিখুঁত নীতি নেটওয়ার্ক প্রশিক্ষণ দিতে পারে না।

প্রথম নীতি নেটওয়ার্কের সাথে খেলছে

আলফাগোকে মন্টি-কার্লোর সাথে একটি সিমুলেশন তৈরি করতে হবে এবং এটির জন্য 1 বা 2 পদক্ষেপটি বেছে নেওয়া দরকার Now

  • এলোমেলো সংখ্যাটি <= 0.9 হলে 1 সরান
  • এলোমেলো সংখ্যা> 0.9 হলে 2 সরান

সুতরাং AlphaGo অনুকরণে হারানো পদক্ষেপটি বেছে নেওয়ার অনেক বেশি সম্ভাবনা রয়েছে (আমাদের প্রথম সিমুলেশনে)। আমাদের প্রথম সিমুলেশনে, আমরা সিমুলেশনটির জন্য স্কোর পেতে মান নেটওয়ার্কটিও ব্যবহার করব। কাগজে, এটি:

এখানে চিত্র বর্ণনা লিখুন

এই মানটি -1000 হবে কারণ এই সিমুলেশনটি ক্ষতি হতে পারে।

এখন, আলফাগোতে দ্বিতীয় সিমুলেশন তৈরি করা দরকার। আবার, প্রথম পদক্ষেপটি বাছাইয়ের সম্ভাবনা অনেক বেশি। তবে শেষ পর্যন্ত দ্বিতীয় পদক্ষেপটি বেছে নেওয়া হবে কারণ:

  • দ্বিতীয় পদক্ষেপের জন্য আমাদের পূর্ব সম্ভাবনা 0.1, শূন্য নয়
  • আলফাগো এমন পদক্ষেপগুলি চেষ্টা করতে উত্সাহিত করা হয়েছে যা খুব বেশি অনুসন্ধান করা হয়নি। কাগজে এই সমীকরণ দ্বারা এটি করা হয়:

এখানে চিত্র বর্ণনা লিখুন

নোটটি Nহ'ল পদক্ষেপের জন্য অনুসন্ধান করা চলনগুলির সংখ্যা এবং এটি ডিনোমিনেটরে রয়েছে। আমাদের প্রথম চালটি যত বেশি অনুসন্ধান করা যায় তত uকার্যকারিতা তত কম । সুতরাং, আমাদের দ্বিতীয় পদক্ষেপটি নির্বাচনের সম্ভাবনা উন্নতি করে কারণ আলফাগো আসলে এই সমীকরণের মাধ্যমে একটি পদক্ষেপ নেয়:

এখানে চিত্র বর্ণনা লিখুন

এখানে চিত্র বর্ণনা লিখুন

এটিই মূল সমীকরণ। দয়া করে এটি সাবধানে দেখুন:

  • এটির Pপূর্ব সম্ভাবনার জন্য একটি শব্দ রয়েছে (পলিসি নেটওয়ার্ক দ্বারা প্রদত্ত)
  • এটির Qমূল্যায়নের স্কোরগুলির একটি শব্দ রয়েছে (মান নেটওয়ার্ক দ্বারা প্রদত্ত)

এখন, আমরা জানি যে আমাদের দ্বিতীয় পদক্ষেপটি শেষ পর্যন্ত চয়ন করা হবে। এটি যখন ঘটে তখন মান নেটওয়ার্কটি একটি +1000 দেয়। এটি বৃদ্ধি পাবে Q, যা দ্বিতীয় চালটি সম্ভবত পরবর্তী সিমুলেশনে বেছে নেওয়া সম্ভব করে

পর্যাপ্ত সিমুলেশন দেওয়া, দ্বিতীয় চলন সিমুলেশনের জন্য কতবার বেছে নেওয়া হয় তা প্রথম পদক্ষেপটি বেছে নেওয়ার সময়ের চেয়ে বেশি হওয়া উচিত।

অবশেষে, আলফাগো যে পদক্ষেপটি করার সিদ্ধান্ত নিয়েছে তা হ'ল (কাগজ থেকে উদ্ধৃত):

একবার অনুসন্ধান শেষ হয়ে গেলে, অ্যালগরিদম মূল অবস্থান থেকে সর্বাধিক পরিদর্শন করা পদক্ষেপটি বেছে নেয়।

দ্বিতীয় নীতি নেটওয়ার্কের সাথে খেলছে

আমাদের দ্বিতীয় নীতি নেটওয়ার্কের সরানো 2 বাছতে কম পুনরাবৃত্তির প্রয়োজন হবে কারণ নীতি নেটওয়ার্ক দ্বারা প্রদত্ত পূর্বের সম্ভাবনাটি প্রথম স্থানে সঠিক।

মন্তব্য

এখানে সবকিছু Bayesianবিশ্লেষণের সাথে খুব মিল । আমরা কিছু পূর্ব সম্ভাবনা (পলিসি নেটওয়ার্ক দ্বারা প্রদত্ত) দিয়ে শুরু করি, তারপরে আমরা সম্ভাব্যতা বিচ্ছিন্নকরণ (মান নেটওয়ার্ক দ্বারা প্রদত্ত) স্থানান্তরিত করার জন্য ডেটা উত্পন্ন করি।

সারাংশ

  • নীতি নেটওয়ার্কটি মন্টে-কার্লো অনুসন্ধান কী পদক্ষেপ নিতে হবে তা গাইড করার জন্য পূর্বের সম্ভাব্যতা তৈরি করতে ব্যবহৃত হয়
  • পলিসি নেটওয়ার্কটি বৈধ করার জন্য ডেটা উত্পন্ন করতে মান নেটওয়ার্ক ব্যবহার করা হয়। নীতি নেটওয়ার্কটি যদি খারাপ হয় তবে আলফাফোতে রূপান্তর করতে (যদি কখনও হয়) আরও বেশি কম্পিউটিং সংস্থান প্রয়োজন।
  • আপনি এটি বায়সিয়ান বিশ্লেষণের মতো ভাবতে পারেন

আমি মনে করি এটি অভ্যন্তরীণ প্রক্রিয়াগুলিকে আরও গভীর অন্তর্দৃষ্টি দেয়। আমি এখনও নিশ্চিত নই যে এটি কেন দুটি নেটওয়ার্ক ব্যাখ্যা করে। আমার কাছে সমস্যাটি হ'ল "মূল্যায়ন নেটওয়ার্কটি ধরুন ... নিখুঁত"। যদি এটি হয়, তবে প্রকৃতপক্ষে পলিসি নেটওয়ার্কটি অতিরিক্ত কাজ নয়। কেবল একটি পদক্ষেপ এগিয়ে দেখুন (সমস্ত সম্ভাব্য পদক্ষেপের জন্য) এবং সর্বোত্তম মান নেটওয়ার্ক মূল্যায়ন সহ একটি বেছে নিন। অবশ্যই মান নেটওয়ার্কটি নিখুঁত নয়, এবং আমার সন্দেহ হয় যে এটি আরও সঠিকভাবে গেমের দিকে এগিয়ে গেছে। । । তবে আমি জানি না যে এটি কতটা সত্য / কার্যকর, বা এটি এই উত্তরটি সম্পূর্ণ করে কিনা।
নিল স্লেটার

@ নিলস্ল্যাটার ঠিক আছে নেটওয়ার্কগুলি নিখুঁত নয়, তবে আমার এখানে যে কারণগুলি রয়েছে তা এখনও ভাল, কেবল আমাদের আরও এমসির সিমুলেশনগুলির প্রয়োজন।
স্মার্টচিস

@ স্টুডেন্টটি কিছু মূল সমীকরণের সুন্দর ব্যাখ্যা। আমি একটি ছোট পরিবর্তন করব: মন্টি কার্লো ট্রি অনুসন্ধানের অবস্থানটি বোঝার জন্য "আপনাকে দশ পদক্ষেপের আগে দেখতে হবে" বলার অর্থ খুব একটা বোঝা যায় না। এমসিটিএস হ'ল একটি গভীরতার প্রথম প্রমাণ সংখ্যা অনুসন্ধান, এবং আমরা দাবারের পুনরাবৃত্তির গভীরতার সাথে আমাদের মতো স্থির গভীরতায় পৌঁছায় না। এমনকি মান নেটওয়ার্কের আমাদের নোড মূল্যায়ন যার ফলে খেলা শেষ হওয়ার আগে, আমরা এখনও একটি পানা প্রথম পদ্ধতিতে এই পৌঁছনো হয় না, এবং সেখানে ইত্যাদি নোড কোন সর্বনিম্ন-MAX মূল্যায়ন হয়
ইমরান

@ ইমরান আমার পোস্ট সম্পাদনা করতে নির্দ্বিধায়
স্মলচেস

3

পলিসি নেটওয়ার্ক : যে নেটওয়ার্কটি গেমটিতে একটি নির্দিষ্ট ইনপুট দিয়ে একটি নির্দিষ্ট আউটপুট দিতে শিখেছে তা পলিসি নেটওয়ার্ক হিসাবে পরিচিত।

মান নেটওয়ার্ক : বর্তমান নেটওয়ার্কের জন্য একটি প্রত্যাশিত সংখ্যামূলক স্কোর গণনা করে মান নেটওয়ার্ক গেমের রাজ্যে মান / স্কোর নির্ধারণ করে s। প্রতিটি রাজ্য মান নেটওয়ার্কের মধ্য দিয়ে যায়। যে রাজ্যগুলিতে বেশি পুরষ্কার পাওয়া যায় তারা অবশ্যই নেটওয়ার্কে আরও বেশি মূল্য পান।

অ্যানিমেশনগুলির সাথে আরও ভাল বোঝার জন্য এখানে যান: পলিসি নেটওয়ার্ক বনাম রিইনফোর্সমেন্ট লার্নিংয়ের মান নেটওয়ার্ক

এখানে চিত্র বর্ণনা লিখুন


0

আমি পার্থক্যটি কী বুঝতে পারি তা আউটপুটগুলিতে in নীতি নেটওয়ার্ক যেখানে সম্ভাব্য পদক্ষেপগুলির চেয়ে সম্ভাব্য বন্টনকে আউটপুট দেয়, মান বোর্ডটি একটি আসল মান দেয় যা এই বোর্ড কনফিগারেশনটি প্রদত্ত জয়ের সম্ভাবনা হিসাবে ব্যাখ্যা করা যায়। সেখান থেকে মন্টে-কার্লো ট্রি সন্ধান শীর্ষস্থানীয় কে স্থানান্তরিত করে এবং তারপরে শীর্ষস্থানীয় কে মান নেটওয়ার্ক আউটপুট নিয়ে অনুসন্ধান গাছটিকে সংকীর্ণ করার মাধ্যমে সঞ্চালিত হয়।

আমি ভুল হলে আমাকে সংশোধন করতে বাধ্য মনে করি।


2
আপনি এএফআইকে ভুল নন, তবে আমি মনে করি না এটির প্রশ্নের উত্তর আছে। আরএল-তে কোনও মান-ভিত্তিক বা নীতি-ভিত্তিক মডেলের মধ্যে পার্থক্য সম্পর্কে ওপি সচেতন বলে মনে হয়। দুটি পদ্ধতির সত্যই আলাদা আউটপুট রয়েছে। তবে এটি উভয়ই নয়, একটি বা অন্যটি দেখতে বেশি দেখা যায় এবং দুটি মডেলই সাধারণত "মান_ম্যাক্সার্গ (এস ') == নীতি_ম্যাকার্সগ (এস, এ)" যেখানে এস বর্তমান অবস্থা, এ-তে কাজ করে নিন, এবং এস 'এর ফলস্বরূপ অবস্থা। উদাহরণস্বরূপ, আউটপুটগুলি আলাদা হলেও সেক্ষেত্রে আরও সাধারণ আরএল সেটআপে দুটি নেটওয়ার্ক কেবল একই ফলাফল তৈরি করতে পারে।
নিল স্লেটার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.