কেন রেইনফোর্স অ্যালগরিদমে ছাড়ের হার দু'বার প্রদর্শিত হবে?


11

আমি রিইনফোর্সমেন্ট লার্নিং বইটি পড়ছিলাম : রিচার্ড এস সুতান এবং অ্যান্ড্রু জি বার্তোর একটি ভূমিকা (পুরো খসড়া, নভেম্বর 5, 2017)।

পৃষ্ঠা 271 এ, এপিসোডিক মন্টে-কার্লো নীতি-গ্রেডিয়েন্ট পদ্ধতির সিউডো কোড উপস্থাপন করা হয়েছে। এই সিউডো কোডটি দেখে আমি বুঝতে পারছি না যে কেন ডিসকাউন্ট রেট 2 বার প্রদর্শিত হবে, একবার আপডেট অবস্থায় এবং দ্বিতীয়বার ফিরে আসবে। [নীচের চিত্রটি দেখুন]

এখানে চিত্র বর্ণনা লিখুন

দেখে মনে হচ্ছে যে পদক্ষেপ 1 পরে পদক্ষেপগুলির জন্য ফিরে আসা প্রথম পদক্ষেপের ফিরে আসা মাত্র একটি ছাঁটাই। এছাড়াও, আপনি যদি বইটিতে কেবল একটি পৃষ্ঠাগুলি দেখেন তবে আপনি কেবল 1 ছাড়ের হারের (রিটার্নের ভিতরে থাকা একটি) সমীকরণ পান find

তাহলে কেন সিউডো কোডটি আলাদা বলে মনে হচ্ছে? আমার অনুমান যে আমি কোনও কিছুকে ভুল বোঝাবুঝি করছি:

(13.6)θটি+ +1 =˙ θটি+ +αজিটিθπ(একজনটি|এসটি,θটি)π(একজনটি|এসটি,θটি)

উত্তর:


5

ছাড়ের ফ্যাক্টরটি দুটিবার উপস্থিত হয় এবং এটি সঠিক।

এর কারণ এটি একটি ফাংশন যা আপনি একটি এপিসোডিক সমস্যার (গ্রেডিয়েন্ট গ্রহণ করে) পুনঃস্থাপনে সর্বাধিক করার চেষ্টা করছেন তা প্রদত্ত (বিতরণ) শুরুর রাষ্ট্র থেকে প্রত্যাশিত প্রত্যাবর্তন:

জে(θ)=π(θ)[জিটি|এসটি=গুলি0,টি=0]

অতএব, পর্বের সময়, আপনি , জি 2 ইত্যাদির রিটার্ন নমুনা করার সময় , আপনি যে সমস্যার সমাধান করছেন সেটির সাথে এগুলি কম প্রাসঙ্গিক হবে, ডিসকাউন্ট ফ্যাক্টর দ্বারা আপনি যখন উল্লেখ করেছেন দ্বিতীয়বার হ্রাস পেয়েছে। একটি এপিসোডিক সমস্যা এবং γ = 0 এর সাথে চূড়ান্ত হলে REINFORCE কেবল প্রথম ক্রিয়াটির জন্য একটি অনুকূল নীতিটি খুঁজে পাবে।জি1জি2γ=0

অন্যান্য আলগোরিদিম, এই ধরনের জন্য অভিনেতা-সমালোচক ব্যবহার বিভিন্ন গঠন যেমন ক্রমাগত সমস্যা, যে কাজ , তাই যে ফ্যাক্টর হবে না γ টিজে(θ)γটি


5

নিল এর উত্তর ইতিমধ্যে কেন pseudocode হয় (অতিরিক্ত সঙ্গে কিছু অনুভূতি প্রদান করে শব্দ) সঠিক।γটি

আমি কেবল অতিরিক্তটি স্পষ্ট করে বলতে চাই যে আপনি কোনও কিছুরই ভুল বোঝাবুঝি করছেন বলে মনে হচ্ছে না, বইয়ের সমীকরণ (১৩.)) প্রকৃতপক্ষে সিউডোকোড থেকে পৃথক

এখন, আপনি ঠিক এখানে উল্লিখিত বইটির সংস্করণটি আমার কাছে নেই, তবে আমার কাছে 22 মার্চ, 2018 এর পরে একটি খসড়া রয়েছে এবং এই নির্দিষ্ট বিষয়ের পাঠ্যটি একই রকম বলে মনে হচ্ছে। এই সংস্করণে:

  • γ=1
  • সেই প্রমাণটি শেষ পর্যন্ত 329 পৃষ্ঠায় একই সমীকরণের (13.6) দিকে নিয়ে যায়।
  • γ=1
  • γ<1

2
ধন্যবাদ। আপনার তৃতীয় পয়েন্টটির ব্যাখ্যা 2017 সালের খসড়াতে অনুপস্থিত ছিল।
দিয়াগো ওরেলালানা

2
@DiegoOrellana আমি আর মার্চ 22 খসড়া একটি লিঙ্ক খুঁজে পাচ্ছি না, সেখানে একটি এমনকি পরে খসড়া (ক তারিখ উল্লেখ খুঁজে পাচ্ছি না) উপস্থিত হতে পারে এখানে । এই সংস্করণটির আসলে অভিনব কভার রয়েছে তাই এটি খসড়াটির চেয়ে চূড়ান্ত সংস্করণও হতে পারে। ভবিষ্যতে যদি লিঙ্কটি নষ্ট হয়ে যায় তবে আমার সন্দেহ হয় যে এখানে একটি নতুন লিঙ্ক পাওয়া যাবে
ডেনিস সুমার্স

3

এটি একটি সূক্ষ্ম ইস্যু।

আপনি যদি মূল কাগজে A3C অ্যালগরিদমটি দেখেন (সিউডো-কোডের জন্য p.4 এবং পরিশিষ্ট এস 3), তাদের অভিনেতা-সমালোচক অ্যালগোরিদম (উভয় এপিসোডিক এবং অব্যাহত সমস্যা উভয়ই) অভিনেতা সম্পর্কিত গামা একটি কারণ দ্বারা বন্ধ রয়েছে- সাটন এবং Barto বইয়ে অনিয়মিত সমস্যার জন্য সমালোচক সিউডো-কোড (জানুয়ারি 2019 সংস্করণের p.332 http://incompleteideas.net/book/the-book.html )। সাটন এবং বার্তো বইটিতে আপনার ছবিতে লেবেলযুক্ত অতিরিক্ত "প্রথম" গামা রয়েছে। সুতরাং, বই বা এ 3 সি পেপার হয় ভুল? আসলে তা না.

কী পি তে আছে। ১৯৯৯ সালে সাটন এবং বার্তো বইয়ের:

যদি ছাড় (গামা <1) থাকে তবে এটিকে সমাপ্তির একটি রূপ হিসাবে বিবেচনা করা উচিত, যা দ্বিতীয় মেয়াদে (9.2) এর একটি উপাদান যুক্ত করে কেবল করা যেতে পারে।

সূক্ষ্ম ইস্যুটি হ'ল ছাড় ফ্যাক্টর গামার দুটি ব্যাখ্যা রয়েছে:

  1. একটি গুণক কারণ যা দূরবর্তী ভবিষ্যতের পুরষ্কারগুলিতে কম ওজন রাখে।
  2. একটি সম্ভাবনা, 1 - গামা, যে কোনও সিমুলেটেড ট্র্যাজেক্টোরিটি যেকোন সময় পদক্ষেপে উত্সাহজনকভাবে শেষ করে। এই ব্যাখ্যাটি কেবল এপিসোডিক কেসগুলির জন্য, এবং অব্যাহত কেসগুলির জন্য অর্থবোধ করে না।

আক্ষরিক বাস্তবায়ন:

  1. ভবিষ্যতে কেবল গামার মাধ্যমে ভবিষ্যতের পুরষ্কার এবং সম্পর্কিত পরিমাণ (ভি বা কিউ) গুন করুন।
  2. কিছু ট্র্যাজিকোলজির সিমুলেট করুন এবং এগুলির প্রতিটি সময়ে পদক্ষেপে এলোমেলোভাবে (1 - গামা) সমাপ্ত করুন। বাতিল হওয়া ট্র্যাজেজরিগুলি তাত্ক্ষণিক বা ভবিষ্যতের পুরষ্কার দেয় না।

জিLnπ(একটি|গুলি)

γ2জিLnπ(একটি|গুলি)0.81জিLnπ(একটি|গুলি)

জিLnπ(একটি|গুলি)জি

আপনি গামার যে কোনও ব্যাখ্যা বেছে নিতে পারেন, তবে আপনাকে অ্যালগরিদমের পরিণতি সম্পর্কে সচেতন থাকতে হবে। আমি ব্যক্তিগতভাবে কেবল ব্যাখ্যাটির সাথে লেগে থাকতে পছন্দ করি কারণ এটি সহজ। সুতরাং আমি এ 3 সি পেপারে অ্যালগরিদম ব্যবহার করেছি, সাটন এবং বার্টো বইয়ের নয়।

আপনার প্রশ্নটি রেইনফোরস অ্যালগরিদম সম্পর্কে ছিল, তবে আমি অভিনেতা-সমালোচক সম্পর্কে আলোচনা করছি। দুটি গামা ব্যাখ্যা এবং পুনরায় সংস্থায় অতিরিক্ত গামা সম্পর্কিত আপনার কাছে একই সমস্যা রয়েছে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.