শক্তিবৃদ্ধি শেখার বুটস্ট্র্যাপিং ঠিক কী?


23

স্পষ্টতই, শক্তিবৃদ্ধি শেখার ক্ষেত্রে, টেম্পোরাল-ডিফারেন্স (টিডি) পদ্ধতিটি একটি বুটস্ট্র্যাপিং পদ্ধতি ra অন্যদিকে, মন্টি কার্লো পদ্ধতিগুলি বুটস্ট্র্যাপিং পদ্ধতি নয়।

আরএল-এ বুটস্ট্র্যাপিং ঠিক কী? আরএল-তে বুটস্ট্র্যাপিং পদ্ধতি কী?

উত্তর:


22

আরএল-এ বুটস্ট্র্যাপিং " একই ধরণের আনুমানিক মানের জন্য আপডেট ধাপে এক বা একাধিক অনুমান মান ব্যবহার করা" হিসাবে পড়া যায় ।

বেশিরভাগ টিডি আপডেট বিধিগুলিতে আপনি এই সারস (0) আপডেটের মতো কিছু দেখতে পাবেন:

প্রশ্নঃ(গুলি,একটি)প্রশ্নঃ(গুলি,একটি)+ +α(আরটি+ +1+ +γপ্রশ্নঃ(গুলি',একটি')-প্রশ্নঃ(গুলি,একটি))

মান আরটি+ +1+ +γপ্রশ্নঃ(গুলি',একটি') সত্য মান একটি অনুমান প্রশ্নঃ(গুলি,একটি) , এবং এছাড়াও: TD লক্ষ্য বলা হয়। এটি একটি বুটস্ট্র্যাপ পদ্ধতি কারণ আমরা অন্য একটি Q মান আপডেট করার জন্য Q মানটি ব্যবহার করে চলেছি। সেখানে আকারে বাস্তব পর্যবেক্ষিত তথ্য একটি ছোট পরিমাণ আরটি+ +1 , ধাপ জন্য তাৎক্ষণিক পুরস্কার, এবং এছাড়াও রাষ্ট্র রূপান্তর মধ্যে গুলিগুলি'

সমতুল্য আপডেটের নিয়ম হতে পারে যেখানে মন্টি কার্লোর সাথে বিপরীতে:

Q(s,a)Q(s,a)+α(GtQ(s,a))

কোথায় Gt এ মোট ছাড় পুরস্কার ছিল t , এই আপডেটে অভিমানী, যে এটি রাজ্যের শুরু s , ব্যবস্থা গ্রহণের a , তারপর পর্বের শেষ না হওয়া পর্যন্ত বর্তমান নীতি অনুসরণ করে। প্রযুক্তিগতভাবে, Gt=k=0Tt1γkRt+k+1 যেখানে Tটার্মিনাল পুরষ্কার এবং রাষ্ট্রের জন্য সময় পদক্ষেপ। উল্লেখযোগ্যভাবে, এই লক্ষ্য মানটি কোনও বিদ্যমান অনুমান (অন্য কিউ মানগুলি থেকে) মোটেই ব্যবহার করে না, এটি কেবল পরিবেশ থেকে পর্যবেক্ষণের একটি সেট (অর্থাত্ পুরষ্কার) ব্যবহার করে। যেমন, এটা হতে নিশ্চিত করা হয় পক্ষপাতিত্বহীন প্রকৃত মূল্যের হিসাব Q(s,a) , যেমন টেকনিক্যালি একটি হল নমুনা এর Q(s,a)

বুটস্ট্র্যাপিংয়ের প্রধান অসুবিধা হ'ল এটি আপনার Q(s,a) (বা V(s) ) এর শুরু মানগুলি যাই হোক না কেন তার প্রতি পক্ষপাতদুষ্ট । এগুলি সম্ভবত ভুল, এবং অত্যধিক স্ব-রেফারেন্স এবং পর্যাপ্ত সত্যিকারের ডেটা না থাকার কারণে আপডেট সিস্টেম সামগ্রিকভাবে অস্থির হতে পারে - নিউরাল নেটওয়ার্কগুলি ব্যবহার করে অফ-পলিসি লার্নিংয়ের (যেমন কিউ-লার্নিং) সমস্যা এটি।

বুটস্ট্র্যাপিং ছাড়াই, দীর্ঘতর ট্র্যাজেক্টরিগুলি ব্যবহার না করে, পরিবর্তে প্রায়শই উচ্চতর বৈকল্পিকতা দেখা যায় , যা অনুশীলন হিসাবে বোঝায় যে অনুমানগুলি রূপান্তরিত হওয়ার আগে আপনার আরও নমুনার প্রয়োজন। সুতরাং, বুটস্ট্র্যাপিংয়ের সমস্যা থাকা সত্ত্বেও, যদি এটি কাজ করা যায় তবে এটি উল্লেখযোগ্যভাবে দ্রুত শিখতে পারে এবং মন্টি কার্লো পদ্ধতির চেয়ে প্রায়শই পছন্দ করা হয়।

আপনি মন্টি কার্লো নমুনা ভিত্তিক পদ্ধতি এবং একক-পদক্ষেপের টিডি পদ্ধতির মধ্যে আপস করতে পারেন যা বিভিন্ন দৈর্ঘ্যের ট্র্যাজেক্টরি থেকে ফলাফলের মিশ্রণ ব্যবহার করে বুটস্ট্র্যাপ করে। এটাকে বলা হয় : TD ( λ ) লার্নিং এবং এই ধরনের SARSA (যেমন নির্দিষ্ট বিভিন্ন পদ্ধতি আছে λ ) অথবা প্রশ্নঃ ( λ )।


1
এটি সম্ভবত অন্য প্রশ্ন হওয়া উচিত। তবে, আপনি যদি উত্তর দিতে চান তবে এবং Q ( s , a ) এর অনুমান কেন? Rt+1+γQ(s,a)Q(s,a)
nbro

1
@ এনব্রো: কেননা অভিমুখে, (এই সমীকরণগুলি এবং বেশিরভাগ আরএল এমডিপিগুলির জন্য বেলম্যান সমীকরণ দ্বারা চালিত হয়)। প্রকৃত ঘটনা যে রাষ্ট্র থেকে শুরু ঘটেছে দিকে তাকিয়ে গুলি এবং কর্ম একটিQ(s,a)=E[Rt+1+γQ(St+1,At+1)|St=s,At=a]sa, তাহলে আপনি সেই প্রত্যাশাটি থেকে মূলত নমুনা নিচ্ছেন। সমস্যাটি হ'ল এর জন্য আপনার যে মানটি রয়েছে তা সম্ভবত রূপান্তরিত হয়নি, সুতরাং নমুনা পক্ষপাতদুষ্ট। Q(St+1,At+1)
নিল স্লেটার

1
বুটস্ট্র্যাপিং-এ স্যুইচ করার আগে পর্বে বার্ন হিসাবে এমসির পদ্ধতি ব্যবহারে কাউকে কী বাধা দেয় ? অথবা এটি এর উপ-কেস হিসাবে বিবেচিত হতে পারে ? λTD
n1k31t4

1
@ n1k31t4: কিছুই এই কাজটি প্রতিরোধ করে না এবং এটি একটি বৈধ আরএল পদ্ধতির হওয়া উচিত। এটি টিডি ( ) থেকে আলাদা হবে তবে উভয় অ্যালগরিদম থেকে ভাল বৈশিষ্ট্য পাওয়ার চেষ্টা করার একই ধারণা দ্বারা অনুপ্রাণিত। আপনাকে এটি চেষ্টা করে দেখুন এবং টিডি ( λ ) এর সাথে শিক্ষার দক্ষতার তুলনা করতে হবে - টিউন করার জন্য আপনার কাছে এখনও একটি হাইপার প্যারামিটার রয়েছে, এটি এমসি চালানোর জন্য পর্বের সংখ্যা। আরও সাধারণ সংস্করণটি হ'ল change কে পরিবর্তন করার অনুমতি দেয় - λ = 1 দিয়ে শুরু করুন এবং একে ক্ষয় করুন উদাহরণস্বরূপ 0.4 বা যে মানটি সবচেয়ে অনুকূল বলে মনে হয়। যাইহোক, এটিতে 2 হাইপার প্যারামিটার, ক্ষয় হার এবং টার্গেট রয়েছে λλλλλ=10.4λ
নিল স্লেটার

@ নীলস্ল্যাটার, বুটস্ট্র্যাপিং ব্যবহার করার সময়, এটি রূপান্তর করতে পারে? আমি বুঝতে পারি না যেহেতু এটি Q (s ', a') হওয়া উচিত কেবল একটি স্বেচ্ছাসেবী অনুমান যা তখন Q (s, a) এর অনুমানকে বিকৃত করে। এছাড়াও, টিডির তুলনায় এমসির উচ্চতর বৈকল্পিকতা কেন রয়েছে?
d56

4

সাধারণভাবে, আরএল-এ বুটস্ট্র্যাপিংয়ের অর্থ হল যে আপনি কিছু সঠিক অনুমানের উপর ভিত্তি করে কিছু অনুমানের ভিত্তিতে একটি মান আপডেট করেন । যেমন

বর্ধিত মন্টি কার্লো নীতি মূল্যায়ন আপডেট:

V(St)=V(St)+α(GtV(St))

টিডি (0) নীতি মূল্যায়ন আপডেট:

V(St)=V(St)+α(Rt+1+γV(St+1)V(St))

sRt+1+γV(St+1) Gt

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.