কিছু সময়ে সময়ে নিরপেক্ষ পক্ষ থেকে কেন বেসলাইন রাজ্যে শর্তযুক্ত?


9

রোবোটিক্সে, রোবোটের নিয়ন্ত্রণের ধরণটি অনুসন্ধানের জন্য পুনর্বহাল শেখার কৌশলটি ব্যবহৃত হয়। দুর্ভাগ্যক্রমে, বেশিরভাগ নীতিমালার গ্রেডিয়েন্ট পদ্ধতিটি পরিসংখ্যানগতভাবে পক্ষপাতদুষ্ট যা রোবটটিকে একটি অনিরাপদ পরিস্থিতিতে আনতে পারে, জান পিটারস এবং স্টিফান স্কাল এর পৃষ্ঠা 2 দেখুন : নীতি গ্রেডিয়েন্টগুলির সাথে মোটর দক্ষতার শক্তিবৃদ্ধি শেখা, ২০০৮

মোটর আদিম শিক্ষার মাধ্যমে, সমস্যাটি কাটিয়ে ওঠা সম্ভব কারণ নীতি গ্রেডিয়েন্ট প্যারামিটার অপটিমাইজেশন শিক্ষার পদক্ষেপগুলিকে লক্ষ্যে নিয়ে যায়।

উদ্ধৃতি: "যদি গ্রেডিয়েন্ট অনুমানটি পক্ষপাতহীন হয় এবং শিক্ষার হারগুলি পরিমান (ক) = 0 পূরণ করে তবে শেখার প্রক্রিয়াটি কমপক্ষে স্থানীয় নূন্যতমে রূপান্তরিত হওয়ার গ্যারান্টিযুক্ত [...] অতএব, কেবলমাত্র উত্পন্ন ডেটা থেকে আমাদের পলিসি গ্রেডিয়েন্টটি অনুমান করতে হবে। একটি কার্য সম্পাদনের সময়। ”(একই কাগজের পৃষ্ঠা 4)

বার্কলে আরএল শ্রেণি সমস্যা 1 এর হোমওয়ার্কে , এটি আপনাকে দেখানোর জন্য জিজ্ঞাসা করে যে যদি নীতি গ্রেডিয়েন্টটি এখনও পক্ষপাতহীন তবে যদি বেসলাইনটি বিয়োগফল টাইমস্টেপ টিতে রাজ্যের কোনও ফাংশন হয়।

θt=1TE(st,at)p(st,at)[b(st)]=0

এই জাতীয় প্রমাণের প্রথম ধাপ কী হতে পারে তা নিয়ে আমি লড়াই করছি। কেউ আমাকে সঠিক পথ নির্দেশ করতে পারবেন? আমার প্রাথমিক ধারণাটি ছিল কোনওভাবেই বি এর (বি) স্টাডেন্টের প্রত্যাশাকে শর্তাধীন করার জন্য মোট প্রত্যাশার আইনটি ব্যবহার করা , তবে আমি নিশ্চিত নই। আগাম ধন্যবাদ :)

সমীকরণের মূল পিএনজি-তে লিঙ্ক


এসই স্বাগত: এআই! (আমি সমীকরণটি ম্যাথজ্যাক্সে রূপান্তর করার স্বাধীনতা নিয়েছি Orig মূল .png নীচে লিঙ্কযুক্ত))
ডিউকঝো

2
লেটেক্সের সাথে সঠিক সমীকরণগুলি লিখতে এবং ফর্ম্যাট করতে (সম্ভবত পরে যদি এটি এখনও উত্তর না দেওয়া হয়) করতে খুব বেশি সময় না পান তবে এখানে একটি ইঙ্গিত দেওয়া আছে। আপনার কাছে থাকতে চান যে যোগফলটি নীতিমালার উপর নির্ভর করে না যাতে ডেরাইভেটিভ 0 হয় So সুতরাং আপনি কোনওভাবে পলিসি পি (গুলি, ক) ব্যবহার করে প্রকাশ করার চেষ্টা করবেন। উত্তর বিটিডব্লিউ পলিসি গ্রেডিয়েন্ট অধ্যায়ের সাটনের আরএল ইন্ট্রো বইতেও পাওয়া যাবে।
হাই এনগুইন

1
আপনাকে অনেক ধন্যবাদ! আমি সেই ইঙ্গিতটি শুরু করতে ব্যবহার করব, পাশাপাশি এটি সাটন আরএল-এ থাকার কথা বলার জন্য আপনাকে ধন্যবাদ জানাই। আমি বইটি পড়ছি এবং এটি বেশ দুর্দান্ত!
লরা সি

@LauraC যদি আপনি অন্য কেউ আগে উত্তর খুঁজে, ফিরে আসা না দয়া করে এবং স্পষ্টভাবে এই প্রশ্নের মত :) এখানে একটি আনুষ্ঠানিক উত্তর হিসাবে পোস্ট (মানুষ
DukeZhou

আমি প্রশ্নের প্রসঙ্গে তথ্য যুক্ত করেছি।
ম্যানুয়েল রদ্রিগেজ

উত্তর:


7

কারও কাছে পুনরাবৃত্তি হওয়া প্রত্যাশার আইন ব্যবহার করে:

θt=1TE(st,at)p(st,at)[b(st)]=θt=1TEstp(st)[Eatπθ(at|st)[b(st)]]=

ইন্টিগ্রাল সহ রচিত এবং গ্রেডিয়েন্টটি ভিতরে স্থানান্তরিত (লিনিয়ারিটি) আপনি পাবেন

=t=1Tstp(st)(atθb(st)πθ(at|st)dat)dst=

আপনি এখন স্থানান্তর করতে পারেন θ (রৈখিকতার কারণে) এবং b(st) (উপর নির্ভর করে না at) বাইরের একের সাথে অভ্যন্তরীণ অবিচ্ছেদ্য গঠন:

=t=1Tstp(st)b(st)θ(atπθ(at|st)dat)dst=

πθ(at|st) একটি (শর্তসাপেক্ষ) সম্ভাবনা ঘনত্ব ফাংশন, তাই সর্বোপরি একীকরণ at একটি নির্দিষ্ট স্থিত রাষ্ট্রের জন্য st সমান 1:

=t=1Tstp(st)b(st)θ1dst=

এখন θ1=0, যা প্রমাণ উপসংহারে।


1

দেখা যাচ্ছে যে হোমওয়ার্ক এই উত্তরটি লেখার দুটি দিন আগে হবার কথা ছিলো, কিন্তু ক্ষেত্রে এটি এখনও কিছু ভাবে প্রাসঙ্গিক, প্রাসঙ্গিক বর্গ নোট (যা দরকারী হত যদি হোমওয়ার্ক সহ প্রশ্নে প্রদত্ত) এখানে আছেন

শিক্ষার্থীর উপর প্রত্যাশার প্রথম উদাহরণটি হ'ল, "দয়া করে পুনরাবৃত্ত প্রত্যাশাগুলির আইনটি ভেঙে 12 টি সমীকরণটি দেখান Eτpθ(τ) বাকী ট্র্যাজেক্টোরির থেকে রাষ্ট্র-ক্রিয়া প্রান্তিকটিকে ডিকোপলিং করে "" সমীকরণ 12 এটি।

t=1টিτ~পিθ(τ)[θলগπθ(একটিটি|গুলিটি)((গুলিটি))]=0

শ্রেণীর নোটগুলি সনাক্ত করে πθ(একটিটি|গুলিটি)রাষ্ট্র-কর্ম প্রান্তিক হিসাবে এটি কোনও প্রমাণ চাওয়া প্রমাণ নয়, তবে ডুউপলিং সম্পাদন করতে এবং রাষ্ট্র-কর্মের প্রান্তিকের স্বতন্ত্রতা অর্জন করতে পারে যে ডিগ্রিটি প্রদর্শন করতে বীজগণিতের পদক্ষেপগুলির একটি ক্রম।

এই অনুশীলনটি হোম ওয়ার্কের পরবর্তী পদক্ষেপের জন্য একটি প্রস্তুতি এবং কেবল সিএস 189, বার্কলে'র পরিচিতি মেশিন লার্নিং কোর্সে পর্যালোচনা করে আঁকায়, যার পাঠ্যক্রম বা শ্রেণির নোটগুলিতে মোট প্রত্যাশার আইন নেই।

সমস্ত প্রাসঙ্গিক তথ্য উপরের লিঙ্কে ক্লাস নোটের জন্য এবং কেবলমাত্র মধ্যবর্তী বীজগণিতের প্রয়োজন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.