রোবোটিক্সে, রোবোটের নিয়ন্ত্রণের ধরণটি অনুসন্ধানের জন্য পুনর্বহাল শেখার কৌশলটি ব্যবহৃত হয়। দুর্ভাগ্যক্রমে, বেশিরভাগ নীতিমালার গ্রেডিয়েন্ট পদ্ধতিটি পরিসংখ্যানগতভাবে পক্ষপাতদুষ্ট যা রোবটটিকে একটি অনিরাপদ পরিস্থিতিতে আনতে পারে, জান পিটারস এবং স্টিফান স্কাল এর পৃষ্ঠা 2 দেখুন : নীতি গ্রেডিয়েন্টগুলির সাথে মোটর দক্ষতার শক্তিবৃদ্ধি শেখা, ২০০৮
মোটর আদিম শিক্ষার মাধ্যমে, সমস্যাটি কাটিয়ে ওঠা সম্ভব কারণ নীতি গ্রেডিয়েন্ট প্যারামিটার অপটিমাইজেশন শিক্ষার পদক্ষেপগুলিকে লক্ষ্যে নিয়ে যায়।
উদ্ধৃতি: "যদি গ্রেডিয়েন্ট অনুমানটি পক্ষপাতহীন হয় এবং শিক্ষার হারগুলি পরিমান (ক) = 0 পূরণ করে তবে শেখার প্রক্রিয়াটি কমপক্ষে স্থানীয় নূন্যতমে রূপান্তরিত হওয়ার গ্যারান্টিযুক্ত [...] অতএব, কেবলমাত্র উত্পন্ন ডেটা থেকে আমাদের পলিসি গ্রেডিয়েন্টটি অনুমান করতে হবে। একটি কার্য সম্পাদনের সময়। ”(একই কাগজের পৃষ্ঠা 4)
বার্কলে আরএল শ্রেণি সমস্যা 1 এর হোমওয়ার্কে , এটি আপনাকে দেখানোর জন্য জিজ্ঞাসা করে যে যদি নীতি গ্রেডিয়েন্টটি এখনও পক্ষপাতহীন তবে যদি বেসলাইনটি বিয়োগফল টাইমস্টেপ টিতে রাজ্যের কোনও ফাংশন হয়।
এই জাতীয় প্রমাণের প্রথম ধাপ কী হতে পারে তা নিয়ে আমি লড়াই করছি। কেউ আমাকে সঠিক পথ নির্দেশ করতে পারবেন? আমার প্রাথমিক ধারণাটি ছিল কোনওভাবেই বি এর (বি) স্টাডেন্টের প্রত্যাশাকে শর্তাধীন করার জন্য মোট প্রত্যাশার আইনটি ব্যবহার করা , তবে আমি নিশ্চিত নই। আগাম ধন্যবাদ :)