2
কিছু সময়ে সময়ে নিরপেক্ষ পক্ষ থেকে কেন বেসলাইন রাজ্যে শর্তযুক্ত?
রোবোটিক্সে, রোবোটের নিয়ন্ত্রণের ধরণটি অনুসন্ধানের জন্য পুনর্বহাল শেখার কৌশলটি ব্যবহৃত হয়। দুর্ভাগ্যক্রমে, বেশিরভাগ নীতিমালার গ্রেডিয়েন্ট পদ্ধতিটি পরিসংখ্যানগতভাবে পক্ষপাতদুষ্ট যা রোবটটিকে একটি অনিরাপদ পরিস্থিতিতে আনতে পারে, জান পিটারস এবং স্টিফান স্কাল এর পৃষ্ঠা 2 দেখুন : নীতি গ্রেডিয়েন্টগুলির সাথে মোটর দক্ষতার শক্তিবৃদ্ধি শেখা, ২০০৮ মোটর আদিম শিক্ষার মাধ্যমে, সমস্যাটি কাটিয়ে ওঠা …