প্রশ্ন ট্যাগ «reinforcement-learning»

বাহ্যিক ইতিবাচক শক্তিবৃদ্ধি বা নেতিবাচক প্রতিক্রিয়া সংকেত বা উভয় দ্বারা নিয়ন্ত্রিত শেখার সাথে সম্পর্কিত প্রশ্নগুলির জন্য, যেখানে এতদূর শিখেছে তা শেখা এবং ব্যবহার একই সাথে ঘটে occur

2
কিছু সময়ে সময়ে নিরপেক্ষ পক্ষ থেকে কেন বেসলাইন রাজ্যে শর্তযুক্ত?
রোবোটিক্সে, রোবোটের নিয়ন্ত্রণের ধরণটি অনুসন্ধানের জন্য পুনর্বহাল শেখার কৌশলটি ব্যবহৃত হয়। দুর্ভাগ্যক্রমে, বেশিরভাগ নীতিমালার গ্রেডিয়েন্ট পদ্ধতিটি পরিসংখ্যানগতভাবে পক্ষপাতদুষ্ট যা রোবটটিকে একটি অনিরাপদ পরিস্থিতিতে আনতে পারে, জান পিটারস এবং স্টিফান স্কাল এর পৃষ্ঠা 2 দেখুন : নীতি গ্রেডিয়েন্টগুলির সাথে মোটর দক্ষতার শক্তিবৃদ্ধি শেখা, ২০০৮ মোটর আদিম শিক্ষার মাধ্যমে, সমস্যাটি কাটিয়ে ওঠা …

1
দাবাড়ির মতো গেমগুলিতে শক্তিবৃদ্ধি শেখার প্রয়োগ সম্পর্কিত কয়েকটি সন্দেহ
আমি দাবা জাতীয় বোর্ড গেমটি আবিষ্কার করেছি। আমি একটি ইঞ্জিন তৈরি করেছি যাতে এটি স্বায়ত্তশাসিতভাবে খেলতে পারে। ইঞ্জিনটি মূলত একটি সিদ্ধান্ত গাছ। এটি রচনা করেছেন: একটি অনুসন্ধান ফাংশন যা প্রতিটি নোডে সমস্ত সম্ভাব্য আইনী পদক্ষেপ খুঁজে পায় একটি মূল্যায়ন ফাংশন যা বোর্ডের পজিশনে একটি সংখ্যাসূচক মূল্য নির্ধারণ করে (ইতিবাচক অর্থ …
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.