প্রশ্ন ট্যাগ «reinforcement-learning»

1
শক্তিবৃদ্ধি শেখার উপর ছাড়ের ফ্যাক্টরের অর্থ
আতির গেমসে গুগল ডিপমাইন্ড কৃতিত্বগুলি পড়ার পরে আমি কি-লার্নিং এবং কি-নেটওয়ার্কগুলি বোঝার চেষ্টা করছি তবে আমি কিছুটা বিভ্রান্ত হয়ে পড়েছি। ডিসকাউন্ট ফ্যাক্টরের ধারণায় বিভ্রান্তি দেখা দেয়। আমি যা বুঝি তার সংক্ষিপ্তসার কোনও ক্রিয়াকলাপের সর্বোত্তম প্রত্যাশিত মানটির মূল্য নির্ধারণের জন্য একটি গভীর কনভোলিউশনাল নিউরাল নেটওয়ার্ক ব্যবহার করা হয়। নেটওয়ার্ককে ক্ষতির ফাংশনটি …
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.