প্রশ্ন ট্যাগ «reinforcement-learning»

7
ভিজ্যুয়াল ইনপুট ব্যবহার করে ডায়াবলো 2 খেলতে কোনও কৃত্রিম নিউরাল নেটওয়ার্ক কীভাবে প্রশিক্ষণ দেওয়া যায়?
আমি বর্তমানে একটি ভিডিও গেম খেলতে একটি এএনএন পাওয়ার চেষ্টা করছি এবং আমি এখানে অপূর্ব সম্প্রদায়ের কাছ থেকে কিছুটা সাহায্য পাওয়ার আশা করছিলাম। আমি ডায়াবলো ২ তে স্থির হয়েছি Game গেম প্লেটি রিয়েল-টাইমে এবং আইসোমেট্রিক দৃষ্টিকোণ থেকে প্লেয়ারের সাথে একক অবতারকে নিয়ন্ত্রণ করছে যার ক্যামেরাটি কেন্দ্রিক। জিনিসগুলিকে কংক্রিট করার জন্য, …

5
মান পুনরাবৃত্তি এবং নীতি পুনরাবৃত্তির মধ্যে পার্থক্য কী?
শক্তিবৃদ্ধি শেখার ক্ষেত্রে, নীতি পুনরাবৃত্তি এবং মান পুনরাবৃত্তির মধ্যে পার্থক্য কী ? আমি যতটা বুঝতে পারি, মান পুনরাবৃত্তিতে আপনি নীতিমালার নীতি সমাধানের জন্য বেলম্যান সমীকরণটি ব্যবহার করেন, অন্যদিকে, নীতি পুনরাবৃত্তিতে, আপনি এলোমেলোভাবে একটি নীতি নির্বাচন করেন π, এবং সেই নীতিটির পুরষ্কার পান। আমার সন্দেহ হ'ল আপনি যদি পিআই তে কোনও …

1
গ্রেডিয়েন্ট পলিসি ডেরাইভিং বোঝা
আমি পলিসি গ্রেডিয়েন্টের খুব সাধারণ উদাহরণটি পুনরায় তৈরি করার চেষ্টা করছি, এর উত্স উত্স আন্দ্রেজ কার্পাতি ব্লগ থেকে । সেই আর্টিকেলটিতে, আপনি ওজন এবং সফটম্যাক্স অ্যাক্টিভেশন তালিকা সহ কার্টপোল এবং নীতি গ্রেডিয়েন্টের সাথে উদাহরণ পাবেন। কার্টপোল নীতি গ্রেডিয়েন্টের এটি আমার পুনরায় তৈরি এবং খুব সাধারণ উদাহরণ, যা নিখুঁত কাজ করে …

1
প্রকারের ত্রুটি: প্রতীকী টেনসারগুলির জন্য লেন ভালভাবে সংজ্ঞায়িত হয় না। (অ্যাক্টিভেশন 14 / পরিচয়: 0) আকৃতির তথ্যের জন্য দয়া করে `লেন (এক্স)` এর পরিবর্তে `x. shape` কল করুন
আমি ওপেনএআই জিমের একটি গেমের জন্য একটি ডিকিউএল মডেল বাস্তবায়নের চেষ্টা করছি। কিন্তু এটি আমাকে নিম্নলিখিত ত্রুটি দিচ্ছে। প্রকারের ত্রুটি: প্রতীকী টেনসারগুলির জন্য লেন ভালভাবে সংজ্ঞায়িত হয় না। (অ্যাক্টিভেশন 14 / পরিচয়: 0) আকৃতির তথ্যের x.shapeচেয়ে কল len(x)করুন। একটি জিম পরিবেশ তৈরি করা: ENV_NAME = 'CartPole-v0' env = gym.make(ENV_NAME) np.random.seed(123) …
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.