প্রোগ্রামিং reinforcement-learning

7

ভিজ্যুয়াল ইনপুট ব্যবহার করে ডায়াবলো 2 খেলতে কোনও কৃত্রিম নিউরাল নেটওয়ার্ক কীভাবে প্রশিক্ষণ দেওয়া যায়?

আমি বর্তমানে একটি ভিডিও গেম খেলতে একটি এএনএন পাওয়ার চেষ্টা করছি এবং আমি এখানে অপূর্ব সম্প্রদায়ের কাছ থেকে কিছুটা সাহায্য পাওয়ার আশা করছিলাম। আমি ডায়াবলো ২ তে স্থির হয়েছি Game গেম প্লেটি রিয়েল-টাইমে এবং আইসোমেট্রিক দৃষ্টিকোণ থেকে প্লেয়ারের সাথে একক অবতারকে নিয়ন্ত্রণ করছে যার ক্যামেরাটি কেন্দ্রিক। জিনিসগুলিকে কংক্রিট করার জন্য, …

139 machine-learning computer-vision neural-network video-processing reinforcement-learning

5

মান পুনরাবৃত্তি এবং নীতি পুনরাবৃত্তির মধ্যে পার্থক্য কী?

শক্তিবৃদ্ধি শেখার ক্ষেত্রে, নীতি পুনরাবৃত্তি এবং মান পুনরাবৃত্তির মধ্যে পার্থক্য কী ? আমি যতটা বুঝতে পারি, মান পুনরাবৃত্তিতে আপনি নীতিমালার নীতি সমাধানের জন্য বেলম্যান সমীকরণটি ব্যবহার করেন, অন্যদিকে, নীতি পুনরাবৃত্তিতে, আপনি এলোমেলোভাবে একটি নীতি নির্বাচন করেন π, এবং সেই নীতিটির পুরষ্কার পান। আমার সন্দেহ হ'ল আপনি যদি পিআই তে কোনও …

98 machine-learning reinforcement-learning markov-models value-iteration

1

গ্রেডিয়েন্ট পলিসি ডেরাইভিং বোঝা

আমি পলিসি গ্রেডিয়েন্টের খুব সাধারণ উদাহরণটি পুনরায় তৈরি করার চেষ্টা করছি, এর উত্স উত্স আন্দ্রেজ কার্পাতি ব্লগ থেকে । সেই আর্টিকেলটিতে, আপনি ওজন এবং সফটম্যাক্স অ্যাক্টিভেশন তালিকা সহ কার্টপোল এবং নীতি গ্রেডিয়েন্টের সাথে উদাহরণ পাবেন। কার্টপোল নীতি গ্রেডিয়েন্টের এটি আমার পুনরায় তৈরি এবং খুব সাধারণ উদাহরণ, যা নিখুঁত কাজ করে …

19 python machine-learning math deep-learning reinforcement-learning

1

প্রকারের ত্রুটি: প্রতীকী টেনসারগুলির জন্য লেন ভালভাবে সংজ্ঞায়িত হয় না। (অ্যাক্টিভেশন 14 / পরিচয়: 0) আকৃতির তথ্যের জন্য দয়া করে `লেন (এক্স)` এর পরিবর্তে `x. shape` কল করুন

আমি ওপেনএআই জিমের একটি গেমের জন্য একটি ডিকিউএল মডেল বাস্তবায়নের চেষ্টা করছি। কিন্তু এটি আমাকে নিম্নলিখিত ত্রুটি দিচ্ছে। প্রকারের ত্রুটি: প্রতীকী টেনসারগুলির জন্য লেন ভালভাবে সংজ্ঞায়িত হয় না। (অ্যাক্টিভেশন 14 / পরিচয়: 0) আকৃতির তথ্যের x.shapeচেয়ে কল len(x)করুন। একটি জিম পরিবেশ তৈরি করা: ENV_NAME = 'CartPole-v0' env = gym.make(ENV_NAME) np.random.seed(123) …

10 python tensorflow keras reinforcement-learning keras-rl

প্রশ্ন ট্যাগ «reinforcement-learning»