পরিসংখ্যান এবং বড় তথ্য q-learning

4

কেন-লার্নিং পরীক্ষার সময় অ্যাপসিলন-লোভী ব্যবহার করে?

আটারি ভিডিও গেমসের জন্য ডিপ কিউ-লার্নিংয়ের ডিপমাইন্ডের গবেষণাপত্রে ( এখানে ), তারা প্রশিক্ষণের সময় অনুসন্ধানের জন্য একটি অ্যাপসিলন-লোভী পদ্ধতি ব্যবহার করে। এর অর্থ হ'ল প্রশিক্ষণে কোনও ক্রিয়া বাছাই করা হয়, এটি হয় হয় সর্বাধিক Q-মান, বা একটি এলোমেলো ক্রিয়া সহ ক্রিয়া হিসাবে বেছে নেওয়া হয়। এই দুটিয়ের মধ্যে নির্বাচন করা …

18 machine-learning reinforcement-learning q-learning deep-rl

2

প্রশ্নপত্রটি কি-লার্নিংয়ে কেন বেছে নেওয়া হয়েছিল?

প্রশ্নপত্রটি কি-লার্নিংয়ের নামে কেন বেছে নেওয়া হয়েছিল? সর্বাধিক অক্ষর যেমন একটি সমাহার হিসেবে নির্বাচিত করা হয় নীতি এবং জন্য স্থায়ী বনাম মান জন্য দাঁড়িয়েছে। তবে আমি মনে করি না যে প্রশ্নটি কোনও শব্দের সংক্ষেপণ।ππ\pivvv

17 terminology reinforcement-learning history q-learning

1

ডিপ কিউ লার্নিংয়ে পর্ব এবং যুগের মধ্যে পার্থক্য কী?

আমি বিখ্যাত কাগজটি "ডিপ রেইনফোর্সমেন্ট লার্নিংয়ের সাথে আতারি বাজানো" ( পিডিএফ ) বোঝার চেষ্টা করছি । একটি যুগ এবং পর্বের মধ্যে পার্থক্য সম্পর্কে আমি অস্পষ্ট । অ্যালগরিদম , বাইরের লুপটি এপিসোডের ওপরে রয়েছে , যখন চিত্র এ এক্স-অ্যাক্সিসকে যুগের লেবেলযুক্ত রয়েছে । শক্তিবৃদ্ধি শেখার প্রসঙ্গে, আমি একটি যুগের অর্থ কী …

14 neural-networks terminology reinforcement-learning q-learning

1

শক্তিবৃদ্ধি শেখার অ্যালগরিদমগুলি সম্পর্কে ওভারভিউ

আমি বর্তমানে রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম এবং তার মধ্যে একটি শ্রেণিবদ্ধকরণ সম্পর্কিত একটি ওভারভিউ খুঁজছি। তবে সরসা এবং কি-লার্নিং + ডিপ কিউ-লার্নিংয়ের পরে আমি সত্যিই কোনও জনপ্রিয় অ্যালগরিদম খুঁজে পাই না। উইকিপিডিয়া আমাকে বিভিন্ন সাধারণ পুনর্বহালকরণ শেখার পদ্ধতিগুলির উপর একটি ওভারভিউ দেয় তবে এই পদ্ধতিগুলি প্রয়োগ করে বিভিন্ন অ্যালগরিদমের কোনও রেফারেন্স …

9 reinforcement-learning q-learning

2

অ-স্থির পরিবেশে শক্তিবৃদ্ধি শেখা [বন্ধ]

বন্ধ । এই প্রশ্নটি আরও ফোকাস করা প্রয়োজন । এটি বর্তমানে উত্তর গ্রহণ করছে না। এই প্রশ্নটি উন্নত করতে চান? প্রশ্নটি আপডেট করুন যাতে এটি কেবলমাত্র এই পোস্টটি সম্পাদনা করে একটি সমস্যার উপর দৃষ্টি নিবদ্ধ করে । 19 দিন আগে বন্ধ ছিল । প্রশ্নোত্তর: সাধারণভাবে রিইনফোর্সমেন্ট লার্নিংয়ে স্থিতিশীল নন পরিবেশের …

9 markov-process reinforcement-learning stationarity q-learning

4

আমি কীভাবে একটি কক্সিক বিপত্তি মডেল বেঁচে থাকার বক্ররেখা ব্যাখ্যা করব?

কক্স আনুপাতিক বিপদ মডেল থেকে আপনি কীভাবে বেঁচে থাকার কার্ভটিকে ব্যাখ্যা করবেন? এই খেলনা উদাহরণে, ধরুন আমাদের কাছে ডেটা ageপরিবর্তনের ক্ষেত্রে একটি কক্স আনুপাতিক বিপত্তি মডেল রয়েছে kidneyএবং বেঁচে থাকার বক্ররেখা উত্পন্ন করছে। library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() উদাহরণস্বরূপ, সময়ে , কোন বিবৃতিটি সত্য? নাকি দুটোই …

9 r survival cox-model likelihood machine-learning deep-learning generative-models machine-learning reinforcement-learning q-learning regression multicollinearity convergence beta-distribution bernoulli-distribution machine-learning self-study pattern-recognition neural-networks stochastic-processes linear

1

যখন ক্রিয়াকলাপের জন্য একটি আউটপুট ইউনিট থাকে তখন নিউরাল নেটওয়ার্কগুলির সাথে কি-লার্নিং কতটা দক্ষ?

পটভূমি: আমি আমার শক্তিবৃদ্ধি শেখার কাজে নিউরাল নেটওয়ার্ক কিউ-মান আনুমানিক ব্যবহার করছি। দৃষ্টিভঙ্গি এই প্রশ্নের বর্ণিত হিসাবে ঠিক একই , তবে প্রশ্নটি নিজেই আলাদা। এই পদ্ধতির আউটপুটগুলির সংখ্যাটি আমরা গ্রহণ করতে পারি এমন ক্রিয়াকলাপ। এবং সহজ কথায়, অ্যালগরিদমটি নিম্নলিখিত: ক্রিয়া A করুন, পুরষ্কারটি অন্বেষণ করুন, NN কে সমস্ত সম্ভাব্য ক্রয়ের …

9 machine-learning neural-networks reinforcement-learning q-learning

প্রশ্ন ট্যাগ «q-learning»