প্রশ্ন ট্যাগ «q-learning»

4
কেন-লার্নিং পরীক্ষার সময় অ্যাপসিলন-লোভী ব্যবহার করে?
আটারি ভিডিও গেমসের জন্য ডিপ কিউ-লার্নিংয়ের ডিপমাইন্ডের গবেষণাপত্রে ( এখানে ), তারা প্রশিক্ষণের সময় অনুসন্ধানের জন্য একটি অ্যাপসিলন-লোভী পদ্ধতি ব্যবহার করে। এর অর্থ হ'ল প্রশিক্ষণে কোনও ক্রিয়া বাছাই করা হয়, এটি হয় হয় সর্বাধিক Q-মান, বা একটি এলোমেলো ক্রিয়া সহ ক্রিয়া হিসাবে বেছে নেওয়া হয়। এই দুটিয়ের মধ্যে নির্বাচন করা …

2
প্রশ্নপত্রটি কি-লার্নিংয়ে কেন বেছে নেওয়া হয়েছিল?
প্রশ্নপত্রটি কি-লার্নিংয়ের নামে কেন বেছে নেওয়া হয়েছিল? সর্বাধিক অক্ষর যেমন একটি সমাহার হিসেবে নির্বাচিত করা হয় নীতি এবং জন্য স্থায়ী বনাম মান জন্য দাঁড়িয়েছে। তবে আমি মনে করি না যে প্রশ্নটি কোনও শব্দের সংক্ষেপণ।ππ\pivvv

1
ডিপ কিউ লার্নিংয়ে পর্ব এবং যুগের মধ্যে পার্থক্য কী?
আমি বিখ্যাত কাগজটি "ডিপ রেইনফোর্সমেন্ট লার্নিংয়ের সাথে আতারি বাজানো" ( পিডিএফ ) বোঝার চেষ্টা করছি । একটি যুগ এবং পর্বের মধ্যে পার্থক্য সম্পর্কে আমি অস্পষ্ট । অ্যালগরিদম , বাইরের লুপটি এপিসোডের ওপরে রয়েছে , যখন চিত্র এ এক্স-অ্যাক্সিসকে যুগের লেবেলযুক্ত রয়েছে । শক্তিবৃদ্ধি শেখার প্রসঙ্গে, আমি একটি যুগের অর্থ কী …

1
শক্তিবৃদ্ধি শেখার অ্যালগরিদমগুলি সম্পর্কে ওভারভিউ
আমি বর্তমানে রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম এবং তার মধ্যে একটি শ্রেণিবদ্ধকরণ সম্পর্কিত একটি ওভারভিউ খুঁজছি। তবে সরসা এবং কি-লার্নিং + ডিপ কিউ-লার্নিংয়ের পরে আমি সত্যিই কোনও জনপ্রিয় অ্যালগরিদম খুঁজে পাই না। উইকিপিডিয়া আমাকে বিভিন্ন সাধারণ পুনর্বহালকরণ শেখার পদ্ধতিগুলির উপর একটি ওভারভিউ দেয় তবে এই পদ্ধতিগুলি প্রয়োগ করে বিভিন্ন অ্যালগরিদমের কোনও রেফারেন্স …

2
অ-স্থির পরিবেশে শক্তিবৃদ্ধি শেখা [বন্ধ]
বন্ধ । এই প্রশ্নটি আরও ফোকাস করা প্রয়োজন । এটি বর্তমানে উত্তর গ্রহণ করছে না। এই প্রশ্নটি উন্নত করতে চান? প্রশ্নটি আপডেট করুন যাতে এটি কেবলমাত্র এই পোস্টটি সম্পাদনা করে একটি সমস্যার উপর দৃষ্টি নিবদ্ধ করে । 19 দিন আগে বন্ধ ছিল । প্রশ্নোত্তর: সাধারণভাবে রিইনফোর্সমেন্ট লার্নিংয়ে স্থিতিশীল নন পরিবেশের …

4
আমি কীভাবে একটি কক্সিক বিপত্তি মডেল বেঁচে থাকার বক্ররেখা ব্যাখ্যা করব?
কক্স আনুপাতিক বিপদ মডেল থেকে আপনি কীভাবে বেঁচে থাকার কার্ভটিকে ব্যাখ্যা করবেন? এই খেলনা উদাহরণে, ধরুন আমাদের কাছে ডেটা ageপরিবর্তনের ক্ষেত্রে একটি কক্স আনুপাতিক বিপত্তি মডেল রয়েছে kidneyএবং বেঁচে থাকার বক্ররেখা উত্পন্ন করছে। library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() উদাহরণস্বরূপ, সময়ে , কোন বিবৃতিটি সত্য? নাকি দুটোই …

1
যখন ক্রিয়াকলাপের জন্য একটি আউটপুট ইউনিট থাকে তখন নিউরাল নেটওয়ার্কগুলির সাথে কি-লার্নিং কতটা দক্ষ?
পটভূমি: আমি আমার শক্তিবৃদ্ধি শেখার কাজে নিউরাল নেটওয়ার্ক কিউ-মান আনুমানিক ব্যবহার করছি। দৃষ্টিভঙ্গি এই প্রশ্নের বর্ণিত হিসাবে ঠিক একই , তবে প্রশ্নটি নিজেই আলাদা। এই পদ্ধতির আউটপুটগুলির সংখ্যাটি আমরা গ্রহণ করতে পারি এমন ক্রিয়াকলাপ। এবং সহজ কথায়, অ্যালগরিদমটি নিম্নলিখিত: ক্রিয়া A করুন, পুরষ্কারটি অন্বেষণ করুন, NN কে সমস্ত সম্ভাব্য ক্রয়ের …
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.