প্রশ্ন ট্যাগ «reinforcement-learning»

বাহ্যিক ইতিবাচক শক্তিবৃদ্ধি বা নেতিবাচক প্রতিক্রিয়া সংকেত বা উভয় দ্বারা নিয়ন্ত্রিত শেখার সাথে সম্পর্কিত প্রশ্নগুলির জন্য, যেখানে এতদূর শিখেছে তা শেখা এবং ব্যবহার একই সাথে ঘটে occur

6
মডেল-মুক্ত এবং মডেল-ভিত্তিক শক্তিবৃদ্ধি শেখার মধ্যে পার্থক্য কী?
মডেল-মুক্ত এবং মডেল-ভিত্তিক শক্তিবৃদ্ধি শেখার মধ্যে পার্থক্য কী? আমার কাছে মনে হয় যে কোনও মডেল-মুক্ত শিক্ষানবিস, পরীক্ষা এবং ত্রুটির মাধ্যমে শেখা, মডেল-ভিত্তিক হিসাবে প্রত্যাখাত হতে পারে। সেক্ষেত্রে মডেল-মুক্ত শিখাগুলি কখন উপযুক্ত হবে?

1
কি-লার্নিং এবং নীতি গ্রেডিয়েন্ট পদ্ধতির মধ্যে কী সম্পর্ক?
যতদূর আমি বুঝতে পেরেছি, কি-লার্নিং এবং পলিসি গ্রেডিয়েন্টস (পিজি) হ'ল দুটি প্রধান পন্থা যা আরএল সমস্যাগুলি সমাধান করার জন্য ব্যবহৃত হয়। যদিও কি-লার্নিংয়ের উদ্দেশ্য একটি নির্দিষ্ট রাজ্যে গৃহীত কোনও নির্দিষ্ট পদক্ষেপের পুরষ্কারের পূর্বাভাস দেওয়া হয়, নীতি গ্রেডিয়েন্টগুলি সরাসরি ক্রিয়াটি নিজেই পূর্বাভাস দেয়। যাইহোক, উভয় পদ্ধতিই আমার কাছে অভিন্ন বলে মনে …

4
শক্তিবৃদ্ধি শেখার ক্ষেত্রে কীভাবে অবৈধ পদক্ষেপগুলি পরিচালনা করবেন?
আমি এমন একটি এআই তৈরি করতে চাই যা পাঁচ-ইন-এ-সারি / গোমোকু খেলতে পারে। আমি শিরোনামে যেমন উল্লেখ করেছি, আমি এর জন্য পুনর্বহাল শেখার ব্যবহার করতে চাই। আমি বেসলাইন সহ পলিসি গ্রেডিয়েন্ট পদ্ধতি, যথা নাম REINFORCE ব্যবহার করি । মান এবং নীতি ফাংশন আনুমানিক জন্য, আমি একটি নিউরাল নেটওয়ার্ক ব্যবহার করি …

2
শক্তিবৃদ্ধি শেখার ক্ষেত্রে কীভাবে রাজ্যকে সংজ্ঞায়িত করা যায়?
আমি রিইনফোর্সমেন্ট লার্নিং এবং এর রূপগুলি অধ্যয়ন করছি। আলগোরিদিমগুলি কীভাবে কাজ করে এবং কীভাবে তারা এমডিপিতে প্রয়োগ করে সে সম্পর্কে আমি একটি ধারণা পেতে শুরু করি। আমি যা বুঝতে পারি না তা হ'ল এমডিপির রাজ্যগুলির সংজ্ঞা দেওয়ার প্রক্রিয়া। বেশিরভাগ উদাহরণ এবং টিউটোরিয়ালে, তারা গ্রিডে বা এর অনুরূপ স্কোয়ারের মতো সাধারণ …

2
নমুনা দক্ষতা কী এবং কীভাবে তা সার্থক করার জন্য গুরুত্বপূর্ণ নমুনা ব্যবহার করা যেতে পারে?
উদাহরণস্বরূপ, এই কাগজের শিরোনামটি পড়ে: "নমুনা দক্ষ অভিনেতা-সমালোচক অভিজ্ঞতার পুনরায় খেলুন"। নমুনা দক্ষতা কী এবং কীভাবে তা সার্থক করার জন্য গুরুত্বপূর্ণ নমুনা ব্যবহার করা যেতে পারে?

3
গেমস বাদে শক্তিবৃদ্ধি শেখার কোনও অ্যাপ্লিকেশন রয়েছে?
গেমস বাদে অন্য অ্যাপ্লিকেশনগুলিতে শক্তিবৃদ্ধি শেখার কোনও উপায় আছে কি? আমি ইন্টারনেটে কেবলমাত্র উদাহরণ খুঁজে পাচ্ছি সেগুলি গেম এজেন্টগুলির। আমি বুঝতে পারি যে ভিএনসি'র সংযুক্তি নেটওয়ার্কের মাধ্যমে গেমসে ইনপুট নিয়ন্ত্রণ করে। একটি সিএডি সফ্টওয়্যার বলতে কি এটি সেট আপ করা সম্ভব?

3
শক্তিবৃদ্ধি শেখার ক্ষেত্রে একটি সীমাবদ্ধ অ্যাকশন স্পেস কীভাবে প্রয়োগ করা যায়?
টেনসরফ্লো শীর্ষে নির্মিত খুব ভাল টেনসরফোর্স লাইব্রেরির জন্য পিপিও এজেন্টের সাহায্যে আমি একটি রিইনফোর্সমেন্ট লার্নিং মডেলকে কোডিং করছি । প্রথম সংস্করণটি খুব সহজ ছিল এবং আমি এখন আরও জটিল পরিবেশে ডুব দিচ্ছি যেখানে প্রতিটি পদক্ষেপে সমস্ত ক্রিয়া উপলব্ধ নেই। আসুন আমরা বলি যে এখানে 5 টি ক্রিয়া রয়েছে এবং তাদের …

1
আপনি পুনরায় প্রয়োগের শেখার উদাহরণগুলিতে ড্রপআউট স্তরগুলি দেখতে পাচ্ছেন না কেন?
আমি রিইনফোর্সমেন্ট লার্নিংয়ের দিকে তাকিয়ে আছি এবং বিশেষত ওপেনএআইআই জিম এআই এর সাথে ব্যবহার করার জন্য আমার নিজস্ব পরিবেশ তৈরি করার সাথে ঘুরেছি। আমি এটি পরীক্ষা করার জন্য স্থির_বেসলাইন প্রকল্পের এজেন্ট ব্যবহার করছি using একটি জিনিস আমি কার্যত সমস্ত আরএল উদাহরণগুলিতে লক্ষ্য করেছি যে এটি কোনও নেটওয়ার্কে কোনও ড্রপআউট স্তর …

1
আমার কখন রিইনফোর্সমেন্ট লার্নিং বনাম পিআইডি নিয়ন্ত্রণ ব্যবহার করা উচিত?
ওপেনএইজিআইএম- তে লুনার ল্যান্ডারের মতো সমস্যার সমাধানের নকশা করার সময় , রিইনফোর্সমেন্ট লার্নিং হ'ল এজেন্টকে পর্যাপ্ত অ্যাকশন নিয়ন্ত্রণ দেওয়ার একটি লোভনীয় মাধ্যম যাতে সাফল্যের সাথে অবতরণ করতে পারে। কিন্তু এমন কী কী উদাহরণ রয়েছে যেখানে নিয়ন্ত্রণ ব্যবস্থা অ্যালগরিদম, যেমন পিআইডি কন্ট্রোলাররা কেবল একটি পর্যাপ্ত কাজ করবে যেমন, রিইনফোর্সমেন্ট লার্নিং এর …

1
কেন DQN দুটি পৃথক নেটওয়ার্কের প্রয়োজন?
আমি ডিকিউএন এর এই বাস্তবায়নটি দিয়ে যাচ্ছিলাম এবং আমি দেখতে পাচ্ছি যে 124 এবং 125 লাইনে দুটি পৃথক কিউ নেটওয়ার্ক চালু করা হয়েছে। আমার বোধগম্যতা থেকে, আমি মনে করি একটি নেটওয়ার্ক উপযুক্ত ক্রিয়াটির পূর্বাভাস দেয় এবং দ্বিতীয় নেটওয়ার্কটি বেলম্যান ত্রুটি সন্ধানের জন্য লক্ষ্য Q এর মানগুলির পূর্বাভাস দেয়। কেন আমরা …

2
ফাংশন আনুমানিকতা ব্যবহার করার সময় কেন প্রশ্ন-শেখার একত্রিত হয় না?
সারণী কিউ-লার্নিং অ্যালগরিদম অনুকূল খুঁজে পাওয়ার গ্যারান্টিযুক্ত QQQ ফাংশন, Q∗Q∗Q^*, প্রদত্ত শিক্ষার হার সম্পর্কিত নিম্নলিখিত শর্তগুলি ( রব্বিনস-মনরো শর্তাবলী ) সন্তুষ্ট ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)&lt;∞∑tαt2(s,a)&lt;∞\sum_{t} \alpha_t^2(s, a) < \infty কোথায় αt(s,a)αt(s,a)\alpha_t(s, a) মানে আপডেট করার সময় ব্যবহৃত শিক্ষার হার QQQ রাষ্ট্রের সাথে সম্পর্কিত মান sss এবং কর্ম aaa …

3
কেন রেইনফোর্স অ্যালগরিদমে ছাড়ের হার দু'বার প্রদর্শিত হবে?
আমি রিইনফোর্সমেন্ট লার্নিং বইটি পড়ছিলাম : রিচার্ড এস সুতান এবং অ্যান্ড্রু জি বার্তোর একটি ভূমিকা (পুরো খসড়া, নভেম্বর 5, 2017)। পৃষ্ঠা 271 এ, এপিসোডিক মন্টে-কার্লো নীতি-গ্রেডিয়েন্ট পদ্ধতির সিউডো কোড উপস্থাপন করা হয়েছে। এই সিউডো কোডটি দেখে আমি বুঝতে পারছি না যে কেন ডিসকাউন্ট রেট 2 বার প্রদর্শিত হবে, একবার আপডেট …

1
এমএল / আরএল সম্প্রদায়ের কীভাবে আপ-টু-ডেট গবেষক থাকবেন?
একজন শিক্ষার্থী যিনি মেশিন লার্নিংয়ের বিষয়ে কাজ করতে চান, আমি জানতে চাই যে কীভাবে আমার পড়াশোনা শুরু করা সম্ভব এবং কীভাবে এটি আধুনিকীকরণের জন্য অনুসরণ করতে পারি follow উদাহরণস্বরূপ, আমি আরএল এবং এমএবি সমস্যা নিয়ে কাজ করতে ইচ্ছুক, তবে এই বিষয়গুলিতে বিশাল সাহিত্য রয়েছে। তদুপরি, এআই এবং এমএল, অপারেশনস রিসার্চ, …

1
একাধিক ক্রমাগত ক্রিয়াকলাপের ক্ষেত্রে নীতি গ্রেডিয়েন্টগুলি কীভাবে প্রয়োগ করা যেতে পারে?
বিশ্বস্ত অঞ্চল নীতি অপ্টিমাইজেশন (টিআরপিও) এবং প্রক্সিমাল পলিসি অপটিমাইজেশন (পিপিও) হ'ল দুটি কাটিয়া প্রান্ত পলিসি গ্রেডিয়েন্ট অ্যালগরিদম। একটি একক ক্রমাগত ক্রিয়া ব্যবহার করার সময়, সাধারণত, আপনি ক্ষতির জন্য কিছু সম্ভাবনা বন্টন (উদাহরণস্বরূপ, গাউসিয়ান) ব্যবহার করবেন। রুক্ষ সংস্করণটি হ'ল: L ( θ ) = লগ( পি(একটি1) ) এ ,L(θ)=log⁡(P(a1))A,L(\theta) = \log(P(a_1)) …

3
যদি পরিবেশটিও স্টকেস্টিক হয় তবে সর্বনিম্ন নীতি কি সর্বদা স্টোকাস্টিক?
যদি পরিবেশটিও স্টকেস্টিক হয় তবে সর্বোত্তম নীতি কি সর্বদা স্টোকাস্টিক (অর্থাত্ রাজ্য থেকে ক্রিয়াকলাপের সম্ভাবনা বন্টনের মানচিত্র) হয়? Intuitively, যদি পরিবেশ নির্ণায়ক (যেমন, যদি এজেন্ট অবস্থায় রয়েছেsগুলিs এবং পদক্ষেপ নেয় aএকটিa, তারপরে পরবর্তী রাষ্ট্র s′গুলি's' যে কোনও সময় পদক্ষেপের বিষয়টি বিবেচনা না করেই সর্বদা একরকম থাকে, তবে সর্বোত্তম নীতিটিও নির্বিচারবাদী …

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.