প্রশ্ন ট্যাগ «reinforcement-learning»

গতিশীল কৌশলগুলির একটি সেট যার মাধ্যমে একটি অ্যালগরিদম অনলাইনের সাথে পরিবেশগত কাঠামোটি শিখতে পারে অভিযোজিতভাবে বিভিন্ন পুরষ্কারের সাথে যুক্ত ক্রিয়াগুলি যাতে অর্জিত পুরষ্কারকে সর্বাধিকতর করে তোলা যায়।

3
কেন সর্বদা কমপক্ষে একটি নীতি থাকে যা অন্য সমস্ত নীতিমালার চেয়ে ভাল বা সমান?
শক্তিবৃদ্ধি শিক্ষা: একটি ভূমিকা। দ্বিতীয় সংস্করণ, চলছে ,, রিচার্ড এস সাটন এবং অ্যান্ড্রু জি বার্তো (সি) 2012, পৃষ্ঠা 67-68। একটি শক্তিবৃদ্ধি শেখার কাজটি সমাধান করার অর্থ, মোটামুটি, এমন একটি নীতি সন্ধান করা যা দীর্ঘকালীন সময়ে অনেক পুরষ্কার অর্জন করে। সসীম এমডিপিগুলির জন্য, আমরা নীচে সঠিকভাবে একটি সর্বোত্তম নীতি নির্ধারণ করতে …

2
নিউরাল নেটওয়ার্কগুলি ব্যবহার করে কি-লার্নিং সম্পর্কিত প্রশ্নাবলী
আমি বর্ণিত হিসাবে কিউ-লার্নিং বাস্তবায়ন করেছি, http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf আনুমানিক করার জন্য। প্রশ্ন (এস, এ) আমি নীচের মতো একটি নিউরাল নেটওয়ার্ক কাঠামো ব্যবহার করি, অ্যাক্টিভেশন সিগময়েড অ্যাকশন নিউরনগুলির জন্য ইনপুটগুলি, ইনপুটগুলির সংখ্যা +1 (সমস্ত ইনপুট 0-1 স্কেলড) আউটপুট, একক আউটপুট। কিউ-মূল্য এম লুকানো স্তরগুলির এন নম্বর। অন্বেষণের পদ্ধতিটি এলোমেলোভাবে 0 <র্যান্ড () …

1
গ্যাম বনাম লস বনাম স্প্লাইস
প্রসঙ্গ : আমি তাই আমি ব্যবহার করছি একটি scatterplot যে স্থিতিমাপ বলে মনে হচ্ছে না একটি রেখা আঁকা করতে চাই, geom_smooth()এ ggplotমধ্যে R। এটি স্বয়ংক্রিয়ভাবে প্রত্যাবর্তন করে geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = …

1
ডিপ কিউ লার্নিংয়ে পর্ব এবং যুগের মধ্যে পার্থক্য কী?
আমি বিখ্যাত কাগজটি "ডিপ রেইনফোর্সমেন্ট লার্নিংয়ের সাথে আতারি বাজানো" ( পিডিএফ ) বোঝার চেষ্টা করছি । একটি যুগ এবং পর্বের মধ্যে পার্থক্য সম্পর্কে আমি অস্পষ্ট । অ্যালগরিদম , বাইরের লুপটি এপিসোডের ওপরে রয়েছে , যখন চিত্র এ এক্স-অ্যাক্সিসকে যুগের লেবেলযুক্ত রয়েছে । শক্তিবৃদ্ধি শেখার প্রসঙ্গে, আমি একটি যুগের অর্থ কী …

1
গভীর শক্তিবৃদ্ধি শেখা কেন অস্থির?
গভীর শক্তিবৃদ্ধি শেখার বিষয়ে ডিপমাইন্ডের ২০১৫ সালের গবেষণাপত্রে এটি উল্লেখ করেছে যে "অস্থির শিক্ষার কারণে আরআরএলকে নিউরাল নেটওয়ার্কগুলির সাথে একত্রিত করার আগের প্রচেষ্টাগুলি ব্যর্থ হয়েছিল"। কাগজটি পর্যবেক্ষণ জুড়ে পারস্পরিক সম্পর্কের ভিত্তিতে এর কয়েকটি কারণ তালিকাভুক্ত করে। দয়া করে কেউ কি এর অর্থ ব্যাখ্যা করতে পারেন? এটি কি ওভারফিটিংয়ের একটি রূপ, …

1
এন-সশস্ত্র ডাকাত সমস্যা সমাধানের জন্য অনুকূল অ্যালগরিদম?
আমি এন সশস্ত্র ডাকাত সমস্যা সমাধানের জন্য আলগোরিদিম একটি সংখ্যা সম্পর্কে পড়েছি -greedy, softmax এবং UCB1, কিন্তু আমি কিছু কষ্ট কি পদ্ধতির খেদ কমানোর জন্য সবচেয়ে ভাল হয় মাধ্যমে বাছাই হচ্ছে।εε\epsilon এন-সশস্ত্র ডাকাত সমস্যা সমাধানের জন্য কি কোনও সর্বোত্তম অ্যালগরিদম রয়েছে? অনুশীলনে সেরা অভিনয় বলে মনে হচ্ছে এমন কোনও অ্যালগরিদমের …

2
কেন অভিজ্ঞতা পুনরায় খেলতে অফ-পলিসি অ্যালগরিদম প্রয়োজন?
পেপারে ডিকিউএন " ডিপ রেইনফোর্সমেন্ট লার্নিংয়ের সাথে আতারি বাজানো " প্রবর্তন করে , এতে উল্লেখ করা হয়েছে: মনে রাখবেন যে অভিজ্ঞতা রিপ্লে দ্বারা শিখার সময়, অফ-পলিসি শিখতে হবে (কারণ আমাদের বর্তমান প্যারামিটারগুলি নমুনা উত্পন্ন করতে আলাদা হয়), যা কিউ-শেখার পছন্দকে অনুপ্রাণিত করে। আমি এর মানে কি বেশ বুঝতে পারিনি। যদি …

2
রিগ্রেশন ফ্রেমওয়ার্কে মেশিন লার্নিংয়ের সমস্যা অনুবাদ করা
ধরুন আমি ব্যাখ্যামূলক ভেরিয়েবল একটি প্যানেল আছে , জন্য , , সেইসাথে বাইনারি ফলাফল নির্ভরশীল ভেরিয়েবল একটি ভেক্টর । সুতরাং কেবলমাত্র চূড়ান্ত সময়ে পর্যবেক্ষণ করা হয় এবং কোনও পূর্বের সময়ে নয়। সম্পূর্ণ সাধারণ ক্ষেত্রে জন্য একাধিক প্রতিটি ইউনিটের জন্য প্রতিবারের জন্য , তবে আসুন জন্য ক্ষেত্রে ফোকাস করি ।XitXitX_{it}i=1...Ni=1...Ni = …

3
গেম তত্ত্ব এবং পুনর্বহাল শেখার মধ্যে কী সম্পর্ক?
আমি (ডিপ) শক্তিবৃদ্ধি শিক্ষা (আরএল) এ আগ্রহী । এই ক্ষেত্রে ডুব দেওয়ার আগে আমি গেম থিওরি (জিটি) কোর্স করা উচিত ? জিটি এবং আরএল কীভাবে সম্পর্কিত?

1
রৈখিক ফাংশন আনুমানিকের সাথে কীভাবে মান-কিউ-মানগুলিতে ফিট করা যায়
শক্তিবৃদ্ধি শেখার ক্ষেত্রে লিনিয়ার ফাংশন আনুমানিকতা প্রায়শই ব্যবহৃত হয় যখন বড় বড় রাষ্ট্রের স্পেস থাকে। (যখন সারণীগুলি অনিবার্য হয়ে উঠবে তখন)) লিনিয়ার ফাংশন আনুমানিকের সাথে Q−প্রশ্নঃ-Q- মানটির ফর্মটি দিয়েছিল Q(s,a)=w1f1(s,a)+w2f2(s,a)+⋯,প্রশ্নঃ(গুলি,একটি)=W1চ1(গুলি,একটি)+ +W2চ2(গুলি,একটি)+ +⋯,Q(s,a) = w_1 f_1(s,a) + w_2 f_2(s,a) + \cdots, যেখানে wiWআমিw_i ওজন, এবং fifif_i বৈশিষ্ট্য। বৈশিষ্ট্যগুলি ব্যবহারকারী দ্বারা পূর্বনির্ধারিত …

2
অস্থায়ী পার্থক্যের চেয়ে মন্টি কার্লো পদ্ধতিগুলি কখন পছন্দ করা হয়?
আমি ইদানীং রিইনফোর্সমেন্ট লার্নিং সম্পর্কে প্রচুর গবেষণা করে চলেছি। আমি সটন এবং বার্তোর পুনর্বহালকরণ শিক্ষণ অনুসরণ করেছি : এর বেশিরভাগের জন্য একটি ভূমিকা । আমি জানি যে মার্কোভ সিদ্ধান্ত প্রক্রিয়াগুলি কী এবং কীভাবে ডায়নামিক প্রোগ্রামিং (ডিপি), মন্টি কার্লো এবং টেম্পোরাল ডিফারেন্স (ডিপি) লার্নিংগুলি সেগুলি সমাধান করার জন্য ব্যবহার করা যেতে …

1
আলফাগোর কাগজে রোলআউট নীতি কী?
কাগজ এখানে । রোলআউট নীতি ... একটি লিনিয়ার সফটম্যাক্স নীতি যা দ্রুত, বর্ধমানভাবে গণনা করা, স্থানীয় প্যাটার্ন-ভিত্তিক বৈশিষ্ট্যগুলির উপর ভিত্তি করে ... রোলআউট নীতি কী এবং কোনও পদক্ষেপ বাছাইয়ের নীতি নেটওয়ার্কের সাথে এটি কীভাবে সম্পর্কিত তা আমি বুঝতে পারি না। কোন সহজ ব্যাখ্যা?

1
ফাংশন আনুমানিক হিসাবে নিউরাল নেটওয়ার্কের সাথে কি-লার্নিং
আমি নিউরাল নেটওয়ার্কগুলি ব্যবহার করে কিউ-লার্নিং সম্পর্কিত প্রশ্নাবলী হিসাবে কিউ-লার্নিংয়ের কিউ-মানটিকে অনুমান করার জন্য একটি নিউরাল নেটওয়ার্ক ব্যবহার করার চেষ্টা করছি । প্রথম উত্তরে যেমন পরামর্শ দেওয়া হয়েছে, আমি আউটপুট স্তরের জন্য রৈখিক অ্যাক্টিভেশন ফাংশনটি ব্যবহার করছি, যদিও আমি এখনও লুকানো স্তরগুলিতে সিগময়েড অ্যাক্টিভেশন ফাংশনটি ব্যবহার করছি (2, যদিও আমি …

1
পি (ওয়াই | এক্স) এর কোনও মডেলকে পি (এক্স) এর নন-আইআইডি নমুনা এবং পি (ওয়াই। এক্স) এর আইআইডি নমুনাগুলি থেকে স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত হওয়ার মাধ্যমে প্রশিক্ষণ দেওয়া যেতে পারে?
কিছু ডেটা সেটে স্টোকাস্টিক গ্রেডিয়েন্ট বংশদ্ভুতের মাধ্যমে একটি প্যারামিটারাইজড মডেলকে (উদাহরণস্বরূপ সর্বাধিকীকরণের জন্য) প্রশিক্ষণ দেওয়ার সময়, এটি সাধারণত অনুমান করা হয় যে প্রশিক্ষণের ডেটা বিতরণ থেকে প্রশিক্ষণের নমুনাগুলি আঁকা হয়। সুতরাং যদি লক্ষ্যটি একটি যৌথ বিতরণ মডেল করা হয় , তবে প্রতিটি প্রশিক্ষণের নমুনা সেই বিতরণটি থেকে আঁকতে হবে।P(X,Y)P(X,Y)P(X,Y)(xi,yi)(xi,yi)(x_i,y_i) যদি …

2
নীতি পুনরাবৃত্তির অ্যালগরিদম কেন সর্বোত্তম নীতি এবং মান ফাংশনে রূপান্তর করে?
আমি পুনর্বহাল শেখার বিষয়ে অ্যান্ড্রু এনগের বক্তৃতা নোটগুলি পড়ছিলাম এবং আমি কেন নীতির পুনরাবৃত্তিকে সর্বোত্তম মান ফাংশনে রূপান্তরিত করে তা বোঝার চেষ্টা করছিলামভী*V∗V^* এবং সর্বোত্তম নীতি π*π∗\pi^*। পুনরুদ্ধার নীতি পুনরাবৃত্তি হ'ল: Initialize π randomlyRepeat{Let V:=Vπ \for the current policy, solve bellman's eqn's and set that to the current VLet π(s):=argmaxa∈A∑s′Psa(s′)V(s′)}Initialize …

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.