প্রশ্ন ট্যাগ «reinforcement-learning»

গতিশীল কৌশলগুলির একটি সেট যার মাধ্যমে একটি অ্যালগরিদম অনলাইনের সাথে পরিবেশগত কাঠামোটি শিখতে পারে অভিযোজিতভাবে বিভিন্ন পুরষ্কারের সাথে যুক্ত ক্রিয়াগুলি যাতে অর্জিত পুরষ্কারকে সর্বাধিকতর করে তোলা যায়।

5
অফ-পলিসি এবং অন-পলিসি শেখার মধ্যে পার্থক্য কী?
কৃত্রিম বুদ্ধিমত্তা ওয়েবসাইট নীতির হিসাবে অফ-পলিসি এবং অন-পলিসি শিক্ষার সংজ্ঞা দেয়: "একজন অফ-পলিসি লার্নার এজেন্টের ক্রিয়াকলাপের থেকে স্বতন্ত্র নীতিমালার মান শিখতে পারে Q । " আমি এই বিষয়ে আপনার স্পষ্টতা জিজ্ঞাসা করতে চাই, কারণ তারা আমার সাথে কোনও পার্থক্য করে বলে মনে হয় না। উভয় সংজ্ঞা দেখতে অভিন্ন বলে মনে …

3
শক্তিবৃদ্ধি শেখার ক্ষেত্রে ছাড়ের কারণের ভূমিকা বোঝা
আমি নিজেকে শক্তিবৃদ্ধি শেখার বিষয়ে শিক্ষা দিচ্ছি, এবং ছাড়ের পুরষ্কারের ধারণাটি বোঝার চেষ্টা করছি। সুতরাং পুরষ্কারটি সিস্টেমকে জানাতে প্রয়োজনীয় যে-স্টেট-অ্যাকশন জোড়া ভাল এবং কোনটি খারাপ। তবে আমি যা বুঝতে পারি না তা ছাড় ছাড়ের পুরষ্কার কেন দরকার। পরবর্তীকালের চেয়ে খুব শীঘ্রই একটি ভাল রাষ্ট্র পৌঁছাচ্ছে কিনা তা কেন বিবেচিত হবে? …

2
আলফাগোর মতো দাবারের জন্য কেন গভীরতর শক্তিবৃদ্ধি শেখার কোনও ইঞ্জিন নেই?
কম্পিউটারগুলি দীর্ঘকাল ধরে "ব্রুট-ফোর্স" -টেকনিউক ব্যবহার করে দাবা খেলতে সক্ষম হয়েছে, একটি নির্দিষ্ট গভীরতার সন্ধান করছে এবং তারপরে অবস্থানটি মূল্যায়ন করবে। আলফাগো কম্পিউটার তবে পজিশনগুলি মূল্যায়নের জন্য কেবল একটি এএনএন ব্যবহার করে (যতদূর আমি জানি এটি কোনও গভীরতা-অনুসন্ধান করে না)। আলফাগো গো যেভাবে খেলেন তেমনভাবে দাবা খেলতে এমন একটি দাবা …

9
শক্তিবৃত্তি শিক্ষায় বেলম্যানের সমীকরণ ডেরাইভিং
আমি " ইন রিইনফোর্সমেন্ট লার্নিং এ। একটি পরিচিতি " -এ নীচের সমীকরণটি দেখছি , তবে নীচের নীলে আমি যে পদক্ষেপটি তুলে ধরেছি তা পুরোপুরি অনুসরণ করবেন না। এই পদক্ষেপটি ঠিক কীভাবে উত্পন্ন?

2
তত্ত্বাবধানে পড়াশোনা, নিরীক্ষণযোগ্য শিখন এবং পুনর্বহাল শেখার: কর্মপ্রবাহের বুনিয়াদি
তত্ত্বাবধান শেখা 1) একজন ইনপুট এবং আউটপুট ডেটার উপর ভিত্তি করে একটি শ্রেণিবদ্ধ তৈরি করে 2) এই শ্রেণিবদ্ধকারী ডেটা একটি প্রশিক্ষণ সেট সঙ্গে প্রশিক্ষিত হয় 3) যে শ্রেণিবদ্ধকারী তথ্য পরীক্ষার সেট দিয়ে পরীক্ষা করা হয় 4) আউটপুট সন্তোষজনক হলে স্থাপনা যখন এই ডেটাটিকে শ্রেণিবদ্ধ করতে হয় তা আমি যখন জানতাম …

3
সেরা ডাকাত অ্যালগরিদম?
সর্বাধিক সুপরিচিত ডাকাত অ্যালগরিদম হ'ল আপার কনফিডেন্স বাউন্ড (ইউসিবি) যা এই শ্রেণীর অ্যালগরিদমকে জনপ্রিয় করেছে। সেই থেকে আমি ধারণা করছি এখন আরও ভাল অ্যালগরিদম আছে। বর্তমানের সেরা অ্যালগরিদম কী (উভয় ক্ষেত্রে অভিজ্ঞতামূলক পারফরম্যান্স বা তাত্ত্বিক সীমার ক্ষেত্রে)? এই অ্যালগরিদম কি কোনও অর্থে অনুকূল?

3
দৈনিক সময় সিরিজ বিশ্লেষণ
আমি সময় সিরিজ বিশ্লেষণ করার চেষ্টা করছি এবং এই ক্ষেত্রে নতুন। আমার 2006-2009-এর একটি ইভেন্টের দৈনিক গণনা রয়েছে এবং আমি এটিতে একটি টাইম সিরিজের মডেল ফিট করতে চাই। আমি যে অগ্রগতি করেছি তা এখানে: timeSeriesObj = ts(x,start=c(2006,1,1),frequency=365.25) plot.ts(timeSeriesObj) আমি প্রাপ্ত ফলাফলের প্লটটি হ'ল: ডেটাতে seasonতু এবং ট্রেন্ড আছে কিনা তা …

4
অ্যাংরি পাখি খেলতে আপনি কীভাবে একটি মেশিন লার্নিং সিস্টেম ডিজাইন করবেন?
খুব বেশি অ্যাংরি পাখি খেলার পরে, আমি নিজের কৌশলগুলি পর্যবেক্ষণ করতে শুরু করেছি। দেখা যাচ্ছে যে আমি প্রতিটি স্তরে 3 তারা পাওয়ার জন্য খুব নির্দিষ্ট পদ্ধতির বিকাশ করেছি। এটি অ্যাগ্রি পাখি খেলতে সক্ষম হবে এমন একটি মেশিন লার্নিং সিস্টেম বিকাশের চ্যালেঞ্জগুলি সম্পর্কে আমাকে অবাক করে দিয়েছে। গেমটির সাথে ইন্টারঅ্যাক্ট করা …

2
পুনরাবৃত্তি শক্তিবৃদ্ধি শেখা কি
আমি সম্প্রতি "পুনরাবৃত্তি পুনর্বহাল শেখা" শব্দটি পেয়েছি। আমি "পুনরাবৃত্ত নিউরাল নেটওয়ার্ক" কী এবং "রিইনফোর্সমেন্ট লার্নিং" কী তা বুঝতে পেরেছি, তবে "পুনরুত্পূর্ণ শক্তিবৃদ্ধি শিক্ষা" কী তা সম্পর্কে খুব বেশি তথ্য খুঁজে পাইনি। কেউ আমাকে ব্যাখ্যা করতে পারেন যে "পুনরুক্ত পুনর্বহাল শেখা" কী এবং "পুনরুক্ত পুনর্বহাল শেখা" এবং কিউ-লার্নিং অ্যালগরিদমের মতো সাধারণ …

1
সারসএ বনাম কিউ লার্নিং কখন নির্বাচন করবেন
সরসা এবং কিউ লার্নিং উভয়ই রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম যা একইভাবে কাজ করে। সর্বাধিক আকর্ষণীয় পার্থক্য হ'ল কিউ লার্নিং অফ পলিসি বন্ধ থাকাকালীন সরসা নীতিতে রয়েছে। আপডেটের নিয়মগুলি নিম্নরূপ: প্রশ্ন লার্নিং: Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γ\max_{a'}Q(s_{t+1},a')−Q(s_t,a_t)] SARSA: Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γQ(s_{t+1},a_{t+1})−Q(s_t,a_t)] যেখানে st,atst,ats_t,\,a_t এবং rtrtr_t সময় পদে পদে রাষ্ট্র, কর্ম ও পুরস্কার হয় ttt এবং γγ\gamma একটি ডিসকাউন্ট …

4
কেন-লার্নিং পরীক্ষার সময় অ্যাপসিলন-লোভী ব্যবহার করে?
আটারি ভিডিও গেমসের জন্য ডিপ কিউ-লার্নিংয়ের ডিপমাইন্ডের গবেষণাপত্রে ( এখানে ), তারা প্রশিক্ষণের সময় অনুসন্ধানের জন্য একটি অ্যাপসিলন-লোভী পদ্ধতি ব্যবহার করে। এর অর্থ হ'ল প্রশিক্ষণে কোনও ক্রিয়া বাছাই করা হয়, এটি হয় হয় সর্বাধিক Q-মান, বা একটি এলোমেলো ক্রিয়া সহ ক্রিয়া হিসাবে বেছে নেওয়া হয়। এই দুটিয়ের মধ্যে নির্বাচন করা …

2
শক্তিবৃদ্ধি শেখার ক্ষেত্রে কীভাবে একটি পুরষ্কার ফাংশন করা যায়
রিইনফোর্সমেন্ট লার্নিং অধ্যয়ন করার সময়, আমি পুরষ্কারের ফাংশনটির অনেকগুলি রূপ নিয়ে এসেছি: , আর ( গুলি , এ , এস ′ ) , এমনকি এমন একটি পুরষ্কারের কাজ যা কেবলমাত্র বর্তমান অবস্থার উপর নির্ভর করে। এটি বলার পরে, আমি বুঝতে পেরেছিলাম যে একটি পুরষ্কার ফাংশন 'তৈরি' বা 'সংজ্ঞায়িত' করা খুব …

2
প্রশ্নপত্রটি কি-লার্নিংয়ে কেন বেছে নেওয়া হয়েছিল?
প্রশ্নপত্রটি কি-লার্নিংয়ের নামে কেন বেছে নেওয়া হয়েছিল? সর্বাধিক অক্ষর যেমন একটি সমাহার হিসেবে নির্বাচিত করা হয় নীতি এবং জন্য স্থায়ী বনাম মান জন্য দাঁড়িয়েছে। তবে আমি মনে করি না যে প্রশ্নটি কোনও শব্দের সংক্ষেপণ।ππ\pivvv

1
তত্ত্বাবধানে শেখা কি শক্তিবৃদ্ধি শেখার একটি উপসেট হয়?
দেখে মনে হচ্ছে তত্ত্বাবধানের শিক্ষার সংজ্ঞাটি একটি বিশেষ ধরণের পুরষ্কার ফাংশন সহ শক্তিবৃদ্ধি শেখার একটি উপসেট যা লেবেলযুক্ত ডেটা (পরিবেশের অন্যান্য তথ্যের বিপরীতে) এর উপর ভিত্তি করে with এটি কি সঠিক চিত্রায়ন?

4
কোন ধরনের বাস্তব জীবনের পরিস্থিতিতে আমরা একটি বহু-বাহু ডাকাত অ্যালগরিদম ব্যবহার করতে পারি?
মাল্টি-আর্ম দস্যুরা এমন পরিস্থিতিতে ভাল কাজ করে যেখানে আপনার পছন্দ আছে এবং আপনি নিশ্চিত নন যে কোনটি আপনার মঙ্গলকে সর্বাধিক বাড়িয়ে তুলবে। কিছু বাস্তব জীবনের পরিস্থিতিতে আপনি অ্যালগরিদম ব্যবহার করতে পারেন। উদাহরণস্বরূপ, শেখা একটি ভাল ক্ষেত্র হতে পারে: যদি কোনও বাচ্চা ছুতের কাজ শিখতে থাকে এবং সে এতে খারাপ হয় …

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.