প্রশ্নোত্তর: সাধারণভাবে রিইনফোর্সমেন্ট লার্নিংয়ে স্থিতিশীল নন পরিবেশের সাথে মোকাবিলার জন্য কি সাধারণ বা স্বীকৃত পদ্ধতি রয়েছে?
বেশিরভাগ বেসিক আরএল এজেন্টগুলি অনলাইনে থাকে এবং অনলাইন লার্নিংটি সাধারণত অ-স্টেশনারি সমস্যাগুলি মোকাবেলা করতে পারে। এছাড়াও, নিয়ন্ত্রণ সমস্যার ক্ষেত্রে রাষ্ট্রীয় মূল্য এবং অ্যাকশন মান অনুমানের জন্য আপডেট বিধিগুলি সাধারণত অ-স্থির লক্ষ্যমাত্রার জন্য লেখা হয়, কারণ নীতিটি উন্নতির সাথে সাথে লক্ষ্যগুলি ইতিমধ্যে পরিবর্তিত হয়। এটি জটিল কিছুই নয়, মানগুলির মূল্যায়ন করার সময় আপডেটের ক্ষেত্রে কেবলমাত্র শিক্ষার হার- ব্যবহার করা , কার্যকরভাবে একটি ঘূর্ণায়মান জ্যামিতিক মানে অদ্বিতীয় ফ্যাশনে সমস্ত ইতিহাসের গড় গড় বিরোধিতা।α
যাইহোক , এটি দীর্ঘমেয়াদী অ-স্টেশনারিটি সম্বোধন করে, যেমন এপিসোডগুলির মধ্যে সমস্যা পরিবর্তন করা বা আরও দীর্ঘ সময়ের স্কেল। আপনার বিবরণটি আরও বেশি মনে হচ্ছে আপনি সংক্ষিপ্ত সময়ের মধ্যে এজেন্টের পদক্ষেপের ভিত্তিতে পুরষ্কারের কাঠামোটি পরিবর্তন করতে চান। ক্রিয়াকলাপের সেই গতিশীল প্রতিক্রিয়াটিকে আরও জটিল এমডিপি হিসাবে আরও ভাল ফ্রেম করা হয়, একটি সাধারণ এমডিপির মধ্যে "অ-স্টেশনারিটি" হিসাবে নয়।
কোনও এজেন্ট পরিবেশে এমন পরিবর্তনগুলি শিখতে পারে না যে এটি এখনও নমুনা দেয় নি, সুতরাং পুরষ্কারের কাঠামো পরিবর্তন করা এজেন্টকে আগের-পরিদর্শন করা রাজ্যে ফিরে আসতে বাধা দেয় না। আপনি যদি এজেন্টে আরএনএন এর মতো কিছু ব্যবহার না করেন তবে এজেন্টের বর্তমান পর্বে উপস্থিত সমস্ত কিছু বাদে পর্বের আগে যা ঘটেছিল তার একটি "মেমরি" থাকবে না (যুক্তিযুক্তভাবে একটি আরএনএন ব্যবহার করে আরএনএন অংশের গোপন স্তরটিকে তৈরি করে) রাষ্ট্রের). একাধিক এপিসোড জুড়ে, আপনি যদি একটি সারণী কিউ-লার্নিং এজেন্ট ব্যবহার করেন, তবে এজেন্ট কেবল শিখতে পারবেন যে নির্দিষ্ট রাজ্যের কম মূল্য রয়েছে, এটি দ্বিতীয়বার বা রাষ্ট্রের দ্বিতীয় তৃতীয় দর্শন প্রভাব ফেলবে তা শিখতে সক্ষম হবে না, কারণ এর কোনও নেই যে জ্ঞান উপস্থাপন করার উপায়। এটি অনলাইন এবং মিড-এপিসোড শিখতে পর্যাপ্ত পরিবর্তনের সাথে সামঞ্জস্য করতে সক্ষম হবে না।
প্রশ্ন 2: আমার গ্রিডওয়ার্ল্ডে, যখন কোনও রাষ্ট্র পরিদর্শন করা হয় তখন আমার পুরষ্কারটির ফাংশনটি পরিবর্তিত হয়। আমার এজেন্টটি যা শিখতে চাই তা হ'ল "যদি আপনার সত্যিকারের প্রয়োজন না হয় তবে ফিরে যাবেন না", তবে এটি পরিবেশকে অচল করে দেয়।
আপনার যদি এজেন্টটি শেখার জন্য কেবল এটিই হয় তবে সম্ভবত এটি একটি উপযুক্ত পুরষ্কার কাঠামো দ্বারা উত্সাহিত করা যেতে পারে। আপনি এটি করতে পারার আগে, নিজেকে "সত্যিকার অর্থে" কী বোঝায় তা এবং নিজেকে যুক্তিযুক্তভাবে কতটা শক্ত করতে হবে তা বুঝতে হবে। এজেন্ট ইতিমধ্যে বা সম্প্রতি পরিদর্শন করেছেন এমন কোনও স্থানে দেখার জন্য কিছু জরিমানার বরাদ্দ দিয়ে আপনি ঠিক থাকতে পারেন।
/ কী খুব সাধারণ নিয়মটি এমডিপি মডেলটিতে সংযুক্ত করা উচিত এবং কীভাবে?
হ্যাঁ, আপনি রাজ্যে পরিদর্শন করা অবস্থানগুলি সম্পর্কিত তথ্য যুক্ত করা উচিত। এটি অবিলম্বে আপনার রাষ্ট্রের মডেলটিকে একটি সাধারণ গ্রিড ওয়ার্ল্ডের চেয়ে আরও জটিল করে তুলবে, সমস্যার মাত্রিকতা বাড়িয়ে তুলবে, তবে এটি অনিবার্য। বেশিরভাগ বাস্তব-বিশ্বের সমস্যাগুলি খুব দ্রুত আরএল ধারণাগুলি শেখানোর জন্য সরবরাহ করা খেলনা উদাহরণগুলিকে ছাড়িয়ে যায়।
একটি বিকল্প হ'ল আংশিক পর্যবেক্ষণযোগ্য মার্কভ ডিসিশন প্রক্রিয়া (পিওএমডিপি) হিসাবে সমস্যাটি ফ্রেম করা । সেক্ষেত্রে পুরষ্কার গণনা করার জন্য "সত্য" রাষ্ট্রটি এখনও প্রয়োজনীয় সমস্ত ইতিহাস অন্তর্ভুক্ত করবে (এবং এটি কোনও কম্পিউটারে খেলনার সমস্যা হিসাবে আপনাকে এখনও কোনও উপায়ে এটি উপস্থাপন করতে হবে), তবে এজেন্ট বাধা থেকে শেখার চেষ্টা করতে পারে রাষ্ট্র জ্ঞান, যা কিছু আপনি এটি পর্যবেক্ষণ করতে দিন। সাধারণভাবে এটি রাষ্ট্রের প্রতিনিধিত্বকে প্রসারিত করার চেয়ে অনেক শক্ত পদ্ধতির এবং আমি এখানে এটির সুপারিশ করব না। তবে, আপনি যদি ধারণাটি আকর্ষণীয় মনে করেন, আপনি POMDPs অন্বেষণ করতে আপনার সমস্যাটি ব্যবহার করতে পারেন। এখানে একটি সাম্প্রতিক কাগজ রয়েছে (গুগলের ডিপ মাইন্ড টিম, 2015) যা পিওএমডিপিগুলি সমাধান করার জন্য আরএনএন-এর সাথে মিলিত দুটি আরএল অ্যালগরিদম দেখায় looks
প্রশ্ন 3: আমি স্থির-অবিশ্বাস্য পরিবেশ নিয়ে কাজ করার সমাধান হিসাবে অভিজ্ঞতা রিপ্লে নিয়ে কি-লার্নিংয়ের দিকে নজর রেখেছি, কারণ এটি ক্রমাগত আপডেটগুলি সজ্জিত করে। এটি কি এই পদ্ধতির সঠিক ব্যবহার বা আরও বেশি তথ্য শেখার দক্ষতার সাথে মোকাবেলা করা আরও বেশি?
অভিজ্ঞতার পুনরায় খেলতে অ-নিশ্চল পরিবেশগুলির সাথে সহায়তা করবে না। আসলে এটি তাদের মধ্যে পারফরম্যান্সকে আরও খারাপ করতে পারে। যাইহোক, ইতিমধ্যে যেমনটি বলা হয়েছে, আপনার সমস্যাটি সত্যই স্থিতিশীল নয় এমন পরিবেশ সম্পর্কে নয়, বরং আরও জটিল রাষ্ট্রীয় গতিশীলতা পরিচালনা করার ক্ষেত্রে।
আপনি কি হতে পারে যা করতে হবে ফাংশন পড়তা দেখব, যদি একটি বৃহৎ যথেষ্ট নম্বরে রাজ্যের বৃদ্ধির সংখ্যা। উদাহরণস্বরূপ, আপনি যদি কোনও ব্যাক-ট্র্যাকিং পরিচালনা করতে চান এবং প্রতিটি পরিদর্শনকৃত অবস্থানের উপর নজর রাখে এমন একটি জটিল পুরষ্কার-সংশোধন করার নিয়ম রয়েছে, তবে আপনার রাজ্য কোনও একক অবস্থানের নম্বর থেকে কোনও মানচিত্রে পরিদর্শন করা অবস্থানগুলি পরিবর্তন করতে পারে। উদাহরণস্বরূপ এটি থেকে যেতে পারে64 জন্য একটি রাষ্ট্র 8 × 8 গ্রিড ওয়ার্ল্ড টু এ 264রাষ্ট্র মানচিত্র পরিদর্শন স্কোয়ার দেখাচ্ছে। এটি মান সারণীতে ট্র্যাক করার পক্ষে অনেক বেশি, সুতরাং আপনি সাধারণত এর পরিবর্তে রাষ্ট্রীয় মানগুলি অনুমান করার জন্য একটি নিউরাল নেটওয়ার্ক (বা একটি কনভোলশনাল নিউরাল নেটওয়ার্ক) ব্যবহার করবেন।
একটি ফাংশন অনুমানকারী সহ, অভিজ্ঞতা পুনরায় খেলা খুব দরকারী, যেমন এটি ছাড়া, শেখার প্রক্রিয়াটি অস্থির হওয়ার সম্ভাবনা রয়েছে। আতারি গেমস খেলার জন্য সাম্প্রতিক ডিকিউএন পদ্ধতির কারণে অভিজ্ঞতার রিপ্লে ব্যবহার করা হয়েছে।