অ-স্থির পরিবেশে শক্তিবৃদ্ধি শেখা [বন্ধ]


9

প্রশ্নোত্তর: সাধারণভাবে রিইনফোর্সমেন্ট লার্নিংয়ে স্থিতিশীল নন পরিবেশের সাথে মোকাবিলার জন্য কি সাধারণ বা স্বীকৃত পদ্ধতি রয়েছে?

প্রশ্ন 2: আমার গ্রিডওয়ার্ল্ডে, যখন কোনও রাষ্ট্র পরিদর্শন করা হয় তখন আমার পুরষ্কারটির ফাংশনটি পরিবর্তিত হয়। প্রতিটি পর্ব পুরষ্কারগুলি প্রাথমিক অবস্থায় পুনরায় সেট করে। আমার এজেন্টটি যা শিখতে চাই তা হ'ল "যদি আপনার সত্যিকারের প্রয়োজন না হয় তবে ফিরে যাবেন না", তবে এটি পরিবেশকে অচল করে দেয়। / কী খুব সাধারণ নিয়মটি এমডিপি মডেলটিতে সংযুক্ত করা উচিত এবং কীভাবে? এই সমস্যাটি মোকাবেলার জন্য কি-লার্নিং সেরা সমাধান? কোন পরামর্শ বা উপলব্ধ উদাহরণ?

প্রশ্ন 3: আমি স্থির-অবিশ্বাস্য পরিবেশ নিয়ে কাজ করার সমাধান হিসাবে অভিজ্ঞতা রিপ্লে নিয়ে কি-লার্নিংয়ের দিকে নজর রেখেছি, কারণ এটি ক্রমাগত আপডেটগুলি সজ্জিত করে। এটি কি এই পদ্ধতির সঠিক ব্যবহার বা আরও বেশি তথ্য শেখার দক্ষতার সাথে মোকাবেলা করা আরও বেশি? এবং আমি এটি শুধুমাত্র মান আনুমানিকের সাথে ব্যবহার করতে দেখেছি। আমি নিশ্চিত নই যে গ্রিডওয়ার্ল্ডের মতো সাধারণ বিচ্ছিন্ন রাষ্ট্রীয় জায়গার জন্য এটি ব্যবহার করা ওভারকিল কিনা বা এর আলাদা কারণ রয়েছে।

আপনি সমস্ত প্রশ্নের সমাধান করতে না পারলেও দয়া করে উত্তর দিতে বা মন্তব্য করতে দ্বিধা বোধ করবেন।

উত্তর:


10

প্রশ্নোত্তর: সাধারণভাবে রিইনফোর্সমেন্ট লার্নিংয়ে স্থিতিশীল নন পরিবেশের সাথে মোকাবিলার জন্য কি সাধারণ বা স্বীকৃত পদ্ধতি রয়েছে?

বেশিরভাগ বেসিক আরএল এজেন্টগুলি অনলাইনে থাকে এবং অনলাইন লার্নিংটি সাধারণত অ-স্টেশনারি সমস্যাগুলি মোকাবেলা করতে পারে। এছাড়াও, নিয়ন্ত্রণ সমস্যার ক্ষেত্রে রাষ্ট্রীয় মূল্য এবং অ্যাকশন মান অনুমানের জন্য আপডেট বিধিগুলি সাধারণত অ-স্থির লক্ষ্যমাত্রার জন্য লেখা হয়, কারণ নীতিটি উন্নতির সাথে সাথে লক্ষ্যগুলি ইতিমধ্যে পরিবর্তিত হয়। এটি জটিল কিছুই নয়, মানগুলির মূল্যায়ন করার সময় আপডেটের ক্ষেত্রে কেবলমাত্র শিক্ষার হার- ব্যবহার করা , কার্যকরভাবে একটি ঘূর্ণায়মান জ্যামিতিক মানে অদ্বিতীয় ফ্যাশনে সমস্ত ইতিহাসের গড় গড় বিরোধিতা।α

যাইহোক , এটি দীর্ঘমেয়াদী অ-স্টেশনারিটি সম্বোধন করে, যেমন এপিসোডগুলির মধ্যে সমস্যা পরিবর্তন করা বা আরও দীর্ঘ সময়ের স্কেল। আপনার বিবরণটি আরও বেশি মনে হচ্ছে আপনি সংক্ষিপ্ত সময়ের মধ্যে এজেন্টের পদক্ষেপের ভিত্তিতে পুরষ্কারের কাঠামোটি পরিবর্তন করতে চান। ক্রিয়াকলাপের সেই গতিশীল প্রতিক্রিয়াটিকে আরও জটিল এমডিপি হিসাবে আরও ভাল ফ্রেম করা হয়, একটি সাধারণ এমডিপির মধ্যে "অ-স্টেশনারিটি" হিসাবে নয়।

কোনও এজেন্ট পরিবেশে এমন পরিবর্তনগুলি শিখতে পারে না যে এটি এখনও নমুনা দেয় নি, সুতরাং পুরষ্কারের কাঠামো পরিবর্তন করা এজেন্টকে আগের-পরিদর্শন করা রাজ্যে ফিরে আসতে বাধা দেয় না। আপনি যদি এজেন্টে আরএনএন এর মতো কিছু ব্যবহার না করেন তবে এজেন্টের বর্তমান পর্বে উপস্থিত সমস্ত কিছু বাদে পর্বের আগে যা ঘটেছিল তার একটি "মেমরি" থাকবে না (যুক্তিযুক্তভাবে একটি আরএনএন ব্যবহার করে আরএনএন অংশের গোপন স্তরটিকে তৈরি করে) রাষ্ট্রের). একাধিক এপিসোড জুড়ে, আপনি যদি একটি সারণী কিউ-লার্নিং এজেন্ট ব্যবহার করেন, তবে এজেন্ট কেবল শিখতে পারবেন যে নির্দিষ্ট রাজ্যের কম মূল্য রয়েছে, এটি দ্বিতীয়বার বা রাষ্ট্রের দ্বিতীয় তৃতীয় দর্শন প্রভাব ফেলবে তা শিখতে সক্ষম হবে না, কারণ এর কোনও নেই যে জ্ঞান উপস্থাপন করার উপায়। এটি অনলাইন এবং মিড-এপিসোড শিখতে পর্যাপ্ত পরিবর্তনের সাথে সামঞ্জস্য করতে সক্ষম হবে না।

প্রশ্ন 2: আমার গ্রিডওয়ার্ল্ডে, যখন কোনও রাষ্ট্র পরিদর্শন করা হয় তখন আমার পুরষ্কারটির ফাংশনটি পরিবর্তিত হয়। আমার এজেন্টটি যা শিখতে চাই তা হ'ল "যদি আপনার সত্যিকারের প্রয়োজন না হয় তবে ফিরে যাবেন না", তবে এটি পরিবেশকে অচল করে দেয়।

আপনার যদি এজেন্টটি শেখার জন্য কেবল এটিই হয় তবে সম্ভবত এটি একটি উপযুক্ত পুরষ্কার কাঠামো দ্বারা উত্সাহিত করা যেতে পারে। আপনি এটি করতে পারার আগে, নিজেকে "সত্যিকার অর্থে" কী বোঝায় তা এবং নিজেকে যুক্তিযুক্তভাবে কতটা শক্ত করতে হবে তা বুঝতে হবে। এজেন্ট ইতিমধ্যে বা সম্প্রতি পরিদর্শন করেছেন এমন কোনও স্থানে দেখার জন্য কিছু জরিমানার বরাদ্দ দিয়ে আপনি ঠিক থাকতে পারেন।

/ কী খুব সাধারণ নিয়মটি এমডিপি মডেলটিতে সংযুক্ত করা উচিত এবং কীভাবে?

হ্যাঁ, আপনি রাজ্যে পরিদর্শন করা অবস্থানগুলি সম্পর্কিত তথ্য যুক্ত করা উচিত। এটি অবিলম্বে আপনার রাষ্ট্রের মডেলটিকে একটি সাধারণ গ্রিড ওয়ার্ল্ডের চেয়ে আরও জটিল করে তুলবে, সমস্যার মাত্রিকতা বাড়িয়ে তুলবে, তবে এটি অনিবার্য। বেশিরভাগ বাস্তব-বিশ্বের সমস্যাগুলি খুব দ্রুত আরএল ধারণাগুলি শেখানোর জন্য সরবরাহ করা খেলনা উদাহরণগুলিকে ছাড়িয়ে যায়।

একটি বিকল্প হ'ল আংশিক পর্যবেক্ষণযোগ্য মার্কভ ডিসিশন প্রক্রিয়া (পিওএমডিপি) হিসাবে সমস্যাটি ফ্রেম করা । সেক্ষেত্রে পুরষ্কার গণনা করার জন্য "সত্য" রাষ্ট্রটি এখনও প্রয়োজনীয় সমস্ত ইতিহাস অন্তর্ভুক্ত করবে (এবং এটি কোনও কম্পিউটারে খেলনার সমস্যা হিসাবে আপনাকে এখনও কোনও উপায়ে এটি উপস্থাপন করতে হবে), তবে এজেন্ট বাধা থেকে শেখার চেষ্টা করতে পারে রাষ্ট্র জ্ঞান, যা কিছু আপনি এটি পর্যবেক্ষণ করতে দিন। সাধারণভাবে এটি রাষ্ট্রের প্রতিনিধিত্বকে প্রসারিত করার চেয়ে অনেক শক্ত পদ্ধতির এবং আমি এখানে এটির সুপারিশ করব না। তবে, আপনি যদি ধারণাটি আকর্ষণীয় মনে করেন, আপনি POMDPs অন্বেষণ করতে আপনার সমস্যাটি ব্যবহার করতে পারেন। এখানে একটি সাম্প্রতিক কাগজ রয়েছে (গুগলের ডিপ মাইন্ড টিম, 2015) যা পিওএমডিপিগুলি সমাধান করার জন্য আরএনএন-এর সাথে মিলিত দুটি আরএল অ্যালগরিদম দেখায় looks

প্রশ্ন 3: আমি স্থির-অবিশ্বাস্য পরিবেশ নিয়ে কাজ করার সমাধান হিসাবে অভিজ্ঞতা রিপ্লে নিয়ে কি-লার্নিংয়ের দিকে নজর রেখেছি, কারণ এটি ক্রমাগত আপডেটগুলি সজ্জিত করে। এটি কি এই পদ্ধতির সঠিক ব্যবহার বা আরও বেশি তথ্য শেখার দক্ষতার সাথে মোকাবেলা করা আরও বেশি?

অভিজ্ঞতার পুনরায় খেলতে অ-নিশ্চল পরিবেশগুলির সাথে সহায়তা করবে না। আসলে এটি তাদের মধ্যে পারফরম্যান্সকে আরও খারাপ করতে পারে। যাইহোক, ইতিমধ্যে যেমনটি বলা হয়েছে, আপনার সমস্যাটি সত্যই স্থিতিশীল নয় এমন পরিবেশ সম্পর্কে নয়, বরং আরও জটিল রাষ্ট্রীয় গতিশীলতা পরিচালনা করার ক্ষেত্রে।

আপনি কি হতে পারে যা করতে হবে ফাংশন পড়তা দেখব, যদি একটি বৃহৎ যথেষ্ট নম্বরে রাজ্যের বৃদ্ধির সংখ্যা। উদাহরণস্বরূপ, আপনি যদি কোনও ব্যাক-ট্র্যাকিং পরিচালনা করতে চান এবং প্রতিটি পরিদর্শনকৃত অবস্থানের উপর নজর রাখে এমন একটি জটিল পুরষ্কার-সংশোধন করার নিয়ম রয়েছে, তবে আপনার রাজ্য কোনও একক অবস্থানের নম্বর থেকে কোনও মানচিত্রে পরিদর্শন করা অবস্থানগুলি পরিবর্তন করতে পারে। উদাহরণস্বরূপ এটি থেকে যেতে পারে64 জন্য একটি রাষ্ট্র 8×8 গ্রিড ওয়ার্ল্ড টু এ 264রাষ্ট্র মানচিত্র পরিদর্শন স্কোয়ার দেখাচ্ছে। এটি মান সারণীতে ট্র্যাক করার পক্ষে অনেক বেশি, সুতরাং আপনি সাধারণত এর পরিবর্তে রাষ্ট্রীয় মানগুলি অনুমান করার জন্য একটি নিউরাল নেটওয়ার্ক (বা একটি কনভোলশনাল নিউরাল নেটওয়ার্ক) ব্যবহার করবেন।

একটি ফাংশন অনুমানকারী সহ, অভিজ্ঞতা পুনরায় খেলা খুব দরকারী, যেমন এটি ছাড়া, শেখার প্রক্রিয়াটি অস্থির হওয়ার সম্ভাবনা রয়েছে। আতারি গেমস খেলার জন্য সাম্প্রতিক ডিকিউএন পদ্ধতির কারণে অভিজ্ঞতার রিপ্লে ব্যবহার করা হয়েছে।


যদি পরিবেশটি অ-স্থির হয় তবে আপনি গ্রিড ওয়ার্ল্ড উদাহরণস্বরূপ, এই সময়ে টি = 1 এ রাজ্যে থাকা টি = 2 তে একই অবস্থায় থাকার বিষয়টি কীভাবে সামাল দেবেন? যদি আপনি তাদের পৃথক রাজ্য হিসাবে গণ্য করেন তবে অবশ্যই আপনার রাষ্ট্রের স্থানের মাত্রাটি কি বিস্ফোরিত হবে?
tryingtolearn

@ ট্রাইটিংটোলেয়ার্ন: একটি মার্কভ রাষ্ট্রের পুরো বিষয়টি হ'ল এটি এমডিপি কীভাবে সেই দিক থেকে অগ্রগতি করবে তার সমস্ত গুরুত্বপূর্ণ বিবরণ ক্যাপচার করে। সাধারণত t = 1 এ রাজ্যে থাকা প্রত্যাশিত ভবিষ্যতের পুরষ্কার এবং রাষ্ট্রীয় রূপান্তরের ক্ষেত্রে একই অবস্থায় t = 2 এ থাকা থেকে আলাদা নয় । আপনি যদি টিয়ের মানের উপর ভিত্তি করে এমন নিয়মগুলি সরিয়ে রাখেন, তবে আপনি রাজ্যে টি রাখবেন। আপনি যে কোনও সময় পদক্ষেপে পুরষ্কার পেতে পারলে এটি ঘটতে পারে তবে সময়ের ধাপ সংখ্যা সীমিত - পর্বটি সর্বদা t = 10 এ শেষ হয়। সেক্ষেত্রে আপনার অবশিষ্ট সময়টি জেনে রাখা গুরুত্বপূর্ণ হতে পারে
নীল স্লেটার

@ নীলস্ল্যাটার আপনি নিজের উত্তরে পিওএমডিপি এবং আরএনএন ধারণাগুলি প্রসারিত করতে পারবেন? তারা আকর্ষণীয় শোনাচ্ছে। এবং যদি সম্ভব হয় তবে প্রাসঙ্গিক উত্স দিন কারণ সাহিত্যের নেভিগেট করা কখনও কখনও শক্ত হয়। আমি পরিদর্শন করা রাজ্যের ক্রম বজায় রাখার ধারণাটি সত্যই পছন্দ করি না, যদিও এটিই আমি কেবল এতদূর ধরে ভাবতে পারি, তাই আমি অন্যান্য বিকল্পগুলির সন্ধান করছি। মডেলটি সেভাবে overcomplicated হয়ে যায়, আমাকে একটি খুব সাধারণ নিয়ম প্রবর্তন করা দরকার given আমি নিশ্চিত না যে আমি খুব স্পষ্ট কিছু অনুপস্থিত বা আমি সঠিক মডেল এবং সূত্রটি ব্যবহার করছি না।
ভোল্ট্রোনিকা

@ নীলস্লাটার নীতি-গ্রেডিয়েন্ট পদ্ধতিগুলির মতো জিনিসগুলি ব্যবহার করে এটি কী সহায়তা করা যায় না? অনুশীলনে, আপনি কি জানেন যে এই ধরণের সমস্যাগুলি সমাধানের মান কী?
trytolearn

1
@ ভোল্ট্রনিকা আমি উত্তরটি প্রসারিত করে পিওএমডিপিগুলি সম্পর্কে একটি অনুচ্ছেদ যুক্ত করেছি। নোট করুন যে আপনার সমস্যাটিকে পিওএমডিপি হিসাবে কাঠামো গঠনের ফলে পরিদর্শন করা জায়গাগুলির উপযুক্ত স্মৃতি অন্তর্ভুক্ত করার জন্য রাজ্যকে প্রসারিত করার চেয়ে কাজ করা এবং সমাধান করা অনেক বেশি শক্ত হয়ে যায়। সুতরাং আমি আপনাকে কেবল এটি পর্যালোচনা করার পরামর্শ দিচ্ছি যদি POMDPs অধ্যয়ন করা একটি লক্ষ্য।
নিল স্লেটার

0

প্রশ্নোত্তর: কিউ লার্নিং একটি অনলাইন রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম যা স্থির পরিবেশের সাথে ভালভাবে কাজ করে। এটি মডেল (পুরষ্কার ফাংশন এবং ট্রানজিশন সম্ভাবনা) দ্রুত পরিবর্তন হয় না এই শর্ত সহ একটি অ-স্টেশনারী মডেলের সাথেও এটি ব্যবহার করা যেতে পারে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.