শক্তিবৃদ্ধি শেখার ক্ষেত্রে কীভাবে রাজ্যকে সংজ্ঞায়িত করা যায়?

আমি রিইনফোর্সমেন্ট লার্নিং এবং এর রূপগুলি অধ্যয়ন করছি। আলগোরিদিমগুলি কীভাবে কাজ করে এবং কীভাবে তারা এমডিপিতে প্রয়োগ করে সে সম্পর্কে আমি একটি ধারণা পেতে শুরু করি। আমি যা বুঝতে পারি না তা হ'ল এমডিপির রাজ্যগুলির সংজ্ঞা দেওয়ার প্রক্রিয়া। বেশিরভাগ উদাহরণ এবং টিউটোরিয়ালে, তারা গ্রিডে বা এর অনুরূপ স্কোয়ারের মতো সাধারণ কিছু উপস্থাপন করে।

আরও জটিল সমস্যার জন্য, যেমন কোনও রোবট হাঁটা শেখা ইত্যাদির জন্য আপনি কীভাবে এই রাজ্যগুলি সংজ্ঞায়িত করবেন? আপনি এই রাজ্যগুলিকে "শিখতে" শেখার বা শ্রেণিবদ্ধকরণ অ্যালগরিদমগুলি ব্যবহার করতে পারেন?

reinforcement-learning

— অ্যান্ডি
সূত্র

রিইনফোর্সমেন্ট লার্নিংয়ে (আরএল) রাষ্ট্রীয় প্রতিনিধিত্বের সমস্যাটি তত্ত্বাবধানে বা অপরিবর্তিত শিক্ষায় বৈশিষ্ট্য উপস্থাপন, বৈশিষ্ট্য নির্বাচন এবং ফিচার ইঞ্জিনিয়ারিংয়ের সমস্যার মতো।

সাহিত্যে যে আরএল এর প্রাথমিক বিষয়গুলি শেখায় খুব সাধারণ পরিবেশ ব্যবহার করে যাতে সমস্ত রাজ্যকে গণনা করা যায়। এটি কোনও সারণীতে মৌলিক ঘূর্ণায়মান গড়ের মূল্য অনুমানকে সহজতর করে, যা বোঝা এবং বাস্তবায়ন করা সহজ। টাবুলার লার্নিং অ্যালগরিদমগুলির কনভার্সনের যুক্তিসঙ্গত তাত্ত্বিক গ্যারান্টি রয়েছে, যার অর্থ যদি আপনি নিজের সমস্যাটিকে সহজ করতে পারেন যাতে এটি কয়েক মিলিয়ন রাজ্যের চেয়ে কম হয় তবে এটি চেষ্টা করার মতো।

সর্বাধিক আকর্ষণীয় নিয়ন্ত্রণ সমস্যাগুলি এগুলি সংখ্যক রাজ্যের সাথে খাপ খায় না, এমনকি যদি আপনি এগুলি অস্বীকার করেন। এটি " মাত্রিকতার অভিশাপ " এর কারণে । এই সমস্যাগুলির জন্য, আপনি সাধারণত আপনার রাজ্যকে বিভিন্ন বৈশিষ্ট্যের ভেক্টর হিসাবে প্রতিনিধিত্ব করবেন - যেমন একটি রোবট, বিভিন্ন অবস্থান, কোণ এবং যান্ত্রিক অংশগুলির বেগ। তত্ত্বাবধানে পড়াশুনার মতো আপনিও এগুলি নির্দিষ্ট শিক্ষার প্রক্রিয়া ব্যবহারের জন্য চিকিত্সা করতে চাইতে পারেন। উদাহরণস্বরূপ, সাধারণত আপনি সমস্তটি সংখ্যাসূচক হতে চাইবেন এবং আপনি যদি একটি নিউরাল নেটওয়ার্ক ব্যবহার করতে চান তবে আপনাকে সেগুলি একটি স্ট্যান্ডার্ড রেঞ্জেও স্বাভাবিক করা উচিত (যেমন -1 থেকে 1)।

উপরোক্ত উদ্বেগগুলি ছাড়াও যা অন্যান্য মেশিন লার্নিংয়ের জন্য প্রযোজ্য, আরএল-র জন্য, আপনাকে মার্কভ সম্পত্তি সম্পর্কিতও উদ্বিগ্ন হতে হবে - যে রাজ্য পর্যাপ্ত তথ্য সরবরাহ করে, যাতে আপনি প্রত্যাশিত পরবর্তী পুরষ্কারগুলি এবং পরবর্তী পদক্ষেপগুলি কোনও পদক্ষেপের পরে যথাযথভাবে পূর্বাভাস দিতে পারেন, কোনও অতিরিক্ত তথ্যের প্রয়োজন ছাড়াই। এটিকে নিখুঁত হওয়ার দরকার নেই, যেমন: চাকাযুক্ত রোবটের জন্য বায়ু ঘনত্বের বা তাপমাত্রার পরিবর্তনের কারণে ছোট পার্থক্যগুলি সাধারণত তার নেভিগেশনে বড় প্রভাব ফেলবে না এবং এড়ানো যায়। মূলত এলোমেলোভাবে যে কোনও উপাদান RL তত্ত্বের সাথে লেগে থাকলেও এড়ানো যায় - এটি এজেন্টকে সামগ্রিকভাবে কম অনুকূল করে তুলতে পারে, তবে তত্ত্বটি এখনও কাজ করবে।

যদি ফলাফলটি প্রভাবিত করে এমন ধারাবাহিক অজানা কারণ রয়েছে, এবং যুক্তিযুক্তভাবে হ্রাস করা যেতে পারে - হতে পারে রাষ্ট্রের বা কর্মের ইতিহাস থেকে - তবে আপনি তাদেরকে রাষ্ট্রের প্রতিনিধিত্ব থেকে বাদ দিয়েছেন, তবে আপনার আরও গুরুতর সমস্যা হতে পারে এবং এজেন্ট শিখতে ব্যর্থ হতে পারে ।

এখানে পর্যবেক্ষণ এবং রাষ্ট্রের মধ্যে পার্থক্যটি লক্ষ্য করার মতো । একটি পর্যবেক্ষণ হ'ল এমন কিছু ডেটা যা আপনি সংগ্রহ করতে পারেন। যেমন আপনার রোবোটে সেন্সর থাকতে পারে যা এর জয়েন্টগুলির অবস্থানগুলি ফিরিয়ে দেয়। যেহেতু রাষ্ট্রটির মার্কভ সম্পত্তি থাকা উচিত, একটি একক কাঁচা পর্যবেক্ষণ একটি উপযুক্ত রাষ্ট্র তৈরি করার জন্য পর্যাপ্ত ডেটা নাও হতে পারে। যদি এটি হয় তবে উপলভ্য ডেটা থেকে আরও ভাল রাজ্য গঠনের জন্য আপনি নিজের ডোমেন জ্ঞান প্রয়োগ করতে পারেন, বা আপনি আংশিকভাবে পর্যবেক্ষণযোগ্য MDPs (POMDPs) এর জন্য নকশাকৃত কৌশলগুলি ব্যবহার করার চেষ্টা করতে পারেন - এগুলি কার্যকরভাবে রাষ্ট্রের ডেটাগুলির অনুপস্থিত অংশগুলি তৈরি করার চেষ্টা করে পরিসংখ্যানগত। আপনি এর জন্য একটি আরএনএন বা লুকানো মার্কভ মডেল ("বিশ্বাসের রাজ্য" নামেও পরিচিত) ব্যবহার করতে পারেন এবং কোনও উপায়ে এটি একটি "আপনার অনুরোধ অনুসারে " সেই রাজ্যগুলিকে " "শিখতে" শেখার বা শ্রেণিবিন্যাসের অ্যালগরিদমগুলি ।

শেষ অবধি, আপনি যে ধরণের অনুমানের মডেলটি ব্যবহার করতে চান তা বিবেচনা করা উচিত। তত্ত্বাবধানে পড়াশোনা হিসাবে এখানে অনুরূপ পদ্ধতির প্রয়োগ রয়েছে:

ডোমেন জ্ঞানের ভিত্তিতে ইঞ্জিনিয়ারড বৈশিষ্ট্যগুলির সাথে একটি সাধারণ লিনিয়ার রিগ্রেশন খুব ভাল করতে পারে। আপনার বিভিন্ন রাষ্ট্রের উপস্থাপনা চেষ্টা করার জন্য কঠোর পরিশ্রম করার প্রয়োজন হতে পারে যাতে লিনিয়ার আনুমানিক কাজ করে। সুবিধাটি হ'ল এই সরল পদ্ধতির স্থায়িত্ব ইস্যুগুলির তুলনায় অ-লিনিয়ার আনুমানিকের চেয়ে বেশি শক্তিশালী
আরও জটিল নন-লিনিয়ার ফাংশন আনুমানিক, যেমন একটি মাল্টি-লেয়ার নিউরাল নেটওয়ার্ক। আপনি আরও "কাঁচা" রাষ্ট্র ভেক্টরকে খাওয়াতে পারেন এবং আশা করছেন যে লুকানো স্তরগুলি এমন কোনও কাঠামো বা উপস্থাপনা খুঁজে পাবে যা ভাল অনুমানের দিকে নিয়ে যায়। কিছু উপায়ে, এটিও "সেই রাজ্যগুলিকে " শেখার জন্য " শেখার বা শ্রেণিবদ্ধকরণের অ্যালগরিদমগুলি হয় তবে আরএনএন বা এইচএমএমের থেকে আলাদাভাবে। আপনার রাজ্যটি যদি কোনও স্ক্রিন চিত্র হিসাবে প্রাকৃতিকভাবে প্রকাশ করা হত তবে এটি একটি বুদ্ধিমান পন্থা হতে পারে - নিজের হাতে চিত্রের ডেটার জন্য বৈশিষ্ট্য প্রকৌশলটির সন্ধান করা খুব শক্ত hard

DeepMind দ্বারা Atari -এ DQN কাজ দল বৈশিষ্ট্য ইঞ্জিনিয়ারিং সংমিশ্রণ ব্যবহার করা হয় এবং তার ফলাফল অর্জন গভীর স্নায়ুর নেটওয়ার্ক উপর নির্ভর। বৈশিষ্ট্য ইঞ্জিনিয়ারিংয়ের মধ্যে চিত্রটি নিচে স্যাম্পলিং করা, এটিকে ধূসর-স্কেলে হ্রাস করা এবং - গুরুত্বপূর্ণভাবে মার্কভ সম্পত্তির জন্য - একক রাষ্ট্রের প্রতিনিধিত্ব করার জন্য পরপর চারটি ফ্রেম ব্যবহার করা হয়েছে, যাতে বস্তুর বেগ সম্পর্কে তথ্য রাষ্ট্রের উপস্থাপনায় উপস্থিত ছিল। ডিএনএন তারপরে চিত্রগুলিকে উচ্চ স্তরের বৈশিষ্ট্যগুলিতে প্রক্রিয়াজাত করে যা রাষ্ট্রীয় মূল্যবোধ সম্পর্কে ভবিষ্যদ্বাণী করতে ব্যবহৃত হতে পারে।

— নীল স্লেটার
সূত্র

জটিল সমস্যাগুলির মডেলিংয়ের একটি সাধারণ প্রাথমিক দৃষ্টিভঙ্গি ছিল বিচক্ষণতা । প্রাথমিক স্তরে, এটি একটি জটিল এবং অবিচ্ছিন্ন স্থানকে গ্রিডে বিভক্ত করছে। তারপরে আপনি ক্লাসিক আরএল কৌশলগুলির যে কোনওটি পৃথক, লিনিয়ার, স্পেসগুলির জন্য ডিজাইন করা ব্যবহার করতে পারেন। তবে, আপনি যেমন কল্পনা করতে পারেন, আপনি যদি সাবধান না হন তবে এটি অনেক ঝামেলার কারণ হতে পারে!

সাটন ও বার্তোর ক্লাসিক বই রিইনফোর্সমেন্ট লার্নিংয়ের অন্যান্য উপায়গুলির জন্য কিছু পরামর্শ রয়েছে। একটি হ'ল টাইল কোডিং , নতুন, দ্বিতীয় সংস্করণের 9.5.4 বিভাগে আচ্ছাদিত । টাইল কোডিংয়ে আমরা বিভিন্ন গ্রিডের ব্যবধান সহ প্রতিটি বৃহত সংখ্যক গ্রিড উত্পন্ন করি। আমরা তখন একে অপরের উপরে গ্রিডগুলি ওভারলে করি। এটি পৃথক অঞ্চলগুলি অ-ইউনিফর্ম আকার তৈরি করে এবং বিভিন্ন সমস্যার জন্য ভালভাবে কাজ করতে পারে।

বিভাগ 9.5 এছাড়াও রেডিয়াল-ভিত্তিক ফাংশন, এবং মোটা কোডিং সহ একটি অবিচ্ছিন্ন এমডিপিতে অবিচ্ছিন্ন স্থানকে এনকোড করার বিভিন্ন উপায়গুলি কভার করে। এটা দেখ!

— জন ডুয়েস্ট
সূত্র