রিইনফোর্সমেন্ট লার্নিংয়ে (আরএল) রাষ্ট্রীয় প্রতিনিধিত্বের সমস্যাটি তত্ত্বাবধানে বা অপরিবর্তিত শিক্ষায় বৈশিষ্ট্য উপস্থাপন, বৈশিষ্ট্য নির্বাচন এবং ফিচার ইঞ্জিনিয়ারিংয়ের সমস্যার মতো।
সাহিত্যে যে আরএল এর প্রাথমিক বিষয়গুলি শেখায় খুব সাধারণ পরিবেশ ব্যবহার করে যাতে সমস্ত রাজ্যকে গণনা করা যায়। এটি কোনও সারণীতে মৌলিক ঘূর্ণায়মান গড়ের মূল্য অনুমানকে সহজতর করে, যা বোঝা এবং বাস্তবায়ন করা সহজ। টাবুলার লার্নিং অ্যালগরিদমগুলির কনভার্সনের যুক্তিসঙ্গত তাত্ত্বিক গ্যারান্টি রয়েছে, যার অর্থ যদি আপনি নিজের সমস্যাটিকে সহজ করতে পারেন যাতে এটি কয়েক মিলিয়ন রাজ্যের চেয়ে কম হয় তবে এটি চেষ্টা করার মতো।
সর্বাধিক আকর্ষণীয় নিয়ন্ত্রণ সমস্যাগুলি এগুলি সংখ্যক রাজ্যের সাথে খাপ খায় না, এমনকি যদি আপনি এগুলি অস্বীকার করেন। এটি " মাত্রিকতার অভিশাপ " এর কারণে । এই সমস্যাগুলির জন্য, আপনি সাধারণত আপনার রাজ্যকে বিভিন্ন বৈশিষ্ট্যের ভেক্টর হিসাবে প্রতিনিধিত্ব করবেন - যেমন একটি রোবট, বিভিন্ন অবস্থান, কোণ এবং যান্ত্রিক অংশগুলির বেগ। তত্ত্বাবধানে পড়াশুনার মতো আপনিও এগুলি নির্দিষ্ট শিক্ষার প্রক্রিয়া ব্যবহারের জন্য চিকিত্সা করতে চাইতে পারেন। উদাহরণস্বরূপ, সাধারণত আপনি সমস্তটি সংখ্যাসূচক হতে চাইবেন এবং আপনি যদি একটি নিউরাল নেটওয়ার্ক ব্যবহার করতে চান তবে আপনাকে সেগুলি একটি স্ট্যান্ডার্ড রেঞ্জেও স্বাভাবিক করা উচিত (যেমন -1 থেকে 1)।
উপরোক্ত উদ্বেগগুলি ছাড়াও যা অন্যান্য মেশিন লার্নিংয়ের জন্য প্রযোজ্য, আরএল-র জন্য, আপনাকে মার্কভ সম্পত্তি সম্পর্কিতও উদ্বিগ্ন হতে হবে - যে রাজ্য পর্যাপ্ত তথ্য সরবরাহ করে, যাতে আপনি প্রত্যাশিত পরবর্তী পুরষ্কারগুলি এবং পরবর্তী পদক্ষেপগুলি কোনও পদক্ষেপের পরে যথাযথভাবে পূর্বাভাস দিতে পারেন, কোনও অতিরিক্ত তথ্যের প্রয়োজন ছাড়াই। এটিকে নিখুঁত হওয়ার দরকার নেই, যেমন: চাকাযুক্ত রোবটের জন্য বায়ু ঘনত্বের বা তাপমাত্রার পরিবর্তনের কারণে ছোট পার্থক্যগুলি সাধারণত তার নেভিগেশনে বড় প্রভাব ফেলবে না এবং এড়ানো যায়। মূলত এলোমেলোভাবে যে কোনও উপাদান RL তত্ত্বের সাথে লেগে থাকলেও এড়ানো যায় - এটি এজেন্টকে সামগ্রিকভাবে কম অনুকূল করে তুলতে পারে, তবে তত্ত্বটি এখনও কাজ করবে।
যদি ফলাফলটি প্রভাবিত করে এমন ধারাবাহিক অজানা কারণ রয়েছে, এবং যুক্তিযুক্তভাবে হ্রাস করা যেতে পারে - হতে পারে রাষ্ট্রের বা কর্মের ইতিহাস থেকে - তবে আপনি তাদেরকে রাষ্ট্রের প্রতিনিধিত্ব থেকে বাদ দিয়েছেন, তবে আপনার আরও গুরুতর সমস্যা হতে পারে এবং এজেন্ট শিখতে ব্যর্থ হতে পারে ।
এখানে পর্যবেক্ষণ এবং রাষ্ট্রের মধ্যে পার্থক্যটি লক্ষ্য করার মতো । একটি পর্যবেক্ষণ হ'ল এমন কিছু ডেটা যা আপনি সংগ্রহ করতে পারেন। যেমন আপনার রোবোটে সেন্সর থাকতে পারে যা এর জয়েন্টগুলির অবস্থানগুলি ফিরিয়ে দেয়। যেহেতু রাষ্ট্রটির মার্কভ সম্পত্তি থাকা উচিত, একটি একক কাঁচা পর্যবেক্ষণ একটি উপযুক্ত রাষ্ট্র তৈরি করার জন্য পর্যাপ্ত ডেটা নাও হতে পারে। যদি এটি হয় তবে উপলভ্য ডেটা থেকে আরও ভাল রাজ্য গঠনের জন্য আপনি নিজের ডোমেন জ্ঞান প্রয়োগ করতে পারেন, বা আপনি আংশিকভাবে পর্যবেক্ষণযোগ্য MDPs (POMDPs) এর জন্য নকশাকৃত কৌশলগুলি ব্যবহার করার চেষ্টা করতে পারেন - এগুলি কার্যকরভাবে রাষ্ট্রের ডেটাগুলির অনুপস্থিত অংশগুলি তৈরি করার চেষ্টা করে পরিসংখ্যানগত। আপনি এর জন্য একটি আরএনএন বা লুকানো মার্কভ মডেল ("বিশ্বাসের রাজ্য" নামেও পরিচিত) ব্যবহার করতে পারেন এবং কোনও উপায়ে এটি একটি "আপনার অনুরোধ অনুসারে " সেই রাজ্যগুলিকে " "শিখতে" শেখার বা শ্রেণিবিন্যাসের অ্যালগরিদমগুলি ।
শেষ অবধি, আপনি যে ধরণের অনুমানের মডেলটি ব্যবহার করতে চান তা বিবেচনা করা উচিত। তত্ত্বাবধানে পড়াশোনা হিসাবে এখানে অনুরূপ পদ্ধতির প্রয়োগ রয়েছে:
ডোমেন জ্ঞানের ভিত্তিতে ইঞ্জিনিয়ারড বৈশিষ্ট্যগুলির সাথে একটি সাধারণ লিনিয়ার রিগ্রেশন খুব ভাল করতে পারে। আপনার বিভিন্ন রাষ্ট্রের উপস্থাপনা চেষ্টা করার জন্য কঠোর পরিশ্রম করার প্রয়োজন হতে পারে যাতে লিনিয়ার আনুমানিক কাজ করে। সুবিধাটি হ'ল এই সরল পদ্ধতির স্থায়িত্ব ইস্যুগুলির তুলনায় অ-লিনিয়ার আনুমানিকের চেয়ে বেশি শক্তিশালী
আরও জটিল নন-লিনিয়ার ফাংশন আনুমানিক, যেমন একটি মাল্টি-লেয়ার নিউরাল নেটওয়ার্ক। আপনি আরও "কাঁচা" রাষ্ট্র ভেক্টরকে খাওয়াতে পারেন এবং আশা করছেন যে লুকানো স্তরগুলি এমন কোনও কাঠামো বা উপস্থাপনা খুঁজে পাবে যা ভাল অনুমানের দিকে নিয়ে যায়। কিছু উপায়ে, এটিও "সেই রাজ্যগুলিকে " শেখার জন্য " শেখার বা শ্রেণিবদ্ধকরণের অ্যালগরিদমগুলি হয় তবে আরএনএন বা এইচএমএমের থেকে আলাদাভাবে। আপনার রাজ্যটি যদি কোনও স্ক্রিন চিত্র হিসাবে প্রাকৃতিকভাবে প্রকাশ করা হত তবে এটি একটি বুদ্ধিমান পন্থা হতে পারে - নিজের হাতে চিত্রের ডেটার জন্য বৈশিষ্ট্য প্রকৌশলটির সন্ধান করা খুব শক্ত hard
DeepMind দ্বারা Atari -এ DQN কাজ দল বৈশিষ্ট্য ইঞ্জিনিয়ারিং সংমিশ্রণ ব্যবহার করা হয় এবং তার ফলাফল অর্জন গভীর স্নায়ুর নেটওয়ার্ক উপর নির্ভর। বৈশিষ্ট্য ইঞ্জিনিয়ারিংয়ের মধ্যে চিত্রটি নিচে স্যাম্পলিং করা, এটিকে ধূসর-স্কেলে হ্রাস করা এবং - গুরুত্বপূর্ণভাবে মার্কভ সম্পত্তির জন্য - একক রাষ্ট্রের প্রতিনিধিত্ব করার জন্য পরপর চারটি ফ্রেম ব্যবহার করা হয়েছে, যাতে বস্তুর বেগ সম্পর্কে তথ্য রাষ্ট্রের উপস্থাপনায় উপস্থিত ছিল। ডিএনএন তারপরে চিত্রগুলিকে উচ্চ স্তরের বৈশিষ্ট্যগুলিতে প্রক্রিয়াজাত করে যা রাষ্ট্রীয় মূল্যবোধ সম্পর্কে ভবিষ্যদ্বাণী করতে ব্যবহৃত হতে পারে।