একটি হায়ারারিকালিকাল রিইনফোর্সমেন্ট টাস্কের কাঠামো শিখছি

আমি শ্রেণিবদ্ধ শক্তিবৃদ্ধি শেখার সমস্যাগুলি অধ্যয়ন করছি এবং প্রচুর কাগজপত্র নীতি শিখার জন্য অ্যালগরিদমের প্রস্তাব দেয়, তারা সকলেই ধরে নিয়েছে যে তারা ডোমেনে ক্রিয়াগুলির ক্রমবিন্যাস বর্ণনা করার জন্য একটি গ্রাফ কাঠামো আগে থেকেই জানে। উদাহরণস্বরূপ, ডায়েটারিচ দ্বারা হাইয়ারাকিয়াল রিইনফোর্সমেন্ট লার্নিংয়ের MAXQ পদ্ধতিতে একটি সাধারণ ট্যাক্সি ডোমেনের জন্য ক্রিয়া এবং উপ-কার্যগুলির একটি গ্রাফ বর্ণনা করা হয়েছে, তবে এই গ্রাফটি কীভাবে আবিষ্কার হয়েছিল তা নয় not আপনি কীভাবে এই গ্রাফের শ্রেণিবিন্যাস শিখবেন, এবং কেবল নীতিই নয়?

অন্য কথায়, কাগজের উদাহরণটি ব্যবহার করে, যদি কোনও ট্যাক্সি অবিশ্বাস্যভাবে গাড়ি চালাচ্ছিল, বিশ্বের সামান্য পূর্ব জ্ঞান সহ এবং কেবলমাত্র আদিম মুভি-বাম / সরানো-ডান / ইত্যাদি পদক্ষেপ গ্রহণ করতে পারে, তবে এটি কীভাবে উচ্চ স্তরের ক্রিয়াগুলি শিখতে পারে গো-বাছাই আপ-যাত্রী? যদি আমি কাগজটি সঠিকভাবে বুঝতে পারি (এবং আমি নাও হতে পারি), তবে এই উচ্চ-স্তরের ক্রিয়াকলাপগুলির জন্য কীভাবে নীতিটি আপডেট করা যায় তা প্রস্তাব করে, তবে কীভাবে সেগুলি শুরু করার জন্য গঠিত হয় তা নয়।

machine-learning

— Cerin
সূত্র

এই কাগজ অনুযায়ী

বর্তমানের অত্যাধুনিক শিল্পে, কোনও আরএল সিস্টেমের ডিজাইনার সাধারণত এজেন্টের জন্য উপলব্ধ আদিম ক্রিয়াকলাপগুলির সেটগুলিতে বিকল্পগুলির একটি নির্দিষ্ট সেট যুক্ত করতে কার্য সম্পর্কে পূর্ববর্তী জ্ঞান ব্যবহার করে।

একই কাগজে 6.2 সেকশন টাস্ক হায়ারারচিগুলি শিখুন।

আমার মনে প্রথম যে ধারণাটি আসে তা হ'ল আপনি যদি টাস্ক হায়ারার্কিগুলি না জানেন তবে আপনার নন-হায়ারাকিয়াল রিইনফোর্সমেন্ট শিখতে হবে এবং কাঠামোটি পরে বা শেখার সময় আবিষ্কার করার চেষ্টা করা উচিত, অর্থাৎ আপনি আপনার মডেলটিকে সাধারণীকরণের চেষ্টা করছেন। আমার কাছে এই টাস্কটি এইচএমএম-এর জন্য বয়েসিয়ান মডেল মার্জ করার কৌশলটির মতো দেখায় (উদাহরণস্বরূপ এই থিসিসটি দেখুন )

— আলেক্সি কাল্মিভ
সূত্র