আমি শ্রেণিবদ্ধ শক্তিবৃদ্ধি শেখার সমস্যাগুলি অধ্যয়ন করছি এবং প্রচুর কাগজপত্র নীতি শিখার জন্য অ্যালগরিদমের প্রস্তাব দেয়, তারা সকলেই ধরে নিয়েছে যে তারা ডোমেনে ক্রিয়াগুলির ক্রমবিন্যাস বর্ণনা করার জন্য একটি গ্রাফ কাঠামো আগে থেকেই জানে। উদাহরণস্বরূপ, ডায়েটারিচ দ্বারা হাইয়ারাকিয়াল রিইনফোর্সমেন্ট লার্নিংয়ের MAXQ পদ্ধতিতে একটি সাধারণ ট্যাক্সি ডোমেনের জন্য ক্রিয়া এবং উপ-কার্যগুলির একটি গ্রাফ বর্ণনা করা হয়েছে, তবে এই গ্রাফটি কীভাবে আবিষ্কার হয়েছিল তা নয় not আপনি কীভাবে এই গ্রাফের শ্রেণিবিন্যাস শিখবেন, এবং কেবল নীতিই নয়?
অন্য কথায়, কাগজের উদাহরণটি ব্যবহার করে, যদি কোনও ট্যাক্সি অবিশ্বাস্যভাবে গাড়ি চালাচ্ছিল, বিশ্বের সামান্য পূর্ব জ্ঞান সহ এবং কেবলমাত্র আদিম মুভি-বাম / সরানো-ডান / ইত্যাদি পদক্ষেপ গ্রহণ করতে পারে, তবে এটি কীভাবে উচ্চ স্তরের ক্রিয়াগুলি শিখতে পারে গো-বাছাই আপ-যাত্রী? যদি আমি কাগজটি সঠিকভাবে বুঝতে পারি (এবং আমি নাও হতে পারি), তবে এই উচ্চ-স্তরের ক্রিয়াকলাপগুলির জন্য কীভাবে নীতিটি আপডেট করা যায় তা প্রস্তাব করে, তবে কীভাবে সেগুলি শুরু করার জন্য গঠিত হয় তা নয়।