কৃত্রিম বুদ্ধিমত্তা ওয়েবসাইট নীতির হিসাবে অফ-পলিসি এবং অন-পলিসি শিক্ষার সংজ্ঞা দেয়:
"একজন অফ-পলিসি লার্নার এজেন্টের ক্রিয়াকলাপের থেকে স্বতন্ত্র নীতিমালার মান শিখতে পারে Q । "
আমি এই বিষয়ে আপনার স্পষ্টতা জিজ্ঞাসা করতে চাই, কারণ তারা আমার সাথে কোনও পার্থক্য করে বলে মনে হয় না। উভয় সংজ্ঞা দেখতে অভিন্ন বলে মনে হচ্ছে। আমি যা বুঝতে পেরেছি তা হ'ল মডেল-মুক্ত এবং মডেল-ভিত্তিক পড়াশুনা, এবং আমি জানি না যে তাদের প্রশ্নের সাথে কিছু করার আছে কিনা।
এটি কীভাবে সম্ভব যে এজেন্টের ক্রিয়াকলাপ থেকে সর্বোত্তম নীতি স্বাধীনভাবে শেখা যায়? যখন এজেন্ট ক্রিয়া সম্পাদন করে তখন নীতিটি কী শিখেনি?