অফ-পলিসি এবং অন-পলিসি শেখার মধ্যে পার্থক্য কী?

78

কৃত্রিম বুদ্ধিমত্তা ওয়েবসাইট নীতির হিসাবে অফ-পলিসি এবং অন-পলিসি শিক্ষার সংজ্ঞা দেয়:

"একজন অফ-পলিসি লার্নার এজেন্টের ক্রিয়াকলাপের থেকে স্বতন্ত্র নীতিমালার মান শিখতে পারে Q । "

আমি এই বিষয়ে আপনার স্পষ্টতা জিজ্ঞাসা করতে চাই, কারণ তারা আমার সাথে কোনও পার্থক্য করে বলে মনে হয় না। উভয় সংজ্ঞা দেখতে অভিন্ন বলে মনে হচ্ছে। আমি যা বুঝতে পেরেছি তা হ'ল মডেল-মুক্ত এবং মডেল-ভিত্তিক পড়াশুনা, এবং আমি জানি না যে তাদের প্রশ্নের সাথে কিছু করার আছে কিনা।

এটি কীভাবে সম্ভব যে এজেন্টের ক্রিয়াকলাপ থেকে সর্বোত্তম নীতি স্বাধীনভাবে শেখা যায়? যখন এজেন্ট ক্রিয়া সম্পাদন করে তখন নীতিটি কী শিখেনি?

machine-learning reinforcement-learning artificial-intelligence

— CGO
সূত্র

1

টিএল; এনআর অংশটিও বোঝার ক্ষেত্রে সহায়ক হতে পারে , আমি স্ট্যাকওভারফ্লো.com / প্রশ্নস / 4৮৪৮৮৮৮/২ এ একটি মন্তব্য যুক্ত করেছি ।

— zyxue

এখানে একটি ভাল ব্যাখ্যা nb4799.neu.edu/wordpress/?p=1850

— ইভান কুশ

আমি এও যোগ করতে চাই যে সারসার অফ-পলিসি বৈকল্পিক রয়েছে। এই কাগজটি ( cs.ox.ac.uk/people/shimon.whiteson/pubs/vanseijenadprl09.pdf ) প্রবর্তনে নীতিটি চালু বা বন্ধ করবে এবং তারপরে প্রত্যাশিত সরসার ব্যাখ্যা করবে। এছাড়াও আরও সাধারণ তত্ত্ব যা দুটি ধরণের জঞ্জাল করে তা খুঁজে পেতে প্রত্যাশিত নীতি গ্রেডিয়েন্টস (ইপিজি) খুঁজছেন।

— জোশ আলবার্ট

93

প্রথমত, কোনও এজেন্টের লোভী কাজটি করার কোনও কারণ নেই ; এজেন্টরা অন্বেষণ করতে পারে বা তারা বিকল্পগুলি অনুসরণ করতে পারে । অফ-পলিসি শেখার থেকে অন-পলিসি পৃথক করে এমন নয়।

কারণ প্রশ্ন-লার্নিং অফ-নীতি এটি পরবর্তী রাষ্ট্রের কিউ-মান ব্যবহার তার কিউ-মান আপডেট হয় $s'$ এবং লোভী কর্ম $a'$ । অন্য কথায়, এটি কোনও লোভী নীতি অনুসরণ না করে সত্ত্বেও লোভনীতি নীতি গ্রহণ করে রাষ্ট্র-অ্যাকশন জোড়গুলির জন্য রিটার্নের (মোট ছাড়ের ভবিষ্যতের পুরষ্কার) অনুমান করে?

$s'$ $a''$

বর্তমান নীতি একটি লোভী নীতি হলে পার্থক্যটি অদৃশ্য হয়ে যায়। যাইহোক, এই জাতীয় এজেন্ট ভাল হবে না কারণ এটি কখনই অন্বেষণ করে না।

আপনি কি অনলাইনে বিনামূল্যে উপলভ্য বইটি দেখেছেন? রিচার্ড এস সাটন এবং অ্যান্ড্রু জি বার্তো। শক্তিবৃদ্ধি শেখা: একটি ভূমিকা। দ্বিতীয় সংস্করণ, এমআইটি প্রেস, কেমব্রিজ, এমএ, 2018।

— নীল জি
সূত্র

8

সুন্দর ব্যাখ্যা! কিউ-লার্নিংয়ের উপর আপনার উদাহরণটি আরও ভালভাবে সূচিত হয়েছে যে সটনের বইয়ে বলা হয়েছে: " শিখানো অ্যাকশন-ভ্যালু ফাংশন, Q, সরাসরি নীতি অনুসরণ না করে, সর্বোত্তম ক্রিয়া-মান ফাংশনটি প্রায় Q * এর কাছাকাছি আসে This এটি নাটকীয়ভাবে সরল করে তোলে অ্যালগরিদম বিশ্লেষণ এবং প্রথমদিকে অভিযোজিত প্রমাণগুলি সক্ষম করেছে The নীতিটির এখনও একটি প্রভাব রয়েছে যা এটি নির্ধারণ করে যে কোন রাজ্য-অ্যাকশন জুটি পরিদর্শন করা হয়েছে এবং আপডেট করা হয়েছে ""

— সিপ্রিয়ান টোমাইয়াজি

3

সাধারণভাবে আমি সটন এবং বার্তো মোটেও খুব পঠনযোগ্য দেখতে পাই না। আমি তাদের দেওয়া ব্যাখ্যাগুলি খুব বোধগম্য নয়। আমি নিশ্চিত নই কেন তাদের বইটি পুরো জায়গা জুড়ে সুপারিশ করা হয়েছে

— এসএন

@ এসএনএন পুনর্বহালকরণ শিক্ষার অনেক শিক্ষার্থীর জন্য, সটন এবং বার্তো তাদের প্রথম পড়া বই।

— নীল জি

3

@ জাকুব আর্নল্ড আসল সাটন অ্যান্ড বার্তো বইটি 1998 সালের, এটিতে গভীর পুনর্বহালকরণের শিক্ষার অন্তর্ভুক্ত নেই। ২ য় সংস্করণে কেবল আলফাগো-র মতো জিনিসই উল্লেখ করা হয়েছে তবে বইটির কেন্দ্রবিন্দুটি আরও ধ্রুপদী পদ্ধতির দিকে। আপনি যদি আরও আরএল সংস্থানগুলি চান তবে এই তালিকাটি একবার দেখুন । আমি ডেভিড সিলভারের ভিডিওগুলি এবং পিউটারম্যানের বইটির পরামর্শ দিচ্ছি কারণ সেগুলি আরও কাছে যেতে পারে। আরও তাত্ত্বিক উপাদানগুলির জন্য, আমি বার্টসেকাসের বইয়ের প্রস্তাব দিই। ডিআরএল অ্যালগরিদমগুলির জন্য স্পিনিং আপ ওয়েবসাইটটি দেখুন এবং মূল কাগজপত্রগুলির লিঙ্কগুলি।

— ডগলাস ডি রিজো মেনিঘেটি

1

@ অ্যালবার্টচেন "সুতরাং এক্ষেত্রে এটি অনুসন্ধানের উপর নির্ভর করে বা না": না, কারণ উভয়ই অ্যালগরিদম অন্বেষণ করে। পার্থক্যটি কীভাবে আপডেট হয়।

— নিল জি

12

অন-পলিসি পদ্ধতিগুলি কোনও নীতিটিকে নিয়ন্ত্রণের জন্য ব্যবহার করার সময় তার মূল্য নির্ধারণ করে।

ইন বন্ধ-নীতি পদ্ধতি, আচার-আচরণ থেকে তৈরী করা নীতি, নামক আচরণ , নীতি, নীতি মূল্যায়ন এবং উন্নত হয় সম্পর্কহীন হতে পারে নামক প্রাক্কলন নীতি।

এই বিচ্ছিন্নতার একটি সুবিধা হ'ল অনুমানের নীতিটি নির্বিচারক (যেমন লোভী) হতে পারে, যখন আচরণ নীতি সমস্ত সম্ভাব্য ক্রিয়াকলাপের নমুনা অবিরত রাখতে পারে।

আরও তথ্যের জন্য, রিইনফোর্সমেন্ট লার্নিং: বার্টো অ্যান্ড সাটন দ্বারা পরিচিতির প্রথম সংস্করণ বইয়ের 5.4 এবং 5.6 অংশ দেখুন ।

— nbro
সূত্র

7

অফ-পলিসি এবং অন-পলিসি পদ্ধতির মধ্যে পার্থক্য হ'ল প্রথমটি আপনাকে কোনও নির্দিষ্ট নীতি অনুসরণ করতে হবে না, আপনার এজেন্ট এমনকি এলোমেলোভাবে আচরণ করতে পারে এবং এটি সত্ত্বেও অফ-পলিসি পদ্ধতিগুলি এখনও সর্বোত্তম নীতি খুঁজে পেতে পারে। অন্যদিকে নীতি-সংক্রান্ত পদ্ধতিগুলি ব্যবহৃত নীতিমালার উপর নির্ভরশীল। অফ-পলিসি, কিউ-লার্নিংয়ের ক্ষেত্রে এটি অনুসন্ধানের সময় ব্যবহৃত নীতিমালা থেকে স্বতন্ত্র নীতিমালাটি খুঁজে পেতে পারে, তবে আপনি যখন বিভিন্ন সময় পর্যাপ্ত সময় ভ্রমণ করেন তখনই এটি সত্য। আপনি ওয়াটকিন্সের আসল প্রমাণটি খুঁজে পেতে পারেন যেটি কি-লার্নিংয়ের খুব সুন্দর সম্পত্তিটি দেখায়। তবে একটি বাণিজ্য-অফ রয়েছে এবং এটি অফ-পলিসি পদ্ধতিগুলি অন-পলিসি পদ্ধতির চেয়ে ধীর হতে থাকে। অন্যান্য আকর্ষণীয় সারাংশের সাথে এখানে একটি লিঙ্ক উভয় ধরণের পদ্ধতির বৈশিষ্ট্য

— জুলাই
সূত্র

1

অফ-পলিসি পদ্ধতিগুলি কেবল ধীর নয়, তবে বুটস্ট্র্যাপিংয়ের সাথে মিলিত হয়ে অস্থির হতে পারে (যেমন কী-লার্নিং কীভাবে একে অপরের কাছ থেকে অনুমান তৈরি করে) এবং ফাংশন আনুমানিক (যেমন নিউরাল নেটওয়ার্ক)।

— নিল স্লেটার

7

$\pi$
$a$ $s$ $\pi$ $a$ $s$

$Q(s,a)$ $a$ $s$
$\pi$ $\pi(a|s)$

$Q(s,a)$

$Q(s,a)$ $\pi$
$Q(s,a)$

$Q(s,a) \leftarrow Q(s,a)+\alpha(r+\gamma Q(s',a')-Q(s,a))$ $a'$ $\pi$

$Q(s,a) \leftarrow Q(s,a)+\alpha(r+\gamma \max_{a'}Q(s',a')-Q(s,a))$ $a'$ $s'$

— দিমিত্রি মোটল
সূত্র

1

সুতান বইটি থেকে: "পূর্ববর্তী বিভাগে অন-পলিসি পদ্ধতিটি আসলে একটি আপস — এটি সর্বোত্তম নীতিমালা নয়, বরং এখনও সন্ধান করা একটি নিকট-অনুকূল নীতিমালার জন্য কর্মের মূল্যবোধগুলি শিখেছে more আরও সরল পদ্ধতিতে দুটি নীতি ব্যবহার করা হয় , যেটি সম্পর্কে শিখেছে এবং এটি সর্বোত্তম নীতিতে পরিণত হয় এবং সেগুলি আরও অনুসন্ধানী হয় এবং আচরণ তৈরি করতে ব্যবহৃত হয় about নীতিটি লক্ষ্য করা হয় তাকে লক্ষ্য নীতি বলা হয়, এবং আচরণ তৈরি করতে ব্যবহৃত নীতিটিকে আচরণ নীতি বলা হয়। এই ক্ষেত্রে আমরা বলি যে লার্নিংটি লক্ষ্য নীতি থেকে ডেটা “ও↵” থেকে আসে এবং সামগ্রিক প্রক্রিয়াটিকে ও-পলিসি লার্নিং বলা হয়।

— অলিভার গোল্ডস্টেইন
সূত্র

আপনি যদি এই বিবরণটি অনুসরণ করেন তবে কি-লার্নিং অফ-পলিসি কেন তা বলা সহজ নয়

— অ্যালবার্ট চেন