মডেল-মুক্ত এবং মডেল-ভিত্তিক শক্তিবৃদ্ধি শেখার মধ্যে পার্থক্য কী?


29

মডেল-মুক্ত এবং মডেল-ভিত্তিক শক্তিবৃদ্ধি শেখার মধ্যে পার্থক্য কী?

আমার কাছে মনে হয় যে কোনও মডেল-মুক্ত শিক্ষানবিস, পরীক্ষা এবং ত্রুটির মাধ্যমে শেখা, মডেল-ভিত্তিক হিসাবে প্রত্যাখাত হতে পারে। সেক্ষেত্রে মডেল-মুক্ত শিখাগুলি কখন উপযুক্ত হবে?


এই উত্তরটি দেখুন: qr.ae/TUtHbv
nbro

আপনি কীভাবে বোঝাতে চাইছেন যে আপনি একটি মডেল-মুক্ত শিক্ষানবিসকে মডেল-ভিত্তিক হিসাবে পুনর্নির্মাণ করতে পারেন?
হ্যালো গুডবাই

এখানে এনব্রোর লিঙ্কের একটি সংক্ষিপ্ত সংস্করণ রয়েছে: মডেল-ভিত্তিক এবং মডেল-মুক্ত-পুনর্বহাল শেখার মধ্যে পার্থক্য কী? (
কওরা

উত্তর:


14

মডেল-ভিত্তিক চাঙ্গা করা শিক্ষার একটি এজেন্ট বিশ্বকে বোঝার চেষ্টা করে এবং এটি উপস্থাপনের জন্য একটি মডেল তৈরি করে। এখানে মডেলটি 2 টি ফাংশন ক্যাপচার চেষ্টা করছে, রাজ্যগুলির থেকে রূপান্তর ফাংশন এবং পুরষ্কার ফাংশন । এই মডেল থেকে, এজেন্ট একটি রেফারেন্স আছে এবং সেই অনুযায়ী পরিকল্পনা করতে পারেন।টিআর

তবে কোনও মডেল শেখার প্রয়োজন নেই এবং এজেন্ট পরিবর্তে প্রশ্ন-শিখন বা নীতি গ্রেডিয়েন্টের মতো অ্যালগরিদম ব্যবহার করে একটি নীতি শিখতে পারে।

কোনও আরএল অ্যালগরিদম মডেল-ভিত্তিক বা মডেল-মুক্ত কিনা তা দেখার জন্য একটি সাধারণ চেক:

যদি, শেখার পরে, এজেন্ট প্রতিটি পদক্ষেপ নেওয়ার আগে পরবর্তী অবস্থা এবং পুরষ্কারটি কী হবে সে সম্পর্কে পূর্বাভাস দিতে পারে, এটি একটি মডেল-ভিত্তিক আরএল অ্যালগরিদম।

যদি এটি না পারে তবে এটি একটি মডেল-মুক্ত অ্যালগরিদম।


2
আপনার কথায়, "কোনও মডেল শেখার দরকার নেই", এবং আমার প্রশ্ন: কেউ কেন কখনও মডেল ভিত্তিক দৃষ্টিভঙ্গি গ্রহণ করবেন?
ভিন

4
একটি বড় উদাহরণ আমি ভাবতে পারি তা হ'ল আপনি যখন কোনও এজেন্টকে বাস্তবে কোনও কিছুর অনুকূলতা না দিয়ে তার চারপাশ সম্পর্কে জানতে চান। এটি ক্রমাগত শেখার সমস্যার অংশ, আপনার "অভ্যন্তরীণ মডেলগুলি যখন আমার দূরত্বের সেন্সরটি একটি প্রাচীর পড়বে তখন পড়বে" এর মতো একটি অভ্যন্তরীণ মডেল তৈরি করতে হবে তবে সেই এজেন্ট যদি সেগুলি উত্থিত হয় তবে একাধিক কার্যগুলিতে সেই তথ্যটিকে সাধারণীকরণ করতে পারে।
জাদেন ট্রাভনিক

2
ধন্যবাদ @ জাদেন ট্রাভনিক। আমি বুঝতে পারি যে কোনও কাজ (যেমন রান্নাঘরে নেভিগেট করা) সমাধান না করেই পরিবেশের উপস্থাপনা ("আমি যখন দেয়ালগুলিতে আমার প্রাচীরটি পড়ি তখন আমার দেয়ালটি আঘাত হয়") শেখা কেন দরকারী হবে understand তবে কেন এটিকে মডেলমুক্ত আরএল হিসাবে বিবেচনা করা হবে , এবং ভ্যানিলা তদারকি শেখার কাজ নয়?
ভিন

2
কোনও লেবেলযুক্ত ডেটা নেই বলে এটি তদারকি করা তদারকি করা হবে না। এজেন্টের কোনও ধারণা নেই যে সংকেতগুলি কী বোঝায় তাই থার্মোমিটার থেকে কোনও দূরত্ব সেন্সরটি বলতে পারে না। এজেন্ট যা শিখছে তা হ'ল অন্যান্য সংকেতের উপর ভিত্তি করে সিগন্যালের পূর্বাভাস, যা এটি নিজের বিশ্বের একটি মডেল।
জাদেন ট্রাভনিক

2
একটি মডেল-ভিত্তিক পদ্ধতির সাথে, এজেন্টটি আপনার মূল ব্যাখ্যা অনুসারে পরবর্তী রাষ্ট্রের পূর্বাভাস দিতে শেখে। এটি <x, y>, যেখানে x হল (এস 1, ক্রিয়া) এবং y (s2, পুরষ্কার) শিখিয়ে তা করে। দুঃখিত যদি আমি ভুল ব্যাখ্যা দিচ্ছি, তবে তদারকি করা তত্ত্বাবধানে নেই?
ভিন

12

মডেল-মুক্ত এবং মডেল-ভিত্তিক শক্তিবৃদ্ধি শেখার মধ্যে পার্থক্য কী?

দৃঢ়ীকরণ শেখার, পদ "মডেল-ভিত্তিক" এবং "মডেল-মুক্ত" না না একটি স্নায়ুর নেটওয়ার্ক বা অন্য পরিসংখ্যান শেখার মডেল ব্যবহারের মান ভবিষ্যদ্বাণী করা এমনকি পরবর্তী রাষ্ট্র ভবিষ্যদ্বাণী করা (যদিও আধুনিক হিসাবে ব্যবহার করা যেতে পারে নির্দেশ করে, অথবা একটি মডেল-ভিত্তিক অ্যালগরিদমের অংশ এবং অ্যালগরিদমটি মডেল ভিত্তিক বা মডেল মুক্ত কিনা তা বিবেচনা না করেই "মডেল" বলা হবে)।

পরিবর্তে, শব্দটি শেখার সময় বা অভিনয়ের সময়, এজেন্ট পরিবেশের প্রতিক্রিয়ার পূর্বাভাসগুলি ব্যবহার করে কিনা তা কঠোরভাবে বোঝায়। এজেন্ট পরের পুরষ্কার এবং পরবর্তী রাজ্যের (একটি নমুনা) মডেল থেকে একক ভবিষ্যদ্বাণী ব্যবহার করতে পারে, বা এটি প্রত্যাশিত পরবর্তী পুরষ্কারের জন্য, বা পরবর্তী রাজ্যগুলির এবং পরবর্তী পুরষ্কারের সম্পূর্ণ বিতরণের জন্য মডেলকে জিজ্ঞাসা করতে পারে । এই পূর্বাভাসগুলি সম্পূর্ণরূপে লার্নিং এজেন্টের বাইরে সরবরাহ করা যেতে পারে - যেমন একটি ডাইস বা বোর্ড গেমের নিয়মগুলি বোঝে এমন কম্পিউটার কোড দ্বারা। অথবা তারা এজেন্ট দ্বারা শিখতে পারে, এক্ষেত্রে তারা আনুমানিক হবে।

কেবল পরিবেশের একটি মডেল বাস্তবায়িত হওয়ার কারণে, এর অর্থ এই নয় যে কোনও আরএল এজেন্ট "মডেল-ভিত্তিক"। "মডেল-ভিত্তিক" হিসাবে যোগ্যতা অর্জনের জন্য, শিখার অ্যালগরিদমগুলিকে স্পষ্টভাবে মডেলটি উল্লেখ করতে হবে:

  • মন্টি কার্লো কন্ট্রোল, সারসা, কিউ-লার্নিং, অভিনেতা-সমালোচক যেমন অভিজ্ঞতার খাঁটি নমুনা হ'ল "মডেল ফ্রি" আরএল অ্যালগরিদম। তারা পরিবেশ থেকে আসল নমুনাগুলির উপর নির্ভর করে এবং পরবর্তী অবস্থার উত্পন্ন ভবিষ্যদ্বাণীগুলি এবং আচরণের পরিবর্তন করতে কখনও পরের পুরষ্কার ব্যবহার করে না (যদিও তারা অভিজ্ঞতার স্মৃতি থেকে নমুনা পেতে পারে যা একটি মডেল হওয়ার কাছাকাছি)।

  • প্রত্নতাত্ত্বিক মডেল-ভিত্তিক অ্যালগরিদমগুলি হ'ল ডায়নামিক প্রোগ্রামিং (পলিসি আইট্রেশন এবং মান আইট্রেশন) - এগুলি সর্বোত্তম ক্রিয়াকলাপ গণনা করার জন্য মডেলটির ভবিষ্যদ্বাণী বা পরবর্তী রাজ্যের পুরষ্কার এবং পুরষ্কার ব্যবহার করে। বিশেষত ডায়নামিক প্রোগ্রামিংয়ে মডেলটিকে অবশ্যই রাষ্ট্রের রূপান্তর সম্ভাবনা এবং যে কোনও রাষ্ট্রের কাছ থেকে প্রত্যাশিত পুরষ্কার, অ্যাকশন জুড়ি সরবরাহ করতে হবে। নোট করুন এটি খুব কমই শেখা মডেল।

  • বেসিক টিডি শেখার জন্য, শুধুমাত্র রাষ্ট্রীয় মানগুলি ব্যবহার করে, নিয়ন্ত্রণ ব্যবস্থা হিসাবে কাজ করতে এবং পদক্ষেপ গ্রহণের জন্যও মডেল ভিত্তিক হতে হবে। ভাল কর্ম বাছাই, এটা একটি মডেল অনুমান প্রতিটি কর্মের উপর ঘটবে, এবং মত একটি নীতি বাস্তবায়ন অনুসন্ধান করা প্রয়োজন π(গুলি)=argmaxএকটিΣগুলি',Rপি(গুলি',R|গুলি,একটি)(R+ +বনাম(গুলি')) যেখানে পি(গুলি',R|গুলি,একটি) পুরস্কার প্রাপ্তির সম্ভাব্যতাR এবং পরবর্তী রাষ্ট্রগুলি' যখন ব্যবস্থা গ্রহণেরএকটি রাজ্যেরগুলি । সেই ফাংশনপি(গুলি',R|গুলি,একটি) মূলত মডেল।

আরএল সাহিত্যে "মডেল" -কে "মডেল-ভিত্তিক" এবং "মডেল-মুক্ত" শেখার পরিবেশের একটি মডেল এবং নিউরাল নেটওয়ার্কগুলির মতো পরিসংখ্যানবিদদের ব্যবহারের মধ্যে পার্থক্য রয়েছে।

আরএলগুলিতে, নিউরাল নেটওয়ার্কগুলি প্রায়শই মান ফাংশনগুলি শিখতে এবং সাধারণকরণের জন্য নিযুক্ত করা হয়, যেমন কিউ মান যা একটি রাজ্য এবং ক্রিয়া জুটির প্রদত্ত মোট রিটার্ন (ছাড়যুক্ত পুরষ্কারের যোগফল) পূর্বাভাস দেয়। যেমন একটি প্রশিক্ষিত নিউরাল নেটওয়ার্ক প্রায়শই উদাহরণস্বরূপ তদারকি করা শেখাকে "মডেল" বলা হয়। তবে, আরএল সাহিত্যে আপনি "ফাংশন অ্যাজেসিমেটর" শব্দটি অস্পষ্টতা এড়াতে এই জাতীয় নেটওয়ার্কের জন্য ব্যবহৃত দেখতে পাবেন।

আমার কাছে মনে হয় যে কোনও মডেল-মুক্ত শিক্ষানবিস, পরীক্ষা এবং ত্রুটির মাধ্যমে শেখা, মডেল-ভিত্তিক হিসাবে প্রত্যাখাত হতে পারে।

আমি মনে করি আপনি এখানে "মডেল" শব্দের সাধারণ বোধগম্যতা ব্যবহার করছেন এমন কোনও কাঠামো অন্তর্ভুক্ত করার জন্য যা দরকারী ভবিষ্যদ্বাণী করে। এটি যেমন SARSA এর Q মানগুলির সারণীতে প্রযোজ্য।

যাইহোক, উপরে বর্ণিত হিসাবে, আরএল শব্দটি এইভাবে ব্যবহৃত হয় না। সুতরাং যদিও আপনার বোঝা গেছে যে আরএল দরকারী অভ্যন্তরীণ উপস্থাপনাগুলি তৈরি করে, আপনি প্রযুক্তিগতভাবে সঠিক নন যে এটি "মডেল-মুক্ত" "মডেল-ভিত্তিক" হিসাবে পুনরায় ফ্রেম ব্যবহার করতে ব্যবহার করা যেতে পারে, কারণ এই পদগুলির আরএলটিতে খুব নির্দিষ্ট অর্থ রয়েছে have ।

সেক্ষেত্রে মডেল-মুক্ত শিখাগুলি কখন উপযুক্ত হবে?

সাধারণত আরএল-তে শিল্পের বর্তমান অবস্থার সাথে যদি আপনার সমস্যার সংজ্ঞা অংশ হিসাবে একটি সঠিক মডেল সরবরাহ না করা হয় তবে মডেল-মুক্ত পদ্ধতিগুলি প্রায়শই উচ্চতর হয়।

এজেন্টদের মধ্যে প্রচুর আগ্রহ রয়েছে যা পরিবেশের ভবিষ্যদ্বাণীপূর্ণ মডেলগুলি তৈরি করে এবং "পার্শ্ব প্রতিক্রিয়া" হিসাবে (এটি এখনও মডেল-মুক্ত অ্যালগরিদম হওয়া সত্ত্বেও) দরকারী হতে পারে - এটি নিউরাল নেটওয়ার্ককে নিয়মিত করতে পারে বা মূল ভবিষ্যদ্বাণীমূলক আবিষ্কারে সহায়তা করতে পারে নীতি বা মান নেটওয়ার্কগুলিতে ব্যবহার করা যেতে পারে এমন বৈশিষ্ট্যগুলি। তবে, মডেল-ভিত্তিক এজেন্টরা যারা পরিকল্পনার জন্য তাদের নিজস্ব মডেলগুলি শিখেন তাদের একটি সমস্যা রয়েছে যে এই মডেলগুলিতে অসম্পূর্ণতা অস্থিতিশীলতার কারণ হতে পারে (ভুল সংস্থাগুলি ভবিষ্যতে এজেন্টটিকে আরও বেশি করে দেয়)। পরিকল্পনার সময় শিখানো মডেলটি কখন এবং কতটা বিশ্বাস করতে হবে তা সিদ্ধান্ত নেওয়ার জন্য কল্পনা-ভিত্তিক এজেন্ট এবং / অথবা প্রক্রিয়া ব্যবহার করে কিছু প্রতিশ্রুতিবদ্ধ ইনরোড তৈরি করা হচ্ছে ।

এই মুহুর্তে (2018 এ), যদি আপনি শুরুতে সুস্পষ্ট পরিচিত মডেল ছাড়াই কোনও পরিবেশে সত্যিকারের বিশ্ব সমস্যা পান তবে নিরাপদ বেট হ'ল ডিকিউএন বা এ 3 সি এর মতো একটি মডেল-মুক্ত পদ্ধতির ব্যবহার করা। ক্ষেত্রটি দ্রুতগতিতে চলতে থাকায় এটি পরিবর্তন হতে পারে এবং কয়েক বছরের মধ্যে আরও নতুন জটিল স্থাপত্যগুলি আদর্শ হতে পারে।


1
একটি ছোট সংশোধন, সাধারণত "মডেল ভিত্তিক" বা "মডেল ফ্রি" পদগুলি এমসিটিএসের মতো অ্যালগরিদমের পরিকল্পনার জন্য ব্যবহৃত হয় না। এটি শুধুমাত্র শেখার অ্যালগরিদমগুলিকে শ্রেণিবদ্ধ করতে ব্যবহৃত হয়।
মিগুয়েল সরাইভা

@ মিগুয়েলসারাইভা: আমি সে সম্পর্কে 100% নিশ্চিত নই, তবে এমসিটিএস-এর রেফারেন্স সরিয়ে দিয়েছি। আগ্রহের বাইরে, আপনি পদগুলির ব্যবহারের এই সীমাবদ্ধতার বিষয়ে ডায়নাউ কোথায় রাখবেন? আমি মনে করি এটি জটিল হয়ে ওঠে, যখন এলগোরিদিমরা এমডিপি মডেল এবং নীতিগুলি উন্নত করার ক্ষেত্রে এমন একটি সাধারণ দৃষ্টিভঙ্গি ভাগ করে দেয়, পরিকল্পনা এবং শেখার মধ্যে সীমানা কোথায় রয়েছে তা জানাতে।
নিল স্লেটার

আমি ভুল হতে পারি, আমি এই অঞ্চলের একজন আভিজাত্য। আমি কেবল মাঠের একজন শিক্ষকের কথা মনে করেছি যা আমি একই মন্তব্য করার পরে সেই মন্তব্য করেছিলাম।
মিগুয়েল সরাইভা

5

একটিগুলিগুলি'R

এজেন্টের প্রধান লক্ষ্য হ'ল "দীর্ঘমেয়াদে" সর্বাধিক পরিমাণ পুরষ্কার সংগ্রহ করা। এটি করার জন্য, এজেন্টকে একটি সর্বোত্তম নীতি (মোটামুটি, পরিবেশে আচরণের অনুকূল কৌশল) খুঁজে বের করতে হবে। সাধারণভাবে, একটি নীতি হ'ল একটি ফাংশন যা পরিবেশের একটি বর্তমান অবস্থা দেওয়া হলে পরিবেশে কার্যকর করার জন্য একটি ক্রিয়া (বা কর্মের উপরে সম্ভাব্য বন্টন, যদি নীতিটি স্টোকাস্টিক হয় ) আউটপুট দেয়। কোনও নীতিটিকে এজেন্ট দ্বারা এই পরিবেশে আচরণ করার জন্য ব্যবহৃত "কৌশল" হিসাবে ভাবা যেতে পারে। একটি অনুকূল নীতি (প্রদত্ত পরিবেশের জন্য) একটি নীতি যা অনুসরণ করা হয় এজেন্টকে দীর্ঘমেয়াদে (যা এজেন্টের লক্ষ্য) সর্বাধিক পরিমাণ পুরষ্কার সংগ্রহ করতে সক্ষম করে। আরএল-তে, আমরা এইভাবে অনুকূল নীতিগুলি সন্ধান করতে আগ্রহী।

পরিবেশ নির্বিচারে হতে পারে (অর্থাত্, একই রাজ্যে একই পদক্ষেপ একই পরবর্তী রাষ্ট্রের দিকে পরিচালিত করে, সর্বকালের পদক্ষেপের জন্য) বা স্টোচাস্টিক (বা অ-নিরস্ত্রীক), অর্থাৎ এজেন্ট যদি কোনও পদক্ষেপ নেয় নির্দিষ্ট রাজ্য, পরিবেশের পরবর্তী অবস্থার প্রয়োজনে সর্বদা অভিন্ন হতে পারে না: সম্ভাবনা রয়েছে যে এটি একটি নির্দিষ্ট রাষ্ট্র বা অন্য একটি হবে। অবশ্যই, এই অনিশ্চয়তা সর্বোত্তম নীতি সন্ধানের কাজটিকে আরও শক্ত করে তুলবে।

আরএল-তে সমস্যাটি প্রায়শই গণিতের ভিত্তিতে মার্কভ সিদ্ধান্ত প্রক্রিয়া (এমডিপি) হিসাবে তৈরি করা হয় । একটি এমডিপি হ'ল পরিবেশের "গতিশীলতা" উপস্থাপনের একটি উপায়, যা কোনও নির্দিষ্ট অবস্থায় এজেন্ট গ্রহণ করতে পারে এমন সম্ভাব্য পদক্ষেপে পরিবেশ যেভাবে প্রতিক্রিয়া দেখাবে। আরও স্পষ্টভাবে, একটি এমডিপি একটি রূপান্তর ফাংশন (বা "ট্রানজিশন মডেল") দিয়ে সজ্জিত , যা এমন একটি ফাংশন যা পরিবেশের বর্তমান অবস্থা এবং একটি ক্রিয়া (যে এজেন্ট গ্রহণ করতে পারে) প্রদত্ত, কোনওটিতে যাওয়ার সম্ভাবনা আউটপুট করে পরবর্তী রাজ্যের। একটি পুরষ্কার ফাংশনএকটি MDP এর সাথেও যুক্ত। স্বজ্ঞাতভাবে, পুরষ্কারটির কার্যকারিতা পরিবেশের বর্তমান অবস্থা (এবং সম্ভবত, এজেন্ট এবং পরিবেশের পরবর্তী অবস্থার দ্বারা গৃহীত একটি পদক্ষেপ) প্রদত্ত পুরষ্কারকে আউটপুট দেয়। সম্মিলিতভাবে, স্থানান্তর এবং পুরষ্কারের কার্যগুলিকে প্রায়শই বলা হয় পরিবেশের মডেল । উপসংহারে, এমডিপি হ'ল সমস্যা এবং সমস্যার সমাধানটি একটি নীতি। তদ্ব্যতীত, পরিবেশের "গতিশীলতা" স্থানান্তর এবং পুরষ্কার ফাংশনগুলি (যা "মডেল") দ্বারা পরিচালিত হয়।

তবে, আমাদের প্রায়শই এমডিপি থাকে না, তা হ'ল আমাদের পরিবেশগতভাবে সম্পর্কিত এমডিপি'র স্থানান্তর এবং পুরষ্কারের কাজগুলি নেই। সুতরাং, আমরা এমডিপি থেকে কোনও নীতি অনুমান করতে পারি না, কারণ এটি অজানা। মনে রাখবেন, সাধারণভাবে, যদি আমাদের সাথে পরিবেশের সাথে সম্পর্কিত MDP এর রূপান্তর ও পুরষ্কারের কার্য থাকে তবে আমরা তাদের কাজে লাগাতে পারি এবং একটি সর্বোত্তম নীতি (গতিশীল প্রোগ্রামিং অ্যালগোরিদম ব্যবহার করে) পুনরুদ্ধার করতে পারি।

এই নীতিগুলির অনুপস্থিতিতে (এটি যখন MDP অজানা), অনুকূল নীতি অনুমান করতে এজেন্টকে পরিবেশের সাথে যোগাযোগ করতে হবে এবং পরিবেশের প্রতিক্রিয়াগুলি পর্যবেক্ষণ করতে হবে। এটিকে প্রায়শই "রিইনফোর্সমেন্ট লার্নিং প্রব্লেম" হিসাবে উল্লেখ করা হয়, কারণ এজেন্টকে পরিবেশের গতিশীলতা সম্পর্কে তার বিশ্বাসকে আরও দৃfor় করে একটি নীতিমালা অনুমান করতে হবে । সময়ের সাথে সাথে, এজেন্ট পরিবেশটি তার ক্রিয়াকলাপগুলিতে কীভাবে প্রতিক্রিয়া দেখায় তা বুঝতে শুরু করে এবং এটি সর্বোত্তম নীতি অনুমান করা শুরু করতে পারে। সুতরাং, আরএল সমস্যায় এজেন্ট তার সাথে ইন্টারঅ্যাক্ট করে ("ট্রায়াল-এন্ড-ত্রুটি" পদ্ধতির ব্যবহার করে) অজানা (বা আংশিকভাবে পরিচিত) পরিবেশে আচরণ করার অনুকূল নীতিটি অনুমান করে।

এই প্রসঙ্গে, একটি মডেল-ভিত্তিকঅ্যালগরিদম হ'ল একটি অ্যালগরিদম যা সর্বোত্তম নীতি অনুমান করার জন্য ট্রানজিশন ফাংশন (এবং পুরষ্কার ফাংশন) ব্যবহার করে। এজেন্টের কেবলমাত্র স্থানান্তর ক্রিয়াকলাপ এবং পুরষ্কারের ফাংশনগুলির সান্নিধ্যে অ্যাক্সেস থাকতে পারে, যা পরিবেশের সাথে যোগাযোগ করার সময় এজেন্ট দ্বারা শিখতে পারে বা এজেন্টকে দেওয়া যেতে পারে (যেমন অন্য কোনও এজেন্ট দ্বারা)। সাধারণভাবে, একটি মডেল-ভিত্তিক অ্যালগরিদমতে, এজেন্ট সম্ভাব্যভাবে পরিবেশের গতিশীলতা (শেখার পর্যায়ে বা তার পরে) পূর্বাভাস দিতে পারে, কারণ এতে রূপান্তর ফাংশন (এবং পুরষ্কার কার্যকারিতা) এর একটি অনুমান রয়েছে। তবে নোট করুন যে এজেন্টটি সর্বোত্তম নীতি সম্পর্কে তার প্রাক্কলনটি উন্নত করতে যে রূপান্তর ও পুরষ্কারের কাজ করে তা কেবলমাত্র "সত্য" ফাংশনের সান্নিধ্য হতে পারে। অতএব, সর্বোত্তম নীতি কখনও খুঁজে পাওয়া যাবে না (কারণ এই আনুমানিকতার কারণে)।

একটি মডেল-মুক্ত অ্যালগরিদম এমন একটি অ্যালগরিদম যা পরিবেশের গতিশীলতা (রূপান্তর এবং পুরষ্কারের কার্যগুলি) ব্যবহার না করে বা অনুমান না করে অনুকূল নীতি অনুমান করে। অনুশীলনে, একটি মডেল-মুক্ত অ্যালগরিদম হয় কোনও "মান ফাংশন" বা অভিজ্ঞতা থেকে সরাসরি "নীতি" নির্ধারণ করে (এটি এজেন্ট এবং পরিবেশের মধ্যে মিথস্ক্রিয়া), পরিবর্তনের ফাংশন বা পুরষ্কার কার্যটি না ব্যবহার করেই। একটি মান ফাংশন এমন একটি ফাংশন হিসাবে ভাবা যেতে পারে যা কোনও রাজ্যের মূল্যায়ন করে (বা কোনও রাজ্যে গৃহীত কোনও পদক্ষেপ), সমস্ত রাজ্যের জন্য। এই মান ফাংশন থেকে, পরে একটি নীতি উত্পন্ন করা যেতে পারে।

অনুশীলনে, মডেল-ভিত্তিক বা মডেল-মুক্ত অ্যালগরিদমগুলির মধ্যে পার্থক্য করার একটি উপায় হ'ল অ্যালগরিদমগুলি দেখে এবং তারা রূপান্তর বা পুরষ্কার কার্যটি ব্যবহার করে কিনা তা দেখুন।

উদাহরণস্বরূপ, আসুন কি-লার্নিং অ্যালগরিদমের মূল আপডেটের নিয়মটি দেখুন :

প্রশ্নঃ(এসটি,একজনটি)প্রশ্নঃ(এসটি,একজনটি)+ +α(আরটি+ +1+ +γসর্বোচ্চএকটিপ্রশ্নঃ(এসটি+ +1,একটি)-প্রশ্নঃ(এসটি,একজনটি))

আরটি+ +1

এখন, নীতির উন্নতি অ্যালগরিদমের মূল আপডেটের নিয়মটি দেখুন :

প্রশ্নঃ(গুলি,একটি)Σগুলি'এস,Rআরপি(গুলি',R|গুলি,একটি)(R+ +γভী(গুলি'))

পি(গুলি',R|গুলি,একটি)


2

মডেল-মুক্ত আরএল

মডেল-মুক্ত আরএল-তে, এজেন্টের পরিবেশের কোনও মডেলের অ্যাক্সেস নেই। পরিবেশ অনুসারে আমার অর্থ এমন একটি ফাংশন যা রাষ্ট্রের উত্তরণ এবং পুরষ্কারগুলির পূর্বাভাস দেয়।

লেখার সময় হিসাবে, মডেল-মুক্ত পদ্ধতিগুলি আরও জনপ্রিয় এবং ব্যাপক গবেষণা হয়েছে।

মডেল ভিত্তিক আরএল

মডেল-ভিত্তিক আরএল-তে, এজেন্টটির পরিবেশের কোনও মডেলটিতে অ্যাক্সেস থাকে।

প্রধান সুবিধা হ'ল এটি এজেন্টকে সামনে চিন্তা করে এগিয়ে যাওয়ার পরিকল্পনা করতে পারে। এজেন্টরা পরিকল্পনা গ্রহণ থেকে ফলাফল শিখিয়ে নীতিতে ছড়িয়ে দেয়। মডেল-ভিত্তিক আরএল এর একটি বিখ্যাত উদাহরণ হ'ল আলফাজেরো

মূল ক্ষতিটি হ'ল বহুবার পরিবেশের স্থল-সত্য উপস্থাপনা সাধারণত পাওয়া যায় না।


নীচে আরএল অ্যালগরিদমগুলির একটি বহির্ভূত টেকনোমি রয়েছে, যা আপনাকে আরএল ল্যান্ডস্কেপকে আরও ভালভাবে কল্পনা করতে সহায়তা করতে পারে।

এখানে চিত্র বর্ণনা লিখুন


1

মতে OpenAI - আরএল আলগোরিদিম প্রকারের , যা পরিবেশের একটি মডেল, অর্থাত্ একটি ফাংশন যা রাষ্ট্র ট্রানজিশন এবং পুরষ্কার অনুমান ব্যবহার আলগোরিদিম, বলা হয় মডেল-ভিত্তিক পদ্ধতি, এবং যারা না যে বলা হয় মডেল-মুক্ত । এই মডেলটি হয় এজেন্টকে দেওয়া যেতে পারে বা এজেন্ট দ্বারা শিখে নেওয়া যেতে পারে।

একটি মডেল ব্যবহার করে এজেন্টকে সামনে চিন্তা করে পরিকল্পনা করতে দেয়, সম্ভাব্য বিভিন্ন পছন্দের জন্য কী ঘটবে তা দেখে এবং তার বিকল্পগুলির মধ্যে স্পষ্টতই সিদ্ধান্ত নিতে পারে। দীর্ঘমেয়াদী চিন্তাভাবনার প্রয়োজন এমন সমস্যার মুখোমুখি হলে এটি কার্যকর হতে পারে। পরিকল্পনা সম্পাদন করার একটি উপায় হ'ল কিছু ধরণের বৃক্ষ অনুসন্ধান ব্যবহার করা, উদাহরণস্বরূপ মন্টি কার্লো ট্রি সন্ধান (এমসিটিএস), বা suspect যা আমার সন্দেহ হয় যে দ্রুত অন্বেষণকারী র্যান্ডম ট্রি (আরআরটি) এর রূপগুলি ian উদাহরণস্বরূপ দেখুন যে এজেন্টরা কল্পনা এবং পরিকল্পনা করে

এজেন্ট তারপরে পরিকল্পনা থেকে ফলাফল শিখিয়ে নীতিতে ছড়িয়ে দিতে পারে - এটি বিশেষজ্ঞের পুনরাবৃত্তি হিসাবে পরিচিত known

একটি মডেল ব্যবহার করে একটি সিমুলেটেড, বা "কল্পনা করা" পরিবেশ তৈরি করা যেতে পারে যেখানে মডেলটি ব্যবহার করে রাষ্ট্র আপডেট করা হয় এবং এজেন্টটিকে সেই পরিবেশের অভ্যন্তরে যেমন ওয়ার্ল্ড মডেলগুলিতে শিখতে পারে ।

অনেক বাস্তব-দর্শনীয় পরিস্থিতিতে পরিবেশের স্থল-সত্য মডেল এজেন্টের কাছে উপলভ্য নয়। কোনও এজেন্ট যদি এই ক্ষেত্রে কোনও মডেল ব্যবহার করতে চান, তবে এটি মডেলটি শিখতে হবে, যা বিভিন্ন কারণে চ্যালেঞ্জ হতে পারে।

তবে এমন কিছু ক্ষেত্রে রয়েছে যেখানে এজেন্ট এমন একটি মডেল ব্যবহার করে যা ইতিমধ্যে পরিচিত এবং ফলস্বরূপ আলফাজিরোতে মডেলটি শিখতে হবে না , যেখানে মডেলটি গেমের নিয়মের আকারে আসে।


1

যদিও বেশ কয়েকটি ভাল উত্তর রয়েছে, তবুও আমি এই অনুচ্ছেদটিকে সংযুক্তি শিক্ষা: একটি ভূমিকা , 303 পৃষ্ঠা থেকে এই পার্থক্যটি সম্পর্কে আরও মানসিক দৃষ্টিভঙ্গি যুক্ত করতে চাই 3

মডেল-মুক্ত এবং মডেল-ভিত্তিক চাঙ্গা শেখার অ্যালগরিদমগুলির মধ্যে পার্থক্য মনোভাববিদদের শিখে নেওয়া আচরণগত নিদর্শনগুলির অভ্যাসগত এবং লক্ষ্য-নির্দেশিত নিয়ন্ত্রণের মধ্যে যে পার্থক্য রয়েছে তার সাথে মিল। অভ্যাসগুলি হ'ল আচরণের নিদর্শনগুলি যথাযথ উদ্দীপনা দ্বারা ট্রিগার করা হয় এবং তারপরে স্বয়ংক্রিয়ভাবে কম বা কম সঞ্চালিত হয়। লক্ষ্য-নির্দেশিত আচরণ, মনোবিজ্ঞানীরা কীভাবে বাক্যাংশটি ব্যবহার করেন সে অনুসারে এটি লক্ষ্যবস্তু যে এটি লক্ষ্যগুলির মূল্য এবং ক্রিয়া এবং তার পরিণতির মধ্যে সম্পর্কের জ্ঞান দ্বারা নিয়ন্ত্রিত হয়। অভ্যাসকে কখনও কখনও পূর্ববর্তী উদ্দীপনা দ্বারা নিয়ন্ত্রিত বলা হয়, যেখানে লক্ষ্য-নির্দেশিত আচরণ তার পরিণতি দ্বারা নিয়ন্ত্রিত হয় বলে বলা হয় (ডিকিনসন, 1980, 1985)। লক্ষ্য-নির্দেশিত নিয়ন্ত্রণের সুবিধা রয়েছে যে পরিবেশ যখন প্রাণীটির ক্রিয়াকলাপগুলির প্রতিক্রিয়া দেখানোর পদ্ধতি পরিবর্তন করে তখন এটি একটি প্রাণীর আচরণে দ্রুত পরিবর্তন করতে পারে। অভ্যাসগত অভ্যাসটি যখন কোনও অভ্যস্ত পরিবেশ থেকে ইনপুটটিতে দ্রুত সাড়া দেয় তবে এটি পরিবেশের পরিবর্তনের সাথে দ্রুত সামঞ্জস্য করতে অক্ষম।

এটি সেখান থেকে যেতে থাকে, এবং এর পরে একটি দুর্দান্ত উদাহরণ রয়েছে।

আমি মনে করি যে মূল পয়েন্টটি অন্যান্য উত্তরগুলিতে সর্বদা ব্যাখ্যা করা হয়নি, তা হ'ল একটি মডেল-মুক্ত পদ্ধতির ক্ষেত্রে আপনার ক্রিয়াকলাপের সাথে জড়িত পুরষ্কারটি কী তা জানাতে আপনার এখনও কিছুটা পরিবেশ প্রয়োজন। বড় পার্থক্য হ'ল মডেল সম্পর্কে আপনার কোনও তথ্য সংরক্ষণ করার দরকার নেই। আপনি পরিবেশকে আপনার নির্বাচিত ক্রিয়া দেন, আপনি আপনার আনুমানিক নীতি আপডেট করেন এবং আপনি এটি ভুলে যান। অন্যদিকে, মডেল-ভিত্তিক পদ্ধতির ক্ষেত্রে, আপনাকে ডায়নামিক প্রোগ্রামিংয়ের মতোই রাষ্ট্রের রূপান্তর ইতিহাস জানতে হবে, বা আপনার বর্তমান রাষ্ট্র থেকে পরবর্তী সমস্ত রাজ্য এবং সম্পর্কিত পুরষ্কার গণনা করতে সক্ষম হতে হবে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.