অস্থায়ী পার্থক্যের চেয়ে মন্টি কার্লো পদ্ধতিগুলি কখন পছন্দ করা হয়?


12

আমি ইদানীং রিইনফোর্সমেন্ট লার্নিং সম্পর্কে প্রচুর গবেষণা করে চলেছি। আমি সটন এবং বার্তোর পুনর্বহালকরণ শিক্ষণ অনুসরণ করেছি : এর বেশিরভাগের জন্য একটি ভূমিকা

আমি জানি যে মার্কোভ সিদ্ধান্ত প্রক্রিয়াগুলি কী এবং কীভাবে ডায়নামিক প্রোগ্রামিং (ডিপি), মন্টি কার্লো এবং টেম্পোরাল ডিফারেন্স (ডিপি) লার্নিংগুলি সেগুলি সমাধান করার জন্য ব্যবহার করা যেতে পারে। আমার যে সমস্যা হচ্ছে তা হ'ল আমি দেখতে পাচ্ছি না কখন মন্টি কার্লো টিডি-শিক্ষার চেয়ে ভাল বিকল্প হবে।

তাদের মধ্যে প্রধান পার্থক্যটি হ'ল টিডি-লার্নিংটি আনুমানিক অ্যাকশন-মান ফাংশনের জন্য বুটস্ট্র্যাপিং ব্যবহার করে এবং মন্টি কার্লো এটি সম্পাদন করতে গড় ব্যবহার করে। এটি যাওয়ার আরও ভাল উপায় যখন হয় তখন আমি সত্যিই কোনও দৃশ্যের কথা ভাবতে পারি না।

আমার অনুমান যে পারফরম্যান্সের সাথে এটির কিছু থাকতে পারে তবে আমি এর উত্স প্রমাণ করতে পারে এমন কোনও উত্স খুঁজে পাচ্ছি না।

আমি কি কিছু মিস করছি বা টিডি-লার্নিং সাধারণত ভাল বিকল্প?

উত্তর:


9

টিডি শেখার এবং ডিপির প্রধান সমস্যাটি হ'ল তাদের ধাপের আপডেটগুলি শেখার পরামিতিগুলির প্রাথমিক অবস্থার উপর পক্ষপাতদুষ্ট । বুটস্ট্র্যাপিং প্রক্রিয়া সাধারণত পরবর্তী অনুমানগুলি যাই হোক না কেন ব্যবহার করে একটি উত্তরসূরি মান Q (s ', a') এর উপর একটি ক্রিয়াকলাপ বা অনুসন্ধান Q (গুলি, ক) আপডেট করে। স্পষ্টতই এই অনুমানগুলি শেখার একেবারে শুরুতে কোনও বাস্তব পুরষ্কার বা রাষ্ট্রীয় রূপান্তর থেকে কোনও তথ্য থাকে না।

যদি শেখা উদ্দেশ্য অনুযায়ী কাজ করে, তবে পক্ষপাতটি একাধিক পুনরাবৃত্তির তুলনায় তাত্পর্যপূর্ণভাবে হ্রাস পাবে। তবে, পক্ষপাতটি গুরুত্বপূর্ণ সমস্যাগুলি সৃষ্টি করতে পারে, বিশেষত অফ-পলিসি পদ্ধতিগুলির জন্য (যেমন কিউ লার্নিং) এবং ফাংশন আনুমানিক ব্যবহারের সময়। যে সমন্বয় মিলিত করতে ব্যর্থ যে এটা বলা হয়, যাতে সম্ভাবনা রয়েছে মারাত্মক ত্রয়ী মধ্যে সাটন & Barto

মন্টে কার্লো নিয়ন্ত্রণের পদ্ধতিগুলি এই পক্ষপাতদুষ্টতায় ভোগে না, কারণ প্রতিটি আপডেট কিউ (গুলি, ক) হওয়া উচিত তার সত্যিকারের নমুনা ব্যবহার করে তৈরি করা হয়। যাইহোক, মন্টি কার্লো পদ্ধতিগুলি উচ্চ বৈকল্পিকতায় ভুগতে পারে, যার অর্থ টিডির তুলনায় একই ডিগ্রি শেখার জন্য আরও বেশি নমুনার প্রয়োজন।

অনুশীলনে, টিডি লার্নিং আরও কার্যকরভাবে শিখতে পারে যদি মারাত্মক ট্রায়াডের সমস্যাগুলি কাটিয়ে উঠতে পারে। এক্সপ্লোরার রিপ্লে এবং মঞ্চস্থ "হিমশীতল" অনুলিপি ব্যবহার করে সাম্প্রতিক ফলাফলগুলি সমস্যাগুলি সমাধান করে এমন কাজের আশপাশ সরবরাহ করে - উদাহরণস্বরূপ, আতারি গেমসের জন্য কীভাবে ডিকিউএন লার্নার তৈরি করা হয়েছিল।

টিডি এবং মন্টি কার্লোর মধ্যে একটি মাঝারি স্থলও রয়েছে। একক-পদক্ষেপের টিডি থেকে মন্টি কার্লোতে পর্বের সম্পূর্ণ পর্বগুলি - এবং তাদের একত্রিত করে বিভিন্ন দৈর্ঘ্যের ট্র্যাজেক্টরিগুলিকে একত্রিত করে এমন একটি সাধারণ পদ্ধতি তৈরি করা সম্ভব। এই সবচেয়ে সাধারণ বৈকল্পিক: TD (হয় ) শেখার, যেখানে থেকে একটি প্যারামিটার (কার্যকরভাবে একক-ধাপ: TD লার্নিং) এর (কার্যকরভাবে মন্টে কার্লো লার্নিং, কিন্তু একটা চমৎকার বৈশিষ্ট্য সঙ্গে এটা ক্রমাগত ব্যবহার করা যেতে পারে যে সমস্যার)। সাধারণত, থেকে মধ্যে একটি মান সবচেয়ে দক্ষ লার্নিং এজেন্টকে তৈরি করে - যদিও অনেক হাইপারপ্যারামিটারের মতো, ব্যবহারের সেরা মানটি সমস্যার উপর নির্ভর করে।λλ0101

আপনি যদি মান-ভিত্তিক পদ্ধতি ব্যবহার করে থাকেন (নীতি-ভিত্তিক একের বিপরীতে), তবে সাধারণত টিডি শেখার ব্যবহার অনুশীলনে বেশি ব্যবহৃত হয়, বা একটি টিডি / এমসির সমন্বয় পদ্ধতি যেমন টিডি (combination) আরও ভাল হতে পারে।

এমসির জন্য "ব্যবহারিক সুবিধা" এর নিরিখে? মন্টে কার্লো লার্নিং ধারণাটি সহজ, দৃ rob় এবং বাস্তবায়নের পক্ষে সহজ, যদিও প্রায়শই টিডির চেয়ে ধীর হয়। আমি সাধারণত এটি একটি লার্নিং কন্ট্রোলার ইঞ্জিনের জন্য ব্যবহার করব না (যদি কোনও সাধারণ পরিবেশের জন্য কোনও বাস্তবায়নের তাড়াহুড়ো না করে) তবে উদাহরণস্বরূপ একাধিক এজেন্টের তুলনা করার জন্য নীতি মূল্যায়নের জন্য আমি গুরুত্ব সহকারে বিবেচনা করব - এটি কারণ হওয়ার কারণে নিরপেক্ষ পরিমাপ, যা পরীক্ষার জন্য গুরুত্বপূর্ণ।


প্রথমে, উত্তরের জন্য ধন্যবাদ। আমি দেখছি যে থিওরিতে কোনও পক্ষপাতদুষ্টের চেয়ে কোনও পক্ষপাতহীন অ্যালগরিদমকে কীভাবে পছন্দ করা যেতে পারে। তবে প্রশিক্ষণের শুরুতে মন্টি কার্লো যে উচ্চতর বৈকল্পিকতা দিতে পারেন তা বিবেচনা করে দেখছি যে এটি কীভাবে গুরুত্বপূর্ণ। মন্টি কার্লো এবং টিডি উভয়ই সঠিক অনুমানের সাথে শুরু করবে এবং আমি যা পড়েছি তা থেকে টিডি আরও দ্রুত রূপান্তরিত করবে। আমি কেবল মন্টি কার্লো ব্যবহারের ব্যবহারিক সুবিধা নিয়ে আসতে পারি না। ( মারাত্মক মারাত্মক ত্রয়ী এড়ানো যায়)
আন-ডার্ক

1
@ Anne-ডির্ক আপনি একটি মান ভিত্তিক পদ্ধতি ব্যবহার করে থাকেন (যেমন একটি নীতি-ভিত্তিকটির বিরোধিতা করে), তারপর: TD শেখার হয় সাধারণত অনুশীলন আরও ব্যবহৃত, বা এই ধরনের: TD (λ) একটা Td / এমসি সমন্বয় পদ্ধতি এমনকি হতে পারে উত্তম. আমি নিশ্চিত না যে আপনি "ব্যবহারিক সুবিধা" বলতে কী বোঝায়? মন্টি কার্লো লার্নিং ধারণাটি সহজ, দৃust় এবং কার্যকর করা সহজ। আমি সাধারণত এটি একটি লার্নিং কন্ট্রোলার ইঞ্জিনের জন্য ব্যবহার করব না (যদি কোনও সাধারণ পরিবেশের জন্য কোনও বাস্তবায়নের তাড়াহুড়ো না করে) তবে উদাহরণস্বরূপ একাধিক এজেন্টের তুলনা করার জন্য আমি নীতি মূল্যায়নের জন্য গুরুত্ব সহকারে বিবেচনা করব।
নিল স্লেটার

@ নিউল স্লেটার আআআআআআআআআআআআআআআআআআআআআআআআআআআআ যা আমি যাচ্ছিলাম এরকম উত্তর: আপনার সহায়তার জন্য ধন্যবাদ!
অ্যান-ডিস্ক

-1

মূলত এটি আপনার পরিবেশের উপর নির্ভর করে।

টিডি মার্কভ সম্পত্তি ব্যবহার করে, অর্থাত্ কোনও প্রক্রিয়ার ভবিষ্যতের রাজ্যগুলি কেবলমাত্র বর্তমান অবস্থার উপর নির্ভর করে এবং তাই সাধারণত মার্কভের পরিবেশে টিডি ব্যবহার করা আরও দক্ষ।

এমসি মার্কভের সম্পত্তিটি কাজে লাগায় না কারণ এটি সম্পূর্ণ শিক্ষার প্রক্রিয়াটির পুরষ্কার দেয়, যা নিজেকে মার্ক-নন পরিবেশে ndsণ দেয়।


আমি মনে করি না এটি সঠিক বা কমপক্ষে, এটি দেখতে সুস্পষ্ট। মার্কভ সম্পত্তি, আরএল প্রসঙ্গে, রাজ্যগুলির সাথে সম্পর্কিত। আপনি কি দয়া করে পরিষ্কার করতে পারেন যে মার্কোভ সম্পত্তি সন্তুষ্ট হবে না তখন এমসি অ্যালগরিদম কেন আরও ভাল কাজ করবে?
nbro

পরিষ্কার করে বলতে গেলে, আমি দক্ষতার কথা উল্লেখ করছিলাম। আপনি যদি মার্কভ সম্পত্তিটি কাজে লাগাতে পারেন তবে টিডি সুবিধাজনক কারণ আপনি যে কোনও স্থিতিতে শুরু করতে পারেন, গ্রহণ করুন এবং ব্যবস্থা নিতে পারেন এবং ফলাফলটি সর্বদা একই রকম হয়, তাই আপনি উচ্চ মাত্রার সাথে টিডি ত্রুটি গণনা করতে পারেন। নন-এমডিপি সহ যদি আপনি এমন একটি রাজ্য পান যা আংশিকভাবে পালন করা হয় তবে টিডি খুব দক্ষ নাও হতে পারে। এর অর্থ এই নয় যে আপনি নন-এমডিপিগুলিতে টিডি ব্যবহার করতে পারবেন না, আপনি এটি করতে পারবেন তবে এটি অদক্ষ হতে পারে এবং টিডি (1) এর পরিবর্তে টিডি ল্যাম্বডায় আরও ভাল সাফল্য পেতে পারে।
বিগব্যাডমে

"আপনি যদি মার্কোভ সম্পত্তিটি কাজে লাগাতে পারেন তবে টিডি সুবিধাজনক কারণ আপনি যে কোনও স্থিতিতে শুরু করতে পারেন, গ্রহণ করুন এবং পদক্ষেপ নিতে পারেন এবং ফলাফল সর্বদা একই হতে পারে", পরিবেশ যদি নির্বিচারবাদী হয় তবে তা একই হবে। এর সাথে মার্কভের সম্পত্তি কী আছে? আমি তোমার দাবী পাই না আপনি কোথায় পড়েছেন যে টিএমডি এমসির চেয়ে বেশি অদক্ষ হয়ে উঠবে যেমন পিওএমডিপিগুলিতে?
nbro

1
এমডিপিগুলি সংজ্ঞা অনুসারে নির্বিচারক নয় । একটি নির্জনবাদী পরিবেশ সাধারণত হিসাবে সংজ্ঞায়িত করা হয়: যদি এজেন্ট একটি রাজ্যে থাকেগুলি এবং পদক্ষেপ নেয় একটি, তারপরে পরবর্তী রাষ্ট্র গুলি'যে কোনও সময় পদক্ষেপের ব্যাপার না কেন সর্বদা একই থাকে । এটি অন্যথায় স্টোকাস্টিক। এমডিপিগুলি পরিবেশ এবং এর গতিশীলতা উপস্থাপনের একটি উপায় মাত্র।
nbro

1
"যদি আপনি রাজ্য এস হন তবে এর আগে ঘটে যাওয়া সমস্ত ইভেন্টগুলি সেই রাষ্ট্রের দ্বারা সংজ্ঞায়িত করা হয়েছে এবং আপনি যদি পদক্ষেপ গ্রহণ করেন তবে সর্বদা একই স্টেট এস 'এবং পুরষ্কার r পাবেন" " না , এটি সত্য নয়, বিশেষত, যে অংশটি সত্য নয় তা হ'ল "যদি আপনি পদক্ষেপ নেন তবে আপনি সর্বদা একই স্টেট এস 'এবং পুরষ্কার পাবেন r এটি কেবলমাত্র সত্য যদি এমডিপির একটি নির্ধারিত ট্রানজিশন এবং পুরষ্কারের কার্য থাকে (তবে এটি সর্বদা ক্ষেত্রে হয় না)।
nbro
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.