সারসএ বনাম কিউ লার্নিং কখন নির্বাচন করবেন


19

সরসা এবং কিউ লার্নিং উভয়ই রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম যা একইভাবে কাজ করে। সর্বাধিক আকর্ষণীয় পার্থক্য হ'ল কিউ লার্নিং অফ পলিসি বন্ধ থাকাকালীন সরসা নীতিতে রয়েছে। আপডেটের নিয়মগুলি নিম্নরূপ:

প্রশ্ন লার্নিং:

Q(st,at)Q(st,at)+α[rt+1+γmaxaQ(st+1,a)Q(st,at)]

SARSA:

Q(st,at)Q(st,at)+α[rt+1+γQ(st+1,at+1)Q(st,at)]

যেখানে st,at এবং rt সময় পদে পদে রাষ্ট্র, কর্ম ও পুরস্কার হয় t এবং γ একটি ডিসকাউন্ট ফ্যাক্টর।

তারা বেশিরভাগই একই দেখায় যে ব্যতীত সারসায় আমরা প্রকৃত পদক্ষেপ নিই এবং কিউ লার্নিংয়ে আমরা সর্বাধিক পুরষ্কার সহকারে ব্যবস্থা গ্রহণ করি।

এমন কোন তাত্ত্বিক বা ব্যবহারিক সেটিংস রয়েছে যেখানে একে অপরকে পছন্দ করা উচিত? আমি দেখতে পাচ্ছি যে কিউ লার্নিংয়ে সর্বাধিক নেওয়া ব্যয়বহুল এবং আরও অনেক বেশি ক্রমাগত অ্যাকশন স্পেসে। তবে কি আর কিছু আছে?


ক্রমাগত অ্যাকশন স্পেসগুলিতে, সরাসরি নীতি অনুসন্ধানের পদ্ধতিগুলি যেমন বিভিন্ন নীতি-গ্রেডিয়েন্ট পদ্ধতিগুলি সাধারণত ব্যবহৃত হয় - যেহেতু আপনি বুঝতে পেরেছেন - অবিচ্ছিন্ন ক্রিয়া স্থানের জন্য একটি পৃথক মান ফাংশন রক্ষণাবেক্ষণ এবং মূল্যায়ন অযৌক্তিক হয়, বিশেষত যখন ক্রিয়া জায়গার অনেক মাত্রা থাকে ( মাত্রিকতার অভিশাপের কারণে )।
হ্যালো গুডবাই

উত্তর:


27

তারা বেশিরভাগই একই দেখায় যে ব্যতীত সারসায় আমরা প্রকৃত পদক্ষেপ নিই এবং কিউ লার্নিংয়ে আমরা সর্বাধিক পুরষ্কার সহকারে ব্যবস্থা গ্রহণ করি।

প্রকৃতপক্ষে আপনি উভয়ই আসল একক উত্পন্ন ক্রিয়া পরবর্তী " কিউ লার্নিংয়ে আপনি পরবর্তী পদক্ষেপের সর্বাধিক অনুমান থেকে অনুমানটি আপডেট করেন, আপনি কোন পদক্ষেপ নিয়েছেন তা নির্বিশেষে। সারসায় থাকা অবস্থায়, আপনি ভিত্তিক প্রাক্কলনগুলি আপডেট করে একই পদক্ষেপ নেন।at+1

এটি সম্ভবত আপনি প্রশ্নে "নেওয়া" বলতে চেয়েছিলেন, কিন্তু সাহিত্যে কোনও পদক্ষেপ নেওয়ার অর্থ এটি উদাহরণস্বরূপ of এর মান হয়ে যায় এবং , প্রভাবিত করে ।atrt+1st+1

এমন কোন তাত্ত্বিক বা ব্যবহারিক সেটিংস রয়েছে যেখানে একে অপরকে পছন্দ করা উচিত?

সারসএর তুলনায় কি-লার্নিংয়ের নিম্নলিখিত সুবিধা এবং অসুবিধা রয়েছে:

  • কিউ-লার্নিং সরাসরি অনুকূল নীতি শিখায়, যখন সার্সা অন্বেষণের সময় নিকটতম অনুকূল নীতি শিখে policy আপনি SARSA ব্যবহার করে একটি অনুকূল নীতি শিখতে চান, তাহলে আপনি একটি কৌশল সিদ্ধান্ত নেওয়ার প্রয়োজন হবে ক্ষয় করার মধ্যে -greedy কর্ম পছন্দ, যা সুর করার জন্য একটি fiddly hyperparameter হতে পারে।ϵϵ

  • কিউ-লার্নিং (এবং সাধারণভাবে অফ-পলিসি লার্নিং) এ সারসার তুলনায় প্রতি স্যাম্পল ভেরিয়েন্স বেশি থাকে এবং ফলস্বরূপ রূপান্তরিত সমস্যা হতে পারে। কিউ-লার্নিংয়ের মাধ্যমে নিউরাল নেটওয়ার্কগুলি প্রশিক্ষণ দেওয়ার সময় এটি সমস্যা হিসাবে দেখা দেয়।

  • সারসা অভিব্যক্তির কাছে যাবে অনুসন্ধানী পদক্ষেপগুলি থেকে সম্ভাব্য জরিমানার অনুমতি দিবে , যখন কিউ-শিক্ষণ এগুলি উপেক্ষা করবে। এটি সারসাকে আরও রক্ষণশীল করে তোলে - যদি অনুকূল পাথের খুব কাছাকাছি কোনও বড় নেতিবাচক পুরষ্কারের ঝুঁকি থাকে, তবে কি-লার্নিং অন্বেষণ করার সময় সেই পুরষ্কারটির দিকে ঝুঁকবে, যদিও সারসা একটি বিপজ্জনক অনুকূল পথ এড়াতে ঝুঁকবে এবং কেবল ধীরে ধীরে এটি ব্যবহার করতে শিখবে যখন অনুসন্ধানের পরামিতিগুলি হ্রাস করা হয়। ক্লাসিক খেলনা সমস্যা যা এই প্রভাবটি দেখায় তাকে ক্লিফ ওয়াকিং বলে

অনুশীলনে শেষ পয়েন্টটি যদি ভুল ব্যয়বহুল হয় তবে একটি বড় পার্থক্য আনতে পারে - যেমন আপনি কোনও রোবট প্রশিক্ষণ দিচ্ছেন সিমুলেশন নয়, আসল বিশ্বে। আপনি আরও বেশি রক্ষণশীল শেখার অ্যালগরিদম পছন্দ করতে পারেন যা উচ্চ ঝুঁকি এড়ায়, যদি রোবোটটি ক্ষতিগ্রস্থ হয় তবে সত্যিকারের সময় এবং অর্থ যদি ঝুঁকিতে থাকে।

যদি আপনার লক্ষ্য সিমুলেশন বা স্বল্প ব্যয় এবং দ্রুত-পুনরাবৃত্ত পরিবেশে একটি সর্বোত্তম এজেন্টকে প্রশিক্ষণ দেওয়া হয় তবে প্রথম পয়েন্টের কারণে (সরাসরি অনুকূল নীতি শিখতে হবে) সেক্ষেত্রে কিউ-লার্নিং ভাল পছন্দ। যদি আপনার এজেন্ট অনলাইনে শিখেন, এবং আপনি শেখার পরে প্রাপ্ত পুরষ্কারগুলি সম্পর্কে যত্নশীল হন , তবে সার্সা আরও ভাল পছন্দ হতে পারে।


আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.