মান পুনরাবৃত্তি এবং নীতি পুনরাবৃত্তির মধ্যে পার্থক্য কী?

Question 1

শক্তিবৃদ্ধি শেখার ক্ষেত্রে, নীতি পুনরাবৃত্তি এবং মান পুনরাবৃত্তির মধ্যে পার্থক্য কী ?

আমি যতটা বুঝতে পারি, মান পুনরাবৃত্তিতে আপনি নীতিমালার নীতি সমাধানের জন্য বেলম্যান সমীকরণটি ব্যবহার করেন, অন্যদিকে, নীতি পুনরাবৃত্তিতে, আপনি এলোমেলোভাবে একটি নীতি নির্বাচন করেন π, এবং সেই নীতিটির পুরষ্কার পান।

আমার সন্দেহ হ'ল আপনি যদি পিআই তে কোনও র্যান্ডম পলিসিটি বেছে নিচ্ছেন তবে আমরা বেশ কয়েকটি এলোমেলো নীতি বেছে নিলেও, এটি কীভাবে সর্বোত্তম নীতি হিসাবে গ্যারান্টিযুক্ত?

Question 2

পাশাপাশি তাদের তাকান। তুলনার জন্য মূল অংশগুলি হাইলাইট করা হয়েছে। চিত্রগুলি সুটন এবং বার্তোর বই: রিইনফোর্সমেন্ট লার্নিং: একটি পরিচিতি থেকে প্রাপ্ত ।

গুরুত্বপূর্ণ দিক:

নীতি পুনরাবৃত্তির মধ্যে রয়েছে: নীতি মূল্যায়ন + নীতি উন্নতি এবং নীতি রূপান্তর না হওয়া পর্যন্ত দুটি পুনরাবৃত্তভাবে পুনরাবৃত্তি হয়।
মান পুনরাবৃত্তির মধ্যে রয়েছে: অনুকূল মান ফাংশন + এক নীতি নিষ্কাশন । দুটির কোনও পুনরাবৃত্তি নেই কারণ একবার মান ফাংশনটি সর্বোত্তম হয়ে যায়, তারপরে নীতিটিও সর্বোত্তম হওয়া উচিত (অর্থাত্ রূপান্তরিত)।
অনুকূল মান ফাংশন সন্ধানকে নীতি উন্নতি (সর্বাধিকের কারণে) এবং ছাঁটাই নীতি মূল্যায়নের সংমিশ্রণ হিসাবেও দেখা যেতে পারে (কনভার্সেশন নির্বিশেষে সমস্ত রাজ্যের কেবল একটি ঝাড়ু পরে v_ (গুলি) পুনরায় নিয়োগ)।
নীতিমালা মূল্যায়ন এবং সর্বাধিক মান ফাংশন সন্ধানের জন্য অ্যালগরিদমগুলি সর্বাধিক ক্রিয়াকলাপ বাদে সর্বাধিক অনুরূপ (হাইলাইট হিসাবে)
একইভাবে, নীতি উন্নতি এবং নীতি উত্তোলনের মূল পদক্ষেপটি পূর্ববর্তী স্থিতিশীলতার জন্য জড়িত ব্যতীত অভিন্ন।

আমার অভিজ্ঞতায়, নীতি পুনরাবৃত্তি মান পুনরাবৃত্তির চেয়ে দ্রুত হয় , কারণ কোনও নীতি একটি মান ফাংশনের চেয়ে আরও দ্রুত রূপান্তর করে। আমার মনে আছে এটি বইতেও বর্ণিত হয়েছে।

আমি অনুমান করি যে বিভ্রান্তিটি মূলত এই সমস্ত কিছু অনুরূপ পদ থেকে এসেছে, যা আমাকে আগেও বিভ্রান্ত করেছিল।

Question 3

ইন নীতি পুনরাবৃত্তির আলগোরিদিম, আপনি একটা র্যান্ডম নীতি দিয়ে শুরু, তাহলে সেই নীতি (পলিসি মূল্যায়ন পদক্ষেপ) এর মান ফাংশন পাও, তবে পূর্ববর্তী মান ফাংশন উপর ভিত্তি করে একটি নতুন (উন্নত) নীতি, এবং তাই। এই প্রক্রিয়াতে, প্রতিটি নীতিই পূর্ববর্তীটির তুলনায় (এটি ইতিমধ্যে অনুকূল না হওয়া পর্যন্ত) একটি কঠোর উন্নতির গ্যারান্টিযুক্ত। একটি নীতি দেওয়া হয়েছে, বেলম্যান অপারেটর ব্যবহার করে এর মান ফাংশন পাওয়া যাবে ।

ইন মান পুনরাবৃত্তির , আপনি একটা র্যান্ডম মান ফাংশন দিয়ে শুরু এবং তারপর অনুকূল মান ফাংশন পৌঁছনো পর্যন্ত, একটি নতুন (উন্নত) মান একটি প্রক্রিয়া পুনরাবৃত্ত ফাংশন পাবেন। লক্ষ্য করুন যে আপনি সর্বোত্তম মান ফাংশন থেকে সহজেই সর্বোত্তম নীতি অর্জন করতে পারেন। এই প্রক্রিয়াটি অনুকূলতা বেলম্যান অপারেটরের উপর ভিত্তি করে ।

কিছুটা অর্থে, উভয় অ্যালগরিদম একই কাজের নীতি ভাগ করে, এবং এগুলিকে সাধারণীকরণ নীতি পুনরাবৃত্তির দুটি ক্ষেত্রে দেখা যায় । তবে সর্বোত্তমতা বেলম্যান অপারেটরটিতে একটি সর্বাধিক অপারেটর রয়েছে , যা লিনিয়ার নয় এবং তাই এর বিভিন্ন বৈশিষ্ট্য রয়েছে। অতিরিক্ত, বিশুদ্ধ মান পুনরাবৃত্তি এবং খাঁটি নীতি পুনরাবৃত্তির মধ্যে সংকর পদ্ধতি ব্যবহার করা সম্ভব।

Question 4

মূল পার্থক্যটি হ'ল -

ইন নীতি পুনরাবৃত্তিতে - তুমি এলোমেলোভাবে একটি পলিসি নির্বাচন করতে এবং মান ফাংশন এটি সংশ্লিষ্ট পাও, তবে পূর্ববর্তী মান ফাংশন উপর ভিত্তি করে একটি নতুন (উন্নত) নীতি খুঁজে, এবং তাই এই অনুকূল নীতি হতে হবে।

ইন মূল্য পুনরাবৃত্তিতে - তুমি এলোমেলোভাবে একটি মান ফাংশন নির্বাচন করুন, তারপর অনুকূল মান ফাংশন যা অনুকূল মান ফাংশন থেকে, তারপর আহরণ অনুকূল নীতি পৌঁছনো পর্যন্ত, একটি নতুন (উন্নত) মান একটি প্রক্রিয়া পুনরাবৃত্ত ফাংশন পাবেন।

নীতি পুনরাবৃত্তি "নীতি মূল্যায়ন -> নীতি উন্নতি" নীতিতে কাজ করে।

মান সনাক্তকরণ "অনুকূল মান ফাংশন-> সর্বোত্তম নীতি" নীতিতে কাজ করে।

Question 5

আমি যতটা উদ্বিগ্ন, @ এনজিকু'র ধারণার বিপরীতে, ষষ্ঠটি পিআইয়ের চেয়ে সাধারণত খুব দ্রুত ।

কারণটি খুব সোজা, আপনি ইতিমধ্যে জানেন যে বেলম্যান সমীকরণ প্রদত্ত নীতিমালার জন্য মান ফাংশন সমাধান করার জন্য ব্যবহৃত হয়। যেহেতু আমরা সরাসরি সর্বোত্তম নীতিমালার জন্য মান ফাংশনটি সমাধান করতে পারি , বর্তমান নীতিমালার জন্য মান ফাংশন সমাধান করা স্পষ্টতই সময়ের অপচয়।

পিআই এর রূপান্তর সম্পর্কে আপনার প্রশ্ন হিসাবে, আমি মনে করি আপনি যদি প্রতিটি তথ্য রাষ্ট্রের জন্য কৌশলটি উন্নত করেন তবে আপনি পুরো গেমের কৌশলটি উন্নত করতে পারেন এই সত্যটি আপনি উপেক্ষা করতে পারেন। এটি প্রমাণ করাও সহজ, যদি আপনি কাউন্টারফ্যাক্টুয়াল আফসোস মিনিমাইজেশনের সাথে পরিচিত হন - প্রতিটি তথ্য রাষ্ট্রের জন্য আফসোসের যোগফল সামগ্রিক আফসোসের উপরের অংশটি তৈরি করে, এবং এইভাবে প্রতিটি রাষ্ট্রের জন্য আফসোসকে হ্রাস করে সামগ্রিক আক্ষেপকে কমিয়ে দেয়, যা অনুকূল নীতি বাড়ে।

Question 6

গতিতে প্রধান পার্থক্য হ'ল মান পুনরাবৃত্তির (ষষ্ঠ) প্রতিটি পুনরাবৃত্তিতে সর্বাধিক ক্রিয়াকলাপের কারণে।

VI ষ্ঠিতে প্রতিটি রাজ্য আপডেট হওয়া ইউটিলিটি মান গণনা করার জন্য মাত্র একটি ক্রিয়া (সর্বাধিক ইউটিলিটি মান সহ) ব্যবহার করবে তবে বেলম্যান সমীকরণের মাধ্যমে এই ক্রিয়াটি সন্ধান করার জন্য প্রথমে সমস্ত সম্ভাব্য ক্রিয়াগুলির মূল্য গণনা করতে হবে।

নীতি পুনরাবৃত্তিতে (পিআই), ক্রিয়াটি বেছে নেওয়ার জন্য মধ্যবর্তী নীতি অনুসরণ করে এই সর্বাধিক অপারেশনটি পদক্ষেপ 1 (নীতি মূল্যায়ন) এ বাদ দেওয়া হয়।

যদি এন সম্ভাব্য ক্রিয়া থাকে তবে ষষ্ঠকে প্রতিটি রাজ্যের জন্য বেলম্যান সমীকরণ N বার গণনা করতে হবে এবং তারপরে সর্বাধিক নিতে হবে, যেখানে পিআই কেবল একবার এটি গণনা করে (বর্তমান নীতি দ্বারা বর্ণিত ক্রিয়াটির জন্য)।

তবে পিআই-তে, একটি নীতি উন্নতির পদক্ষেপ রয়েছে যা এখনও সর্বাধিক অপারেটর ব্যবহার করে এবং ষষ্ঠ ধাপের মতো ধীর হয় তবে পিআই যেহেতু কম পুনরাবৃত্তিতে রূপান্তরিত হয় তাই এই পদক্ষেপটি ষষ্ঠীর মতো ঘটবে না।