মান পুনরাবৃত্তি এবং নীতি পুনরাবৃত্তির মধ্যে পার্থক্য কী?


98

শক্তিবৃদ্ধি শেখার ক্ষেত্রে, নীতি পুনরাবৃত্তি এবং মান পুনরাবৃত্তির মধ্যে পার্থক্য কী ?

আমি যতটা বুঝতে পারি, মান পুনরাবৃত্তিতে আপনি নীতিমালার নীতি সমাধানের জন্য বেলম্যান সমীকরণটি ব্যবহার করেন, অন্যদিকে, নীতি পুনরাবৃত্তিতে, আপনি এলোমেলোভাবে একটি নীতি নির্বাচন করেন π, এবং সেই নীতিটির পুরষ্কার পান।

আমার সন্দেহ হ'ল আপনি যদি পিআই তে কোনও র্যান্ডম পলিসিটি বেছে নিচ্ছেন তবে আমরা বেশ কয়েকটি এলোমেলো নীতি বেছে নিলেও, এটি কীভাবে সর্বোত্তম নীতি হিসাবে গ্যারান্টিযুক্ত?


13
এই প্রশ্নটি ii.stackexchange.com , stats.stackexchange.com বা ডেটাসায়েন্স.স্ট্যাকেক্সেঞ্জ.কম এর মতো ওয়েবসাইটগুলিতে জিজ্ঞাসা করা আরও উপযুক্ত হবে ।
nbro

উত্তর:


128

পাশাপাশি তাদের তাকান। তুলনার জন্য মূল অংশগুলি হাইলাইট করা হয়েছে। চিত্রগুলি সুটন এবং বার্তোর বই: রিইনফোর্সমেন্ট লার্নিং: একটি পরিচিতি থেকে প্রাপ্ত

এখানে চিত্র বর্ণনা লিখুন গুরুত্বপূর্ণ দিক:

  1. নীতি পুনরাবৃত্তির মধ্যে রয়েছে: নীতি মূল্যায়ন + নীতি উন্নতি এবং নীতি রূপান্তর না হওয়া পর্যন্ত দুটি পুনরাবৃত্তভাবে পুনরাবৃত্তি হয়।
  2. মান পুনরাবৃত্তির মধ্যে রয়েছে: অনুকূল মান ফাংশন + এক নীতি নিষ্কাশন । দুটির কোনও পুনরাবৃত্তি নেই কারণ একবার মান ফাংশনটি সর্বোত্তম হয়ে যায়, তারপরে নীতিটিও সর্বোত্তম হওয়া উচিত (অর্থাত্ রূপান্তরিত)।
  3. অনুকূল মান ফাংশন সন্ধানকে নীতি উন্নতি (সর্বাধিকের কারণে) এবং ছাঁটাই নীতি মূল্যায়নের সংমিশ্রণ হিসাবেও দেখা যেতে পারে (কনভার্সেশন নির্বিশেষে সমস্ত রাজ্যের কেবল একটি ঝাড়ু পরে v_ (গুলি) পুনরায় নিয়োগ)।
  4. নীতিমালা মূল্যায়ন এবং সর্বাধিক মান ফাংশন সন্ধানের জন্য অ্যালগরিদমগুলি সর্বাধিক ক্রিয়াকলাপ বাদে সর্বাধিক অনুরূপ (হাইলাইট হিসাবে)
  5. একইভাবে, নীতি উন্নতি এবং নীতি উত্তোলনের মূল পদক্ষেপটি পূর্ববর্তী স্থিতিশীলতার জন্য জড়িত ব্যতীত অভিন্ন।

আমার অভিজ্ঞতায়, নীতি পুনরাবৃত্তি মান পুনরাবৃত্তির চেয়ে দ্রুত হয় , কারণ কোনও নীতি একটি মান ফাংশনের চেয়ে আরও দ্রুত রূপান্তর করে। আমার মনে আছে এটি বইতেও বর্ণিত হয়েছে।

আমি অনুমান করি যে বিভ্রান্তিটি মূলত এই সমস্ত কিছু অনুরূপ পদ থেকে এসেছে, যা আমাকে আগেও বিভ্রান্ত করেছিল।


4
আমি সম্মত হই যে নীতি পুনরাবৃত্তি কম পুনরাবৃত্তিতে রূপান্তরিত করে এবং আমি বেশ কয়েকটি জায়গায় পড়েছি যে এটি দ্রুত। আমি বুড়াপে উভয় পদ্ধতির সাথে কিছু সাধারণ বাক্স-বিশ্ব এবং ধাঁধা সমাধানের পরীক্ষা-নিরীক্ষা করেছি। আমি দেখতে পেলাম যে মান পুনরাবৃত্তি আরও পুনরাবৃত্তি সম্পাদন করে তবে কনভার্সনে পৌঁছাতে কম সময় নেয়। ওয়াইএমএমভি
রায়ান

4
@ ক্রোম, আপনার ওপ্পোসাইটটি পড়া উচিত ছিল। বইটির একটি উদ্ধৃতি এখানে দেওয়া হয়েছে, " নীতি পুনরাবৃত্তি প্রায়শই আশ্চর্যজনকভাবে কয়েকটি পুনরাবৃত্তিতে রূপান্তরিত করে This চিত্র 4.1 এর উদাহরণ দ্বারা এটি চিত্রিত হয়েছে। " বইটির 2017nov5 সংস্করণের পৃষ্ঠা 65 থেকে from
zyxue

4
হ্যাঁ, আমি গ্রিড বিশ্বের বিভিন্ন স্বাদের সাথে খেলেছি। আমি কেবল ইঙ্গিত করার চেষ্টা করছিলাম যে পুনরাবৃত্তির ক্ষেত্রে "দ্রুত" সম্ভবত পিআই-র পক্ষে যেতে চাইছে। তবে সেকেন্ডের ক্ষেত্রে "দ্রুত" আসলে ষষ্ঠের পক্ষে হতে পারে।
রায়ান

4
স্পষ্ট করতে, নীতি পুনরাবৃত্তি কম পুনরাবৃত্তি গ্রহণ করবে তবে মান পুনরাবৃত্তির চেয়ে গণনামূলক জটিল; এক দ্রুত যা পরিবেশের উপর নির্ভর করে।
আরএফ নেলসন

4
আমি জানি এটি একটি পুরানো পোস্ট। তবে আমি অত্যন্ত পরামর্শ দিচ্ছি, এটিকে ( मध्यम.com/@m.alzantot/… ) সন্ধান করে লিঙ্কটি একটি কোড সরবরাহ করে এবং এটি আমার জন্য এটি আরও পরিষ্কার করে তুলেছে।
টেন্ডেম

76

ইন নীতি পুনরাবৃত্তির আলগোরিদিম, আপনি একটা র্যান্ডম নীতি দিয়ে শুরু, তাহলে সেই নীতি (পলিসি মূল্যায়ন পদক্ষেপ) এর মান ফাংশন পাও, তবে পূর্ববর্তী মান ফাংশন উপর ভিত্তি করে একটি নতুন (উন্নত) নীতি, এবং তাই। এই প্রক্রিয়াতে, প্রতিটি নীতিই পূর্ববর্তীটির তুলনায় (এটি ইতিমধ্যে অনুকূল না হওয়া পর্যন্ত) একটি কঠোর উন্নতির গ্যারান্টিযুক্ত। একটি নীতি দেওয়া হয়েছে, বেলম্যান অপারেটর ব্যবহার করে এর মান ফাংশন পাওয়া যাবে ।

ইন মান পুনরাবৃত্তির , আপনি একটা র্যান্ডম মান ফাংশন দিয়ে শুরু এবং তারপর অনুকূল মান ফাংশন পৌঁছনো পর্যন্ত, একটি নতুন (উন্নত) মান একটি প্রক্রিয়া পুনরাবৃত্ত ফাংশন পাবেন। লক্ষ্য করুন যে আপনি সর্বোত্তম মান ফাংশন থেকে সহজেই সর্বোত্তম নীতি অর্জন করতে পারেন। এই প্রক্রিয়াটি অনুকূলতা বেলম্যান অপারেটরের উপর ভিত্তি করে ।

কিছুটা অর্থে, উভয় অ্যালগরিদম একই কাজের নীতি ভাগ করে, এবং এগুলিকে সাধারণীকরণ নীতি পুনরাবৃত্তির দুটি ক্ষেত্রে দেখা যায় । তবে সর্বোত্তমতা বেলম্যান অপারেটরটিতে একটি সর্বাধিক অপারেটর রয়েছে , যা লিনিয়ার নয় এবং তাই এর বিভিন্ন বৈশিষ্ট্য রয়েছে। অতিরিক্ত, বিশুদ্ধ মান পুনরাবৃত্তি এবং খাঁটি নীতি পুনরাবৃত্তির মধ্যে সংকর পদ্ধতি ব্যবহার করা সম্ভব।


4
এটি সম্পর্কে সুন্দর বর্ণনা। ভাল আমাকে এই জিনিসটি নীতি পুনরাবৃত্তিতে যুক্ত করতে দিন এটি বেলম্যান প্রত্যাশা সমীকরণ এবং মান পুনরাবৃত্তিতে মেলম্যান সর্বাধিক সমীকরণ ব্যবহার করে। মান পুনরাবৃত্তির জন্য এটি কম পুনরাবৃত্তি হতে পারে তবে একটি পুনরাবৃত্তির জন্য এখানে অনেক বেশি কাজ হতে পারে। নীতি পুনরাবৃত্তির জন্য আরও পুনরাবৃত্তির জন্য
শামনে সিরীবর্ধান hana

নীতি পুনরাবৃত্তির পাশাপাশি কোনও সর্বোচ্চ অপারেটর নেই? অন্যথায় কিভাবে নতুন মান ফাংশনের উপর ভিত্তি করে পলিসি আপডেট করবেন?
Huangzonghao

না, সারস অ্যালগরিদম নীতি পুনরাবৃত্তির একটি আদর্শ উদাহরণ। আপনি এই সিউডো কোডটিতে দেখতে পারেন ( অসম্পূর্ণতা.না. / পুস্তক / ওয়েবসাইট / নোড 64৪৪.এইচটিএমএল ), মান ফাংশন আপডেটে কোনও সর্বোচ্চ অপারেটর নেই। যাইহোক, যদি আপনি মান ফাংশন (অর্থাত্ লোভী ক্রিয়া) থেকে সেরা ক্রিয়াকলাপগুলি বেছে নেওয়ার জন্য সর্বাধিক অপারেটর বোঝায়, হ্যাঁ, এই জাতীয় প্রক্রিয়াটিতে সর্বাধিক অপারেশন রয়েছে।
পাবলো ইএম

12

মূল পার্থক্যটি হ'ল -

ইন নীতি পুনরাবৃত্তিতে - তুমি এলোমেলোভাবে একটি পলিসি নির্বাচন করতে এবং মান ফাংশন এটি সংশ্লিষ্ট পাও, তবে পূর্ববর্তী মান ফাংশন উপর ভিত্তি করে একটি নতুন (উন্নত) নীতি খুঁজে, এবং তাই এই অনুকূল নীতি হতে হবে।

ইন মূল্য পুনরাবৃত্তিতে - তুমি এলোমেলোভাবে একটি মান ফাংশন নির্বাচন করুন, তারপর অনুকূল মান ফাংশন যা অনুকূল মান ফাংশন থেকে, তারপর আহরণ অনুকূল নীতি পৌঁছনো পর্যন্ত, একটি নতুন (উন্নত) মান একটি প্রক্রিয়া পুনরাবৃত্ত ফাংশন পাবেন।

নীতি পুনরাবৃত্তি "নীতি মূল্যায়ন -> নীতি উন্নতি" নীতিতে কাজ করে।

মান সনাক্তকরণ "অনুকূল মান ফাংশন-> সর্বোত্তম নীতি" নীতিতে কাজ করে।


0

আমি যতটা উদ্বিগ্ন, @ এনজিকু'র ধারণার বিপরীতে, ষষ্ঠটি পিআইয়ের চেয়ে সাধারণত খুব দ্রুত

কারণটি খুব সোজা, আপনি ইতিমধ্যে জানেন যে বেলম্যান সমীকরণ প্রদত্ত নীতিমালার জন্য মান ফাংশন সমাধান করার জন্য ব্যবহৃত হয়। যেহেতু আমরা সরাসরি সর্বোত্তম নীতিমালার জন্য মান ফাংশনটি সমাধান করতে পারি , বর্তমান নীতিমালার জন্য মান ফাংশন সমাধান করা স্পষ্টতই সময়ের অপচয়।

পিআই এর রূপান্তর সম্পর্কে আপনার প্রশ্ন হিসাবে, আমি মনে করি আপনি যদি প্রতিটি তথ্য রাষ্ট্রের জন্য কৌশলটি উন্নত করেন তবে আপনি পুরো গেমের কৌশলটি উন্নত করতে পারেন এই সত্যটি আপনি উপেক্ষা করতে পারেন। এটি প্রমাণ করাও সহজ, যদি আপনি কাউন্টারফ্যাক্টুয়াল আফসোস মিনিমাইজেশনের সাথে পরিচিত হন - প্রতিটি তথ্য রাষ্ট্রের জন্য আফসোসের যোগফল সামগ্রিক আফসোসের উপরের অংশটি তৈরি করে, এবং এইভাবে প্রতিটি রাষ্ট্রের জন্য আফসোসকে হ্রাস করে সামগ্রিক আক্ষেপকে কমিয়ে দেয়, যা অনুকূল নীতি বাড়ে।


0

গতিতে প্রধান পার্থক্য হ'ল মান পুনরাবৃত্তির (ষষ্ঠ) প্রতিটি পুনরাবৃত্তিতে সর্বাধিক ক্রিয়াকলাপের কারণে।

VI ষ্ঠিতে প্রতিটি রাজ্য আপডেট হওয়া ইউটিলিটি মান গণনা করার জন্য মাত্র একটি ক্রিয়া (সর্বাধিক ইউটিলিটি মান সহ) ব্যবহার করবে তবে বেলম্যান সমীকরণের মাধ্যমে এই ক্রিয়াটি সন্ধান করার জন্য প্রথমে সমস্ত সম্ভাব্য ক্রিয়াগুলির মূল্য গণনা করতে হবে।

নীতি পুনরাবৃত্তিতে (পিআই), ক্রিয়াটি বেছে নেওয়ার জন্য মধ্যবর্তী নীতি অনুসরণ করে এই সর্বাধিক অপারেশনটি পদক্ষেপ 1 (নীতি মূল্যায়ন) এ বাদ দেওয়া হয়।

যদি এন সম্ভাব্য ক্রিয়া থাকে তবে ষষ্ঠকে প্রতিটি রাজ্যের জন্য বেলম্যান সমীকরণ N বার গণনা করতে হবে এবং তারপরে সর্বাধিক নিতে হবে, যেখানে পিআই কেবল একবার এটি গণনা করে (বর্তমান নীতি দ্বারা বর্ণিত ক্রিয়াটির জন্য)।

তবে পিআই-তে, একটি নীতি উন্নতির পদক্ষেপ রয়েছে যা এখনও সর্বাধিক অপারেটর ব্যবহার করে এবং ষষ্ঠ ধাপের মতো ধীর হয় তবে পিআই যেহেতু কম পুনরাবৃত্তিতে রূপান্তরিত হয় তাই এই পদক্ষেপটি ষষ্ঠীর মতো ঘটবে না।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.