শক্তিবৃদ্ধি শেখার ক্ষেত্রে ছাড়ের কারণের ভূমিকা বোঝা


43

আমি নিজেকে শক্তিবৃদ্ধি শেখার বিষয়ে শিক্ষা দিচ্ছি, এবং ছাড়ের পুরষ্কারের ধারণাটি বোঝার চেষ্টা করছি। সুতরাং পুরষ্কারটি সিস্টেমকে জানাতে প্রয়োজনীয় যে-স্টেট-অ্যাকশন জোড়া ভাল এবং কোনটি খারাপ। তবে আমি যা বুঝতে পারি না তা ছাড় ছাড়ের পুরষ্কার কেন দরকার। পরবর্তীকালের চেয়ে খুব শীঘ্রই একটি ভাল রাষ্ট্র পৌঁছাচ্ছে কিনা তা কেন বিবেচিত হবে?

আমি বুঝতে পারি যে এটি কিছু নির্দিষ্ট ক্ষেত্রে প্রাসঙ্গিক। উদাহরণস্বরূপ, আপনি যদি শেয়ার বাজারে বাণিজ্য করার জন্য পুনর্বহাল শেখার ব্যবহার করছেন, তবে পরে লাভের চেয়ে তাড়াতাড়ি লাভ করা আরও বেশি উপকারী। এটি কারণ যে সেই অর্থের অর্থ এখন আপনাকে সেই অর্থ দিয়ে জিনিসগুলি করার অনুমতি দেয় যা পরে সেই অর্থ দিয়ে জিনিসগুলি করার চেয়ে বেশি পছন্দসই।

তবে বেশিরভাগ ক্ষেত্রেই, ছাড়টি কেন দরকারী তা আমি দেখতে পাচ্ছি না। উদাহরণস্বরূপ, ধরা যাক যে আপনি কোনও রোবট চেয়েছিলেন যে কোনও রুমের অন্যদিকে কীভাবে চলাচল করতে হবে তা শিখতে হবে, যেখানে কোনও বাধার সাথে সংঘর্ষ হলে এটিতে শাস্তি রয়েছে। যদি কোনও ছাড়ের উপাদান না থাকে, তবে এটি কোনও প্রতিবন্ধকতার সাথে সংঘর্ষ না করে, অন্যদিকে নিখুঁতভাবে পৌঁছতে শিখবে। সেখানে যেতে খুব বেশি সময় লাগতে পারে তবে অবশেষে এটি সেখানে পৌঁছে যাবে।

তবে আমরা যদি পুরষ্কারের জন্য ছাড় দিই, তবে রোবটটি ঘরের অন্যদিকে দ্রুত পৌঁছানোর জন্য উত্সাহিত করা হবে, এমনকি যদি পথে পথে কোনও জিনিসগুলির সাথে সংঘর্ষ করতে হয় তবে। এটি স্পষ্টতই পছন্দসই ফলাফল নয়। অবশ্যই, আপনি রোবটটি দ্রুত অন্য দিকে যেতে চান, তবে এর অর্থ যদি না হয় যে এটির সাথে পথে কোনও জিনিসগুলির সাথে সংঘর্ষ করতে হবে।

সুতরাং আমার স্বজ্ঞাত হ'ল যে কোনও ধরণের ছাড়ের ফ্যাক্টর আসলে একটি উপ-অনুকূল সমাধানের দিকে নিয়ে যাবে। এবং ছাড়ের ফ্যাক্টরের পছন্দটি প্রায়শই স্বেচ্ছাসেবী মনে হয় - অনেকগুলি পদ্ধতি আমি দেখেছি এটি কেবল 0.9 এ সেট করে। এটি আমার কাছে খুব নির্বোধ বলে মনে হয় এবং এটি সর্বোত্তম সমাধান এবং দ্রুততম সমাধানের মধ্যে একটি স্বেচ্ছাসেবী বাণিজ্য বন্ধ বলে মনে হয়, যদিও বাস্তবে এই বাণিজ্য বন্ধ খুব গুরুত্বপূর্ণ।

দয়া করে কেউ আমাকে এই সমস্ত বুঝতে সাহায্য করতে পারে? ধন্যবাদ :)

উত্তর:


36

টি এল; ডিআর।

ছাড়ের হারটি 1 এর চেয়ে কম হতে সীমাবদ্ধ এই বিষয়টি অসীম অঙ্কের সীমাবদ্ধ করার একটি গাণিতিক কৌশল। এটি নির্দিষ্ট অ্যালগরিদমের সংযোগ প্রমাণ করতে সহায়তা করে।

বাস্তবে, ছাড়ের উপাদানটি পরবর্তী সিদ্ধান্তের তাত্ক্ষণিকভাবে বিশ্বের (যেমন, পরিবেশ / খেলা / প্রক্রিয়া ) শেষ হতে চলেছে কিনা তা সম্পর্কে সিদ্ধান্ত নির্ধারণকারী অনিশ্চিত এই মডেলটির জন্য ব্যবহার করতে পারেন ।

উদাহরণ স্বরূপ:

সিদ্ধান্ত গ্রহণকারী যদি একটি রোবট হয় তবে ছাড়ের কারণটি পরবর্তী সময়ে তাত্ক্ষণিকভাবে (পৃথিবীটি পূর্ববর্তী পরিভাষায় শেষ হয়) বন্ধ হওয়ার সম্ভাবনা হতে পারে। এই কারণেই রোবটটি স্বল্প দৃষ্টিশক্তিযুক্ত এবং সমষ্টি পুরষ্কারটিকে ছাড় দিচ্ছে না তবে ছাড়ের পরিমাণের পুরষ্কার।

1 ছাড়ের ছাড়ের ছাড়ের ফ্যাক্টর (বিশদভাবে)

আরও সুনির্দিষ্টভাবে উত্তর দেওয়ার জন্য, ছাড়ের হারটি কেন একের চেয়ে কম হতে হবে আমি প্রথমে মার্কভ সিদ্ধান্ত সিদ্ধান্ত (এমডিপি) প্রবর্তন করব।

এমডিপিগুলিকে সমাধান করতে শক্তিবৃদ্ধি শেখার কৌশলগুলি ব্যবহার করা যেতে পারে। সিদ্ধান্ত গ্রহণের পরিস্থিতিতে মডেলিংয়ের ক্ষেত্রে একটি এমডিপি একটি গাণিতিক কাঠামো সরবরাহ করে যেখানে ফলাফলগুলি আংশিকভাবে এলোমেলো এবং আংশিকভাবে সিদ্ধান্ত প্রস্তুতকারকের নিয়ন্ত্রণে থাকে। একটি এমডিপি একটি রাজ্য স্পেস , একটি অ্যাকশন স্পেস , রাজ্যগুলির মধ্যে স্থানান্তর সম্ভাবনার একটি ক্রিয়া (সিদ্ধান্ত গ্রহণকারীর দ্বারা গৃহীত পদক্ষেপের শর্তযুক্ত) এবং একটি পুরষ্কার কার্যের মাধ্যমে সংজ্ঞায়িত হয়।SA

এর বেসিক সেটিংয়ে সিদ্ধান্ত গ্রহণকারী গ্রহণ করে এবং তা গ্রহণ করে এবং পরিবেশের কাছ থেকে পুরষ্কার পায় এবং পরিবেশ তার অবস্থার পরিবর্তন করে। তারপরে সিদ্ধান্ত গ্রহণকারী পরিবেশের পরিস্থিতি অনুধাবন করে, একটি পদক্ষেপ নেয়, একটি পুরষ্কার পায় এবং আরও অনেক কিছু। রাষ্ট্রের রূপান্তরগুলি সম্ভাবনাযুক্ত এবং একমাত্র প্রকৃত অবস্থা এবং সিদ্ধান্ত গ্রহণকারী কর্তৃক গৃহীত পদক্ষেপের উপর নির্ভর করে। সিদ্ধান্ত গ্রহণকারীর দ্বারা প্রাপ্ত পুরষ্কারটি গৃহীত পদক্ষেপের উপর নির্ভর করে এবং পরিবেশের মূল এবং নতুন রাষ্ট্র উভয়ের উপর।

একটি পুরস্কার প্রাপ্ত যখন কর্ম নিচ্ছে রাজ্যের এবং রাষ্ট্র পরিবেশ / সিস্টেম পরিবর্তন সিদ্ধান্ত সৃষ্টিকর্তা কর্ম লাগে পর । সিদ্ধান্ত গ্রহণকারী একটি নীতি অনুসরণ করে, that, যে each প্রতিটি রাজ্যের for এর জন্য পদক্ষেপ নেয় । যাতে নীতিটি সিদ্ধান্ত গ্রহণকারীকে প্রতিটি রাজ্যে কোন পদক্ষেপ গ্রহণ করে তা বলে। নীতি এলোমেলোভাবে করা যেতে পারে তবে এটি আপাতত গুরুত্বপূর্ণ নয়।Rai(sj,sk)aisjskaiπ π():SAsjSaiAπ

উদ্দেশ্য একটি নীতি খুঁজে পেতে যেমন যেπ

maxπ:S(n)ailimTE{n=1TβnRxi(S(n),S(n+1))}(1),
যেখানে হল ছাড়ের উপাদান এবং ।ββ<1

নোট করুন যে উপরের অপ্টিমাইজেশনের সমস্যাটির অসীম সময় দিগন্ত রয়েছে ( ), এবং লক্ষ্যটি পুরষ্কারকে সর্বাধিক করে তোলা (পুরষ্কার দ্বারা গুণিত হয় )। একে সাধারণত অসীম দিগন্ত ছাড়ের পুরষ্কারের মানদণ্ডের সাথে এমডিপি সমস্যা বলা হয় ।TdiscountedRβn

সমস্যাটিকে বলা হয় কারণ । যদি এটি ছাড় ছাড় সমস্যা না হত যোগফলটি রূপান্তর করবে না। সমস্ত নীতিগুলি যা প্রতিটি সময়ে তাত্ক্ষণিকভাবে গড়ে একটি ইতিবাচক পুরষ্কার পেয়েছে তা অনন্তের সমষ্টি। এটি একটি অসীম দিগন্তের সমষ্টি পুরষ্কারের মানদণ্ড হবে এবং এটি একটি ভাল অপ্টিমাইজেশনের মানদণ্ড নয়।β<1β=1

আমি কী বলতে চাইছি তা এখানে দেখানোর জন্য এখানে খেলনার উদাহরণ রয়েছে:

ধরে নিন যে কেবল দুটি সম্ভাব্য ক্রিয়া রয়েছে এবং যে পুরষ্কার ফাংশন সমান যদি , এবং যদি (পুরষ্কার রাষ্ট্রের উপর নির্ভর করে না)।a=0,1R1a=10a=0

এটি নীতিটি পরিষ্কার যে আরও পুরষ্কার প্রাপ্ত হ'ল সর্বদা পদক্ষেপ নেওয়া এবং কখনই পদক্ষেপ না নেওয়া । আমি এই নীতিটিকে কল করব । আমি policy কে অন্য নীতিমালা i সাথে তুলনা করব যা ক্ষুদ্র সম্ভাবনার সাথে এবং অন্যথায় পদক্ষেপ নিয়ে অ পদক্ষেপ নেয় ।a=1a=0πππa=1α<<1a=0

অসীম দিগন্ত ছাড়ের পুরষ্কারের মানদণ্ডের সমীকরণ (1) নীতি for জন্য (জ্যামিতিক সিরিজের সমষ্টি ) হয়ে যায় policy সমীকরণ (1) হয়ে যায় । যেহেতু , আমরা বলতে যে চেয়ে ভাল নীতি । আসলে হ'ল অনুকূল নীতি।11βππα1β11β>α1βπππ

অসীম দিগন্তের সমষ্টি পুরষ্কারের মানদণ্ডে ( ) সমীকরণ (1) কোনও পলিসের জন্য রূপান্তর করে না (এটি অসীমের পরিমাণে যোগ হয়)। সুতরাং নীতি যেহেতু বেশী পুরষ্কার অর্জন উভয় নীতি এই মানদণ্ড অনুযায়ী সমান। অনন্ত দিগন্তের সমষ্টি পুরষ্কারের মানদণ্ড কার্যকর না হবার এক কারণ।β=1ππ

যেমনটি আমি আগেই বলেছি, সমীকরণ (1) রূপান্তর করে যোগফল তৈরি করার কৌশল করে।β<1

অন্যান্য অনুকূল মানদণ্ড

অন্যান্য অনুকূলিতকরণের মানদণ্ড রয়েছে যা that : চাপায় নাβ<1

সীমাবদ্ধ দিগন্তের মানদণ্ডের ক্ষেত্রে লক্ষ্যটি হল দিগন্ত until অবধি ছাড় ছাড়ের পুরষ্কারকে সর্বাধিক করে তোলাT

maxπ:S(n)aiE{n=1TβnRxi(S(n),S(n+1))},

জন্য এবং সসীম।β1T

ইন অসীম দিগন্ত গড় পুরস্কার মানদণ্ড উদ্দেশ্য হল

maxπ:S(n)ailimTE{n=1T1TRxi(S(n),S(n+1))},

শেষ নোট

অনুকূলতার মানদণ্ডের উপর নির্ভর করে অনুকূল নীতি সন্ধানের জন্য কেউ একটি পৃথক অ্যালগরিদম ব্যবহার করবে। উদাহরণস্বরূপ সীমাবদ্ধ দিগন্ত সমস্যার সর্বোত্তম নীতিগুলি রাষ্ট্র এবং আসল সময় তাত্ক্ষণিক উভয়ের উপর নির্ভর করে। সর্বাধিক প্রয়োগীকরণের শেখার অ্যালগরিদমগুলি (যেমন সারসএ বা কিউ-লার্নিং) কেবলমাত্র ছাড়ের পুরষ্কার অসীম দিগন্তের মানদণ্ডের জন্য অনুকূল নীতিতে রূপান্তরিত হয় (ডায়নামিক প্রোগ্রামিং অ্যালগরিদমের ক্ষেত্রে একই ঘটে)। গড় পুরষ্কারের মানদণ্ডের জন্য এমন কোনও অ্যালগরিদম নেই যা সর্বোত্তম নীতিতে রূপান্তরিত করতে দেখানো হয়েছে, তবে যে কেউ আর-লার্নিং ব্যবহার করতে পারেন যা ভাল তাত্ত্বিক রূপান্তর না হলেও ভাল পারফরম্যান্স রয়েছে।


1
আপনার উত্তরে সমস্ত চিনা বোঝার জন্য আমার কী পড়া উচিত?
থাইবাট নোয়া

@thibutnoah এটি আইএমএইচও হ'ল সেরা রেফারেন্স রিইনফোর্সমেন্ট লার্নিং: সাটন এবং বার্তোর একটি ভূমিকা from [
people.inf.elte.hu/lorincz/Files/RL_2006/SuttonBook.pdf


6

তুমি ঠিক ছাড় ফ্যাক্টর (তথাকথিত - দয়া করে মনে রাখবেন এই তুলনায় ভিন্ন TD- থেকে ) একজন "জীবনের জরুরি" মত কাজ করে এবং এর ফলে হয় সমস্যার একটা অংশ - ঠিক যেমন হয় মানবজীবন: কিছু লোক এমনভাবে বেঁচে থাকে যেন তারা চিরকাল বেঁচে থাকবে; কিছু লোক বেঁচে থাকে যেন তারা আগামীকাল মরতে চলেছে।γλλ


2

টিএল; ডিআর: ছাড়ের কারণগুলি সময়ের দিগন্তের সাথে যুক্ত। দীর্ঘ সময়ের দিগন্তের আরও বৈকল্পিকতা রয়েছে কারণ এগুলিতে আরও অপ্রাসঙ্গিক তথ্য রয়েছে, যখন স্বল্প সময়ের দিগন্তগুলি কেবল স্বল্প-মেয়াদী লাভের দিকে পক্ষপাতদুষ্ট থাকে

ছাড়ের উপাদানটি মূলত নির্ধারণ করে যে সংযুক্তি শিক্ষার এজেন্টরা নিকট ভবিষ্যতের তুলনায় সুদূর ভবিষ্যতে পুরষ্কারের বিষয়ে কতটা যত্নশীল। যদি তবে এজেন্ট পুরোপুরি মায়োপিক হবে এবং কেবলমাত্র এমন ক্রিয়া সম্পর্কে শিখবে যা তাত্ক্ষণিক প্রতিদান দেয়। যদি , এজেন্ট তার ভবিষ্যতের সমস্ত পুরষ্কারের মোটের উপর ভিত্তি করে এর প্রতিটি ক্রিয়াকলাপের মূল্যায়ন করবে।γ=0γ=1

তাহলে আপনি কেন সর্বদা যতটা সম্ভব উচ্চতর করতে চান না ? ভাল, বেশিরভাগ ক্রিয়ায় দীর্ঘস্থায়ী প্রতিকূলতা নেই। উদাহরণস্বরূপ, ধরুন যে প্রতিমাসের প্রথম দিনে আপনি নিজেকে একটি স্মুথিকে চিকিত্সা করার সিদ্ধান্ত নিয়েছেন এবং আপনি ব্লুবেরি স্মুডি বা স্ট্রবেরি স্মুদি পাবেন কিনা তা আপনাকে সিদ্ধান্ত নিতে হবে। একজন ভাল সংশোধনকারী শিক্ষার্থী হিসাবে, আপনার পরবর্তী পুরষ্কারগুলি কত বড় তা আপনি নিজের সিদ্ধান্তের গুণমানটি বিচার করেন। যদি আপনার সময়ের দিগন্ত খুব সংক্ষিপ্ত হয় তবে আপনি কেবল তাত্ক্ষণিক পুরষ্কারের কারণ হয়ে উঠবেন, যেমন আপনার স্মুদিটি কত সুস্বাদু। দীর্ঘ সময়ের দিগন্তের সাথে কয়েক ঘন্টার মতো আপনি আপসেট পেট পেলেন বা না পেয়েও আপনি এমন বিষয়গুলিতে ফ্যাক্টর তৈরি করতে পারেন। তবে যদি আপনার সময়ের দিগন্তটি পুরো মাস পর্যন্ত স্থায়ী হয় তবে প্রতিটি একক জিনিস যা আপনাকে পুরো মাসের জন্য ভাল বা খারাপ বলে মনে করেγআপনি সঠিক মসৃণ সিদ্ধান্ত নিয়েছেন কিনা তা আপনার রায়কে বিবেচনা করবে। আপনি প্রচুর অপ্রাসঙ্গিক তথ্যগুলিতে ফ্যাক্টরিং করবেন, এবং সেইজন্য আপনার বিচারের বিশাল বৈচিত্র হবে এবং এটি শিখতে অসুবিধা হবে।

গামার একটি নির্দিষ্ট মান বাছাই করা সময় দিগন্ত বাছাইয়ের সমতুল্য। এটি কোনও এজেন্টের পুরষ্কার কে হিসাবে লিখতে সহায়তা করে I যেখানে আমি সনাক্ত করি এবং । মান স্পষ্টভাবে ডিসকাউন্ট ফ্যাক্টরের সাথে সম্পর্কিত সময় দিগন্তকে দেখায়; সাথে সঙ্গতিপূর্ণ , এবং যে কোনো পুরস্কারের যে আরো অনেক তুলনায়γG

Gt=Rt+γRt+1+γ2Rt+2+=k=0γkRt+k=Δt=0eΔt/τRt+Δt
γ=e1/τkΔtτγ=1τ=τভবিষ্যতে সময়ের পদক্ষেপগুলি দ্রুতভাবে দমন করা হয়। আপনার সাধারণত একটি ছাড়ের ফ্যাক্টর বাছাই করা উচিত যে সময় দিগন্তে একটি নির্দিষ্ট ক্রিয়াকলাপের জন্য সমস্ত প্রাসঙ্গিক পুরষ্কার থাকে তবে আর কোনও কিছু নয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.