টি এল; ডিআর।
ছাড়ের হারটি 1 এর চেয়ে কম হতে সীমাবদ্ধ এই বিষয়টি অসীম অঙ্কের সীমাবদ্ধ করার একটি গাণিতিক কৌশল। এটি নির্দিষ্ট অ্যালগরিদমের সংযোগ প্রমাণ করতে সহায়তা করে।
বাস্তবে, ছাড়ের উপাদানটি পরবর্তী সিদ্ধান্তের তাত্ক্ষণিকভাবে বিশ্বের (যেমন, পরিবেশ / খেলা / প্রক্রিয়া ) শেষ হতে চলেছে কিনা তা সম্পর্কে সিদ্ধান্ত নির্ধারণকারী অনিশ্চিত এই মডেলটির জন্য ব্যবহার করতে পারেন ।
উদাহরণ স্বরূপ:
সিদ্ধান্ত গ্রহণকারী যদি একটি রোবট হয় তবে ছাড়ের কারণটি পরবর্তী সময়ে তাত্ক্ষণিকভাবে (পৃথিবীটি পূর্ববর্তী পরিভাষায় শেষ হয়) বন্ধ হওয়ার সম্ভাবনা হতে পারে। এই কারণেই রোবটটি স্বল্প দৃষ্টিশক্তিযুক্ত এবং সমষ্টি পুরষ্কারটিকে ছাড় দিচ্ছে না তবে
ছাড়ের পরিমাণের পুরষ্কার।
1 ছাড়ের ছাড়ের ছাড়ের ফ্যাক্টর (বিশদভাবে)
আরও সুনির্দিষ্টভাবে উত্তর দেওয়ার জন্য, ছাড়ের হারটি কেন একের চেয়ে কম হতে হবে আমি প্রথমে মার্কভ সিদ্ধান্ত সিদ্ধান্ত (এমডিপি) প্রবর্তন করব।
এমডিপিগুলিকে সমাধান করতে শক্তিবৃদ্ধি শেখার কৌশলগুলি ব্যবহার করা যেতে পারে। সিদ্ধান্ত গ্রহণের পরিস্থিতিতে মডেলিংয়ের ক্ষেত্রে একটি এমডিপি একটি গাণিতিক কাঠামো সরবরাহ করে যেখানে ফলাফলগুলি আংশিকভাবে এলোমেলো এবং আংশিকভাবে সিদ্ধান্ত প্রস্তুতকারকের নিয়ন্ত্রণে থাকে। একটি এমডিপি একটি রাজ্য স্পেস , একটি অ্যাকশন স্পেস , রাজ্যগুলির মধ্যে স্থানান্তর সম্ভাবনার একটি ক্রিয়া (সিদ্ধান্ত গ্রহণকারীর দ্বারা গৃহীত পদক্ষেপের শর্তযুক্ত) এবং একটি পুরষ্কার কার্যের মাধ্যমে সংজ্ঞায়িত হয়।SA
এর বেসিক সেটিংয়ে সিদ্ধান্ত গ্রহণকারী গ্রহণ করে এবং তা গ্রহণ করে এবং পরিবেশের কাছ থেকে পুরষ্কার পায় এবং পরিবেশ তার অবস্থার পরিবর্তন করে। তারপরে সিদ্ধান্ত গ্রহণকারী পরিবেশের পরিস্থিতি অনুধাবন করে, একটি পদক্ষেপ নেয়, একটি পুরষ্কার পায় এবং আরও অনেক কিছু। রাষ্ট্রের রূপান্তরগুলি সম্ভাবনাযুক্ত এবং একমাত্র প্রকৃত অবস্থা এবং সিদ্ধান্ত গ্রহণকারী কর্তৃক গৃহীত পদক্ষেপের উপর নির্ভর করে। সিদ্ধান্ত গ্রহণকারীর দ্বারা প্রাপ্ত পুরষ্কারটি গৃহীত পদক্ষেপের উপর নির্ভর করে এবং পরিবেশের মূল এবং নতুন রাষ্ট্র উভয়ের উপর।
একটি পুরস্কার প্রাপ্ত যখন কর্ম নিচ্ছে রাজ্যের এবং রাষ্ট্র পরিবেশ / সিস্টেম পরিবর্তন সিদ্ধান্ত সৃষ্টিকর্তা কর্ম লাগে পর । সিদ্ধান্ত গ্রহণকারী একটি নীতি অনুসরণ করে, that, যে each প্রতিটি রাজ্যের for এর জন্য পদক্ষেপ নেয় । যাতে নীতিটি সিদ্ধান্ত গ্রহণকারীকে প্রতিটি রাজ্যে কোন পদক্ষেপ গ্রহণ করে তা বলে। নীতি এলোমেলোভাবে করা যেতে পারে তবে এটি আপাতত গুরুত্বপূর্ণ নয়।Rai(sj,sk)aisjskaiπ π(⋅):S→Asj∈Sai∈Aπ
উদ্দেশ্য একটি নীতি খুঁজে পেতে যেমন যেπ
maxπ:S(n)→ailimT→∞E{∑n=1TβnRxi(S(n),S(n+1))}(1),
যেখানে হল ছাড়ের উপাদান এবং ।ββ<1
নোট করুন যে উপরের অপ্টিমাইজেশনের সমস্যাটির অসীম সময় দিগন্ত রয়েছে ( ), এবং লক্ষ্যটি পুরষ্কারকে সর্বাধিক করে তোলা (পুরষ্কার দ্বারা গুণিত হয় )। একে সাধারণত অসীম দিগন্ত ছাড়ের পুরষ্কারের মানদণ্ডের সাথে এমডিপি সমস্যা বলা হয় ।T→∞discountedRβn
সমস্যাটিকে বলা হয় কারণ । যদি এটি ছাড় ছাড় সমস্যা না হত যোগফলটি রূপান্তর করবে না। সমস্ত নীতিগুলি যা প্রতিটি সময়ে তাত্ক্ষণিকভাবে গড়ে একটি ইতিবাচক পুরষ্কার পেয়েছে তা অনন্তের সমষ্টি। এটি একটি অসীম দিগন্তের সমষ্টি পুরষ্কারের মানদণ্ড হবে এবং এটি একটি ভাল অপ্টিমাইজেশনের মানদণ্ড নয়।β<1β=1
আমি কী বলতে চাইছি তা এখানে দেখানোর জন্য এখানে খেলনার উদাহরণ রয়েছে:
ধরে নিন যে কেবল দুটি সম্ভাব্য ক্রিয়া রয়েছে এবং যে পুরষ্কার ফাংশন সমান যদি , এবং যদি (পুরষ্কার রাষ্ট্রের উপর নির্ভর করে না)।a=0,1R1a=10a=0
এটি নীতিটি পরিষ্কার যে আরও পুরষ্কার প্রাপ্ত হ'ল সর্বদা পদক্ষেপ নেওয়া এবং কখনই পদক্ষেপ না নেওয়া । আমি এই নীতিটিকে কল করব । আমি policy কে অন্য নীতিমালা i সাথে তুলনা করব যা ক্ষুদ্র সম্ভাবনার সাথে এবং অন্যথায় পদক্ষেপ নিয়ে অ পদক্ষেপ নেয় ।a=1a=0π∗π∗π′a=1α<<1a=0
অসীম দিগন্ত ছাড়ের পুরষ্কারের মানদণ্ডের সমীকরণ (1) নীতি for জন্য (জ্যামিতিক সিরিজের সমষ্টি ) হয়ে যায় policy সমীকরণ (1) হয়ে যায় । যেহেতু , আমরা বলতে যে চেয়ে ভাল নীতি । আসলে হ'ল অনুকূল নীতি।11−βπ∗π′α1−β11−β>α1−βπ∗π′π∗
অসীম দিগন্তের সমষ্টি পুরষ্কারের মানদণ্ডে ( ) সমীকরণ (1) কোনও পলিসের জন্য রূপান্তর করে না (এটি অসীমের পরিমাণে যোগ হয়)। সুতরাং নীতি যেহেতু বেশী পুরষ্কার অর্জন উভয় নীতি এই মানদণ্ড অনুযায়ী সমান। অনন্ত দিগন্তের সমষ্টি পুরষ্কারের মানদণ্ড কার্যকর না হবার এক কারণ।β=1ππ′
যেমনটি আমি আগেই বলেছি, সমীকরণ (1) রূপান্তর করে যোগফল তৈরি করার কৌশল করে।β<1
অন্যান্য অনুকূল মানদণ্ড
অন্যান্য অনুকূলিতকরণের মানদণ্ড রয়েছে যা that : চাপায় নাβ<1
সীমাবদ্ধ দিগন্তের মানদণ্ডের ক্ষেত্রে লক্ষ্যটি হল দিগন্ত until অবধি ছাড় ছাড়ের পুরষ্কারকে সর্বাধিক করে তোলাT
maxπ:S(n)→aiE{∑n=1TβnRxi(S(n),S(n+1))},
জন্য এবং সসীম।β≤1T
ইন অসীম দিগন্ত গড় পুরস্কার মানদণ্ড উদ্দেশ্য হল
maxπ:S(n)→ailimT→∞E{∑n=1T1TRxi(S(n),S(n+1))},
শেষ নোট
অনুকূলতার মানদণ্ডের উপর নির্ভর করে অনুকূল নীতি সন্ধানের জন্য কেউ একটি পৃথক অ্যালগরিদম ব্যবহার করবে। উদাহরণস্বরূপ সীমাবদ্ধ দিগন্ত সমস্যার সর্বোত্তম নীতিগুলি রাষ্ট্র এবং আসল সময় তাত্ক্ষণিক উভয়ের উপর নির্ভর করে। সর্বাধিক প্রয়োগীকরণের শেখার অ্যালগরিদমগুলি (যেমন সারসএ বা কিউ-লার্নিং) কেবলমাত্র ছাড়ের পুরষ্কার অসীম দিগন্তের মানদণ্ডের জন্য অনুকূল নীতিতে রূপান্তরিত হয় (ডায়নামিক প্রোগ্রামিং অ্যালগরিদমের ক্ষেত্রে একই ঘটে)। গড় পুরষ্কারের মানদণ্ডের জন্য এমন কোনও অ্যালগরিদম নেই যা সর্বোত্তম নীতিতে রূপান্তরিত করতে দেখানো হয়েছে, তবে যে কেউ আর-লার্নিং ব্যবহার করতে পারেন যা ভাল তাত্ত্বিক রূপান্তর না হলেও ভাল পারফরম্যান্স রয়েছে।