আমি " ইন রিইনফোর্সমেন্ট লার্নিং এ। একটি পরিচিতি " -এ নীচের সমীকরণটি দেখছি , তবে নীচের নীলে আমি যে পদক্ষেপটি তুলে ধরেছি তা পুরোপুরি অনুসরণ করবেন না। এই পদক্ষেপটি ঠিক কীভাবে উত্পন্ন?
আমি " ইন রিইনফোর্সমেন্ট লার্নিং এ। একটি পরিচিতি " -এ নীচের সমীকরণটি দেখছি , তবে নীচের নীলে আমি যে পদক্ষেপটি তুলে ধরেছি তা পুরোপুরি অনুসরণ করবেন না। এই পদক্ষেপটি ঠিক কীভাবে উত্পন্ন?
উত্তর:
এটি যার প্রত্যেকটির পিছনে পরিষ্কার, কাঠামোযুক্ত গণিত সম্পর্কে আশ্চর্য হয়ে যায় তাদের উত্তর (যেমন আপনি যদি এমন লোকদের অন্তর্ভুক্ত হন যা র্যান্ডম ভেরিয়েবল কী তা জানে এবং আপনাকে অবশ্যই এটি প্রদর্শন বা ধরে নিতে হবে যে একটি এলোমেলো ভেরিয়েবলের ঘনত্ব রয়েছে তবে এটি হল আপনার জন্য উত্তর ;-)):
সবার আগে আমাদের থাকা দরকার যে মার্কোভ ডিসিশন প্রক্রিয়াটিতে কেবলমাত্র সীমাবদ্ধ রয়েছে - অর্থাৎ আমাদের প্রয়োজন যে ঘনত্বের একটি সীমাবদ্ধ রয়েছে, যার প্রতিটি ভেরিয়েবলের অন্তর্গত , যেমন for all এবং একটি মানচিত্রে যেমন
(অর্থাত্ MDP এর পিছনে অনেকগুলি রাজ্য থাকতে পারে তবে সেখানে চূড়ান্তভাবে অনেকগুলি -পূর্ববর্তী-বিতরণগুলি সম্ভবত রাজ্যগুলির মধ্যে অসীম ট্রানজিশনের সাথে সংযুক্ত থাকে)
উপপাদ্য 1 : (যথা একটি ইন্টিগ্রেটেবল রিয়েল এলোমেলো ভেরিয়েবল) আসুন এবং মতো আরও একটি এলোমেলো পরিবর্তনশীল হোক যাতে একটি সাধারণ ঘনত্ব থাকে
প্রুফ : স্টেফান হ্যানসেন এখানে মূলত প্রমাণিত ven
উপপাদ্য 2 : এবং আরও এলোমেলো পরিবর্তনশীল হতে দিন যেমন সাধারণ ঘনত্ব থাকে
প্রুফ :
Put রাখুন এবং তারপরে কেউ দেখায় ( এমডিপিতে কেবল চূড়ান্তভাবে অনেকগুলি পূর্বে রয়েছে) যা রূপান্তর করে এবং যেহেতু the functionএখনও (অর্থাত্ ইন্টিগ্রেটেবল) কেউ শর্তসাপেক্ষ প্রত্যাশার [কারণগুলির কারণগুলি] সংজ্ঞায়িত সমীকরণগুলির উপর নিয়মিত সংমিশ্রণগুলির উপর মনোোটোন কনভার্জেন্সের সাধারণ সংমিশ্রণটি ব্যবহার করে এবং তারপরেও আধিপত্য বিস্তৃত করতে পারেন
হয় রাষ্ট্রীয় স্থান সীমাবদ্ধ (তারপরে যোগফল এবং সমষ্টিটি সীমাবদ্ধ) বা সমস্ত পুরষ্কারগুলি সমস্ত ইতিবাচক হয় (তারপরে আমরা একঘেয়ে রূপান্তর ব্যবহার করি) বা সমস্ত পুরষ্কারগুলি নেতিবাচক হয় (তারপরে আমরা সামনে বিয়োগ চিহ্ন ) সমীকরণ এবং আবার একঘেয়ে রূপান্তর ব্যবহার করুন) বা সমস্ত পুরষ্কার সীমাবদ্ধ (তারপরে আমরা প্রাধান্যযুক্ত রূপান্তর ব্যবহার করি)। তারপরে ( উপরের আংশিক / সসীম বেলম্যান সমীকরণের উভয় পক্ষেই প্রয়োগ করে ) আমরা পাই
এবং তারপরে বাকিটি হ'ল স্বাভাবিক ঘনত্বের কারসাজি।
মন্তব্য: এমনকি খুব সাধারণ কাজগুলিতেও রাষ্ট্রের স্থানটি অসীম হতে পারে! একটি উদাহরণ হ'ল 'ভারসাম্যহীন একটি খুঁটি'-টাস্ক। রাজ্যটি মূলত মেরুটির কোণ ( একটি মান , একটি অসীম সেট!)
মন্তব্য: লোকেরা মন্তব্য করতে পারে 'ময়দা, এই প্রমাণটি আরও ছোট করা যেতে পারে যদি আপনি কেবল এর ঘনত্ব সরাসরি ব্যবহার করেন এবং দেখান যে '... তবে ... আমার প্রশ্নগুলি হবে:
ছাড় পুরস্কারের মোট যোগফল যাক সময় পরে হতে:
G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + । । ।
রাজ্যের শুরু ইউটিলিটি মান, সময়ে প্রত্যাশিত সমষ্টি সমতূল্য এর
ছাড় পুরষ্কার নির্বাহ নীতির রাষ্ট্র থেকে শুরু অগ্রে।
সংজ্ঞামতে আইন
আইন অনুসারেt R π s U π ( S t = s ) = E π [ G t | এস টি = এস ]
জি টি = ই π [ ( আর টি + + 1 + + γ ( আর টি + + 2 + + γ আর টি + + 3 + + । । ।
= ই π [ ( আর টি + 1 + γ ( জি টি + 1 ) ) | এস টি = এস ] = ই π [ আর টি + 1 | এস টি = এস ] + γ ই π [ জি টি + ১ | এস টি = এস ]
= ই π [ আর টি + 1 | এস টি = এস ] + γ ই π [ ইউমোট প্রত্যাশা
সংজ্ঞা অনুসারে রৈখিকতার আইন অনুসারে
ইউ π = ই π [ আর টি + + 1 + + γ ইউ π ( এস টি + + 1 = গুলি ' ) | এস টি = এস ]
Assuming যে প্রক্রিয়া সন্তুষ্ট মার্কভ সম্পত্তি:
সম্ভাব্যতা রাজ্যের শেষ পর্যন্ত এর রাষ্ট্র থেকে শুরু করে এবং প্রতিকারমূলক পদক্ষেপ নেওয়া ,
এবং
পুরস্কার রাজ্যের শেষ পর্যন্ত এর রাষ্ট্র থেকে শুরু করে এবং পদক্ষেপ না নেওয়া ,
s ′ s a P r ( s ′ | s , a ) = P r ( S t + 1 = s ′ , S t = s , A t = a ) R s ′ s a R ( s , a , s) ′ ) = [ আর টি + 1 | এস টি
সুতরাং আমরা উপরের উপযোগীকরণের সমীকরণটিকে আবার লিখতে পারি,
কোথায়; : কর্ম গ্রহণের সম্ভাব্যতা যখন রাষ্ট্র একটি সম্ভাব্যতার সূত্রাবলি নীতির জন্য। নীতির জন্য,a s ∑ a π ( a | s ) = 1
এখানে আমার প্রমাণ। এটি শর্তাধীন বিতরণগুলির কারসাজির উপর ভিত্তি করে তৈরি করা হয়েছে যা অনুসরণ করা সহজ করে তোলে। আশা করি এটি আপনাকে সহায়তা করবে।
নিম্নলিখিত পদ্ধতির সাথে কী?
অঙ্কের অর্ডার উদ্ধার করার জন্য চালু করা হয় , এবং থেকে । সর্বোপরি, সম্ভাব্য ক্রিয়া এবং সম্ভাব্য পরবর্তী রাষ্ট্রগুলি হতে পারে। এই অতিরিক্ত শর্তের সাথে, প্রত্যাশার লাইনারিটি প্রায় সরাসরি ফলাফলের দিকে নিয়ে যায়।s ′ r s
যদিও আমার যুক্তিটি গাণিতিকভাবে কতটা কঠোর তা নিশ্চিত নই। আমি উন্নতির জন্য উন্মুক্ত।
এটি গ্রহণযোগ্য উত্তরের কেবল একটি মন্তব্য / সংযোজন।
মোট প্রত্যাশার আইন প্রয়োগ করা হচ্ছে এমন লাইনে আমি বিভ্রান্ত হয়ে পড়েছিলাম। আমি মনে করি না মোট প্রত্যাশার আইনের মূল ফর্মটি এখানে সহায়তা করতে পারে। এর একটি বৈকল্পিক আসলে এখানে প্রয়োজন।
যদি এলোমেলো পরিবর্তনশীল এবং সমস্ত প্রত্যাশা বিদ্যমান বলে ধরে নিচ্ছে, তবে নিম্নলিখিত পরিচয়টি ধারণ করে:
এই ক্ষেত্রে, , এবং । তারপর
, যা মার্কভ সম্পত্তি একুউল দ্বারা
সেখান থেকে, উত্তর থেকে কেউ বাকী প্রমাণ অনুসরণ করতে পারে।
ππ(a | s)as সাধারণত প্রত্যাশাটিকে বোঝায় এজেন্ট নীতি অনুসরণ করে । এই ক্ষেত্রে অ নির্ণায়ক মনে হয়, অর্থাত সম্ভাব্যতা ফেরৎ যে এজেন্ট কর্ম লাগে যখন রাষ্ট্র ।
দেখে মনে হচ্ছে , লোয়ার-কেস , একটি র্যান্ডম ভেরিয়েবল প্রতিস্থাপন করছে । দ্বিতীয় প্রত্যাশা অসীম সমষ্টি প্রতিস্থাপন, ধৃষ্টতা যে আমরা অনুসরণ অব্যাহত প্রতিফলিত সব ভবিষ্যতের জন্য । এর পরের বার পদক্ষেপে প্রত্যাশিত তাত্ক্ষণিক পুরষ্কার হয়; দ্বিতীয় প্রত্যাশা যা হয়ে পরবর্তী রাষ্ট্র প্রত্যাশিত মান, রাষ্ট্র আপ ঘুর সম্ভাবনা দ্বারা পরিমেয় -is নিয়ে থেকে ।আর টি + + 1 π টি Σ গুলি ' , দ দ ⋅ পি ( গুলি ' , দ | গুলি , একটি ) বনাম π এর ' একটি গুলি
সুতরাং, প্রত্যাশা নীতিগত সম্ভাবনার পাশাপাশি রূপান্তর এবং পুরষ্কারের কার্যগুলির জন্য অ্যাকাউন্টগুলি এখানে হিসাবে একসাথে প্রকাশিত হয়েছে ।
যদিও ইতিমধ্যে সঠিক উত্তর দেওয়া হয়েছে এবং কিছু সময় অতিবাহিত হয়েছে, আমি ভেবেছিলাম যে ধাপে গাইডের নিম্নলিখিত ধাপটি কার্যকর হতে পারে:
প্রত্যাশিত মানের রৈখিকতার সাথে আমরা
মধ্যে এবং ।
আমি কেবল প্রথম অংশের জন্য পদক্ষেপগুলি রূপরেখা করব, কারণ দ্বিতীয় অংশটি মোট প্রত্যাশার আইনের সাথে মিলিত একই পদক্ষেপগুলি অনুসরণ করবে।
যেখানে (III) ফর্ম অনুসরণ করে:
আমি জানি ইতিমধ্যে একটি স্বীকৃত উত্তর আছে, তবে আমি সম্ভবত আরও কংক্রিট ডেরাইভেশন সরবরাহ করতে চাই। আমি আরও উল্লেখ করতে চাই যে @ জি শী ট্রিক কিছুটা বোধগম্য হয়েছে তবে এটি আমাকে খুব অস্বস্তি বোধ করে :( এই কাজটি করার জন্য আমাদের সময়সীমা বিবেচনা করা দরকার। এবং এটি লক্ষ্য করা গুরুত্বপূর্ণ যে প্রত্যাশাটি আসলে কেবলমাত্র ও চেয়ে পুরো অসীম দিগন্তের উপরে নিয়ে গেলেন Let ধরা যাক আমরা থেকে শুরু করব (আসলে, ডাইরিভেশনটি শুরু সময় নির্বিশেষে একই রকম; আমি অন্য সাবস্ক্রিপ্টের সাথে সমীকরণগুলিকে দূষিত করতে চাই না )
এই পর্যায়ে, আমি বিশ্বাস করি যে আমাদের বেশিরভাগেরই মনে থাকা উচিত যে উপরের চূড়ান্ত কীভাবে পরিচালিত করে - আমাদের কেবলমাত্র যোগফলের বিধি প্রয়োগ করতে হবে ( ) শ্রমসাধ্যভাবে । আসুন ভিতরে প্রতিটি পদে প্রত্যাশার লিনিয়ারিটির আইন প্রয়োগ করি
অংশ 1
ভাল এটি বরং তুচ্ছ, সম্পর্কিতগুলি বাদে সমস্ত সম্ভাবনা অদৃশ্য হয়ে যায় (আসলে 1 এর সমষ্টি) । অতএব, আমাদের কাছে
পার্ট 2
অনুমান করুন কী, এই অংশটি আরও তুচ্ছ - এটি কেবল সংক্ষেপের ক্রমটিকে পুনর্বিন্যাসের সাথে জড়িত।
আর ইউরেকা !! আমরা বড় বন্ধনীগুলির পাশ দিয়ে পুনরাবৃত্ত প্যাটার্নটি পুনরুদ্ধার করি। আসুন আমরা এটিকে সাথে একত্রিত করি এবং আমরা
এবং অংশ 2
পার্ট 1 + পার্ট 2
এবং এখন যদি আমরা সময় মাত্রাটি সন্ধান করতে পারি এবং সাধারণ পুনরাবৃত্ত সূত্রগুলি পুনরুদ্ধার করতে পারি
চূড়ান্ত স্বীকারোক্তি, যখন আমি উপরে লোকেরা সম্পূর্ণ প্রত্যাশার আইন ব্যবহারের কথা উল্লেখ করি তখন আমি হেসেছিলাম। সুতরাং আমি এখানে
এই প্রশ্নের ইতিমধ্যে একটি দুর্দান্ত অনেক উত্তর রয়েছে, তবে বেশিরভাগটিতে ম্যানিপুলেশনগুলিতে কী চলছে তা বর্ণনা করার জন্য কয়েকটি শব্দ জড়িত। আমি আরও বেশি উপায় দিয়ে এটির উত্তর দেব, আমার ধারণা। শুরুতেই,
ধ্রুবক ছাড়ের গুণক in এবং 3.11 সমীকরণে সংজ্ঞায়িত করা হয়েছে এবং আমাদের বা তবে উভয়ই নয়। যেহেতু পুরষ্কারগুলি, , এলোমেলো পরিবর্তনশীল, তাই is এটি এলোমেলো ভেরিয়েবলগুলির একমাত্র লিনিয়ার সংমিশ্রণ হিসাবে।
সেই শেষ লাইনটি প্রত্যাশা মানগুলির লিনিয়ারিটি থেকে অনুসরণ করে। এজেন্ট লাভ সময় পদে পদে ব্যবস্থা গ্রহণের পর পুরস্কার । সরলতার জন্য, আমি অনুমান এটি মূল্যবোধের সসীম সংখ্যার উপর নিতে পারেন ।
প্রথম মেয়াদে কাজ। অর্থাৎ, আমি প্রত্যাশা মান গনা প্রয়োজন দেওয়া আমরা জানি যে বর্তমান রাষ্ট্র । এর সূত্রটি হ'ল
অন্য কথায় পুরস্কার চেহারাও সম্ভাবনা রাষ্ট্র উপর নিয়ন্ত্রিত হয় ; বিভিন্ন রাজ্যের বিভিন্ন পুরষ্কার থাকতে পারে। এই বন্টন একটি বিতরণ যে ভেরিয়েবল অন্তর্ভুক্ত একটি প্রান্তিক বন্টন হয় এবং , অ্যাকশন সময়ের এবং সময়ে রাষ্ট্র কর্ম যথাক্রমে পরে:
যেখানে আমি বইয়ের সম্মেলনটি অনুসরণ করে । গত সমতা বিভ্রান্তিকর হয়, তাহলে অঙ্কের ভুলে দমন (সম্ভাব্যতা এখন একটি যৌথ সম্ভাব্যতা মত দেখায়), গুণ আইন ব্যবহার এবং পরিশেষে উপর শর্ত পুনঃপ্রবর্তন মধ্যে সব নতুন পদ। প্রথম শব্দটি এখন এটি দেখতে সহজ
প্রয়োজনীয়. দ্বিতীয় মেয়াদে, যেখানে আমি ধরে যে একটি র্যান্ডম ভেরিয়েবল যা সীমাবদ্ধ সংখ্যার মান সীমাবদ্ধ করে । ঠিক প্রথম পদের মতো:
আবার আমি লেখার মাধ্যমে সম্ভাব্যতা বিতরণকে "আনুভূক্ত করা" (আবার গুণনের আইন)
সেখানে শেষ লাইনটি মার্কোভিয়ান সম্পত্তি থেকে অনুসরণ করে। মনে রাখবেন যে এর সমষ্টি সমস্ত ভবিষ্যৎ (ছাড়) পুরস্কৃত যে এজেন্ট পায় পর রাষ্ট্র । মার্কোভিয়ান সম্পত্তি হ'ল প্রক্রিয়াটি পূর্ববর্তী রাজ্য, ক্রিয়া এবং পুরষ্কারের সাথে স্মৃতিশক্তি কম। ভবিষ্যতের ক্রিয়াকলাপ (এবং তারা যে পুরষ্কার কাটবে) কেবল সেই অবস্থার উপর নির্ভর করে যেখানে পদক্ষেপ নেওয়া হয়েছে, সুতরাং , অনুমান দ্বারা। ঠিক আছে, সুতরাং প্রমাণ দ্বিতীয় শব্দটি এখন
প্রয়োজন হিসাবে, আবার। দুটি শর্তের সংমিশ্রণ প্রমাণ পূর্ণ করে
হালনাগাদ
আমি দ্বিতীয় পদের উদ্ভবের হাতের মুঠোয় মতো দেখতে পারে এমন ঠিকানা দিতে চাই। দিয়ে চিহ্নিত সমীকরণে , আমি শব্দটি ব্যবহার করি এবং তারপরে পরে চিহ্নিত সমীকরণে আমি দাবি করি যে মার্কোভিয়ান সম্পত্তি যুক্তি দিয়ে উপর নির্ভর করে না । সুতরাং, আপনি বলতে পারেন যে যদি এটি হয় তবে । কিন্তু এটা সত্য না. আমি কারণ উক্ত বিবৃতিটির বাম দিকের সম্ভাবনাটি বলে যে এটি , , এ শর্তযুক্ত হওয়ার সম্ভাবনা is , এবং। যেহেতু আমরা পারেন চেনেন বা অনুমান রাষ্ট্র , অন্যান্য কন্ডিশন কেউই Markovian সম্পত্তির কারণ কোন ব্যাপার। আপনি জানা না থাকলে বা অনুমান রাষ্ট্র , তারপর ভবিষ্যতে পুরষ্কার (অর্থ ), যা রাষ্ট্র তোমার দিকে শুরু উপর নির্ভর করবে কারণ যে নির্ধারণ করবে (নীতি উপর ভিত্তি করে) যা রাষ্ট্র যখন আপনি কম্পিউটিং এ শুরু ।
যদি সেই যুক্তি আপনাকে বোঝায় না, কী তা গণনা করার চেষ্টা করুন :
শেষ লাইনে যেমন দেখা যায়, এটি সত্য নয় যে । প্রত্যাশিত মান উপর যা রাষ্ট্র আপনি (অর্থাত পরিচয় শুরু নির্ভর ), আপনি যদি জানেন বা অনুমান রাষ্ট্র না ।