শক্তিবৃদ্ধি শেখার উপর ছাড়ের ফ্যাক্টরের অর্থ


10

আতির গেমসে গুগল ডিপমাইন্ড কৃতিত্বগুলি পড়ার পরে আমি কি-লার্নিং এবং কি-নেটওয়ার্কগুলি বোঝার চেষ্টা করছি তবে আমি কিছুটা বিভ্রান্ত হয়ে পড়েছি। ডিসকাউন্ট ফ্যাক্টরের ধারণায় বিভ্রান্তি দেখা দেয়। আমি যা বুঝি তার সংক্ষিপ্তসার কোনও ক্রিয়াকলাপের সর্বোত্তম প্রত্যাশিত মানটির মূল্য নির্ধারণের জন্য একটি গভীর কনভোলিউশনাল নিউরাল নেটওয়ার্ক ব্যবহার করা হয়। নেটওয়ার্ককে ক্ষতির ফাংশনটি হ্রাস করতে হবে

Li=Es,a,r[(Es[y|s,a]Q(s,a;θi))2]
যেখানেহয় যেখানেহল একটি সংখ্যাসমূহের স্কোর মান এবংহল ক্রিয়া নির্বাচনের জন্য স্কোর মান। এবংযথাক্রমে রাষ্ট্র এবং কর্ম সময়ে চয়নএবং রাষ্ট্র এবং সময়ে কর্ম। পূর্ববর্তী পুনরাবৃত্তির এ নেটওয়ার্ক ওজন আছে। একটি ডিসকাউন্ট ফ্যাক্টর যে একাউন্টে স্কোর মূল্যবোধের সময়গত পার্থক্য নিতে হয়। E [ r + γ m a x a Q ( s , a ; θ - i ) | s,a]Qrs,a s , a t t θ - i γiγθEs[y|s,a]
E[r+γmaxaQ(s,a;θi)|s,a]
Qrs,as,attθiγiসাবস্ক্রিপ্ট হ'ল অস্থায়ী পদক্ষেপ। এখানে সমস্যাটি বোঝা হচ্ছে কেন নির্ভর করে না ।γθ

দৃশ্য গাণিতিক বিন্দু থেকে ছাড় ফ্যাক্টর এবং সম্ভাবনা প্রতিনিধিত্ব করে পরিস্থিতিতে পৌছনোর রাষ্ট্র থেকে ।s sγss

আমি অনুমান করি যে নেটওয়ার্কটি আসলে গামার সঠিক মান অনুসারে পুনরুদ্ধার করতে শেখে , তবে কেন দিচ্ছে না ?γ γ = 1Qγγ=1

উত্তর:


6

ছাড় ফ্যাক্টর নয় সম্ভাবনা প্রতিনিধিত্ব পরিস্থিতিতে পৌছনোর s রাষ্ট্র থেকে s । এটি p(s|s,a) , যা কিউ-লার্নিংয়ে ব্যবহৃত হয় না, যেহেতু এটি মডেল-মুক্ত (কেবলমাত্র মডেল-ভিত্তিক শক্তিবৃদ্ধি শেখার পদ্ধতিগুলি সেই সংক্রমণের সম্ভাবনাগুলি ব্যবহার করে)। ছাড় ফ্যাক্টর একটি hyperparameter ব্যবহারকারী যা প্রতিনিধিত্ব দ্বারা টিউন কত ভবিষ্যত ইভেন্ট দূরে কিভাবে সময় তারা অনুযায়ী তাদের মূল্য হারান হয়। উল্লেখ করা সূত্র, আপনি বলছেন যে মান আপনার বর্তমান রাষ্ট্রের জন্যγysএই রাষ্ট্রের জন্য তাত্ক্ষণিক পুরষ্কার এবং এরপরে আপনি ভবিষ্যতে থেকে শুরু করে যা প্রত্যাশা করছেন । তবে ভবিষ্যতের এই পদটি অবশ্যই ছাড় দিতে হবে, কারণ ভবিষ্যতের পুরষ্কারগুলি এখনই (যদি ) পুরষ্কার প্রাপ্তির সমান মূল্য না পায় (ঠিক যেমন আমরা আগামীকাল $ 100 এর পরিবর্তে এখন $ 100 অর্জন করতে পছন্দ করি)। আপনি আপনার ভবিষ্যতের পুরষ্কারকে কতটা হ্রাস করতে চান তা চয়ন করা আপনার উপর নির্ভর করে (এটি সমস্যা-নির্ভর)। 0 এর ছাড়ের ফ্যাক্টরটির অর্থ আপনি কেবলমাত্র তাত্ক্ষণিক পুরষ্কারের বিষয়ে যত্নশীল। আপনার ছাড়ের ফ্যাক্টর যত বেশি হবে আপনার পুরষ্কারগুলি আরও বেশি সময় ধরে প্রচার করবে।sγ<1

আমি আপনাকে পরামর্শ দিচ্ছি যে স্নায়ু নেটওয়ার্কগুলির প্রেক্ষাপটের বাইরে খাঁটি পুনর্বহাল শেখা শেখার জন্য ডিপ-কিউ চেষ্টা করার আগে আপনি সাটন এবং বার্তো বইটি পড়ুন , যা আপনাকে বিভ্রান্ত করতে পারে।


আপনার উত্তরের জন্য ধন্যবাদ, তবে আমার এখনও কিছু সন্দেহ আছে doubts আমি জোরে চিন্তা করছি। ধাপে ধাপে আপনার একটি স্কোর গ্রহণ এ কল্পনা এবং আপনি টাকা দিতে হবে খেলা শুরু করতে। আমি কীভাবে প্রত্যাশিত মান গণনা করব? ভাল কারণ আপনি ভবিষ্যতে বিভিন্ন মুহুর্তে মান যুক্ত করছেন , তাই না? ভি = + আই = 1 γ আই ডি - সি ডিdc
Ev=i=1+γidc
d
ইমানুয়েল

ঠিক আছে, আমি value সঠিক মানটি কি তাহলেও ? সঠিক মূল্য হ'ল এমন মান যা আমাকে বর্তমান এবং ফিউচারের পুরষ্কারের মধ্যে বাণিজ্য করতে দেয় এবং এটি । পদক্ষেপ বেঁচে থাকার সম্ভাবনা এবং এ কারণেই । চেকটি হ'ল যেখানে steps প্রতিটি পদক্ষেপে বেঁচে থাকার পক্ষে প্রতিকূল এবং প্রত্যাশিত আয়ু। γএকটিমিমিএকটিγ=PPT0γ1P
dγ1γ=c
γgammaγ=ppt0γ1τp1p=ττ
ইমানুয়েল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.