শক্তিবৃদ্ধি শেখার উপর ছাড়ের ফ্যাক্টরের অর্থ

আতির গেমসে গুগল ডিপমাইন্ড কৃতিত্বগুলি পড়ার পরে আমি কি-লার্নিং এবং কি-নেটওয়ার্কগুলি বোঝার চেষ্টা করছি তবে আমি কিছুটা বিভ্রান্ত হয়ে পড়েছি। ডিসকাউন্ট ফ্যাক্টরের ধারণায় বিভ্রান্তি দেখা দেয়। আমি যা বুঝি তার সংক্ষিপ্তসার কোনও ক্রিয়াকলাপের সর্বোত্তম প্রত্যাশিত মানটির মূল্য নির্ধারণের জন্য একটি গভীর কনভোলিউশনাল নিউরাল নেটওয়ার্ক ব্যবহার করা হয়। নেটওয়ার্ককে ক্ষতির ফাংশনটি হ্রাস করতে হবে

L_{i} = E_{s, a, r} [(E_{s^{'}} [y | s, a] - Q (s, a; θ_{i}))^{2}]

$L_i=\mathbb{E}_{s,a,r}\left[(\mathbb{E}_{s'}\left[y|s,a\right]-Q(s,a;\theta_i))^2\right]$ যেখানেহয় যেখানেহল একটি সংখ্যাসমূহের স্কোর মান এবংহল ক্রিয়া নির্বাচনের জন্য স্কোর মান। এবংযথাক্রমে রাষ্ট্র এবং কর্ম সময়ে চয়নএবং রাষ্ট্র এবং সময়ে কর্ম। পূর্ববর্তী পুনরাবৃত্তির এ নেটওয়ার্ক ওজন আছে। একটি ডিসকাউন্ট ফ্যাক্টর যে একাউন্টে স্কোর মূল্যবোধের সময়গত পার্থক্য নিতে হয়।

E_{s^{'}} [y | s, a]

$\mathbb{E}_{s'}\left[y|s,a\right]$

E [r + γ m a x_{a^{'}} Q (s^{'}, a^{'}; θ_{i}^{-}) | s, a]

$\mathbb{E}\left[r+\gamma max_{a'} Q(s',a';\theta^-_i)\right|s,a]$

Q

$Q$

r

$r$

s, a

$s,a$

s^{'}, a^{'}

$s',a'$

t

$t$

t^{'}

$t'$

θ_{i}^{-}

$\theta^-_i$

γ

$\gamma$

i

$i$ সাবস্ক্রিপ্ট হ'ল অস্থায়ী পদক্ষেপ। এখানে সমস্যাটি বোঝা হচ্ছে কেন নির্ভর করে না ।

γ

$\gamma$

θ

$\theta$

দৃশ্য গাণিতিক বিন্দু থেকে ছাড় ফ্যাক্টর এবং সম্ভাবনা প্রতিনিধিত্ব করে পরিস্থিতিতে পৌছনোর রাষ্ট্র থেকে । $\gamma$ $s'$ $s$

আমি অনুমান করি যে নেটওয়ার্কটি আসলে গামার সঠিক মান অনুসারে পুনরুদ্ধার করতে শেখে , তবে কেন দিচ্ছে না ? $Q$ $\gamma$ $\gamma=1$

artificial-intelligence neural-networks reinforcement-learning

— Emanuele
সূত্র

ছাড় ফ্যাক্টর নয় সম্ভাবনা প্রতিনিধিত্ব পরিস্থিতিতে পৌছনোর $s′$ রাষ্ট্র থেকে $s$ । এটি $p(s'|s,a)$ , যা কিউ-লার্নিংয়ে ব্যবহৃত হয় না, যেহেতু এটি মডেল-মুক্ত (কেবলমাত্র মডেল-ভিত্তিক শক্তিবৃদ্ধি শেখার পদ্ধতিগুলি সেই সংক্রমণের সম্ভাবনাগুলি ব্যবহার করে)। ছাড় ফ্যাক্টর একটি hyperparameter ব্যবহারকারী যা প্রতিনিধিত্ব দ্বারা টিউন কত ভবিষ্যত ইভেন্ট দূরে কিভাবে সময় তারা অনুযায়ী তাদের মূল্য হারান হয়। উল্লেখ করা সূত্র, আপনি বলছেন যে মান আপনার বর্তমান রাষ্ট্রের জন্য $γ$ $y$ $s$ এই রাষ্ট্রের জন্য তাত্ক্ষণিক পুরষ্কার এবং এরপরে আপনি ভবিষ্যতে থেকে শুরু করে যা প্রত্যাশা করছেন । তবে ভবিষ্যতের এই পদটি অবশ্যই ছাড় দিতে হবে, কারণ ভবিষ্যতের পুরষ্কারগুলি এখনই (যদি ) পুরষ্কার প্রাপ্তির সমান মূল্য না পায় (ঠিক যেমন আমরা আগামীকাল $ 100 এর পরিবর্তে এখন $ 100 অর্জন করতে পছন্দ করি)। আপনি আপনার ভবিষ্যতের পুরষ্কারকে কতটা হ্রাস করতে চান তা চয়ন করা আপনার উপর নির্ভর করে (এটি সমস্যা-নির্ভর)। 0 এর ছাড়ের ফ্যাক্টরটির অর্থ আপনি কেবলমাত্র তাত্ক্ষণিক পুরষ্কারের বিষয়ে যত্নশীল। আপনার ছাড়ের ফ্যাক্টর যত বেশি হবে আপনার পুরষ্কারগুলি আরও বেশি সময় ধরে প্রচার করবে। $s$ $γ < 1$

আমি আপনাকে পরামর্শ দিচ্ছি যে স্নায়ু নেটওয়ার্কগুলির প্রেক্ষাপটের বাইরে খাঁটি পুনর্বহাল শেখা শেখার জন্য ডিপ-কিউ চেষ্টা করার আগে আপনি সাটন এবং বার্তো বইটি পড়ুন , যা আপনাকে বিভ্রান্ত করতে পারে।

— rcpinto
সূত্র

আপনার উত্তরের জন্য ধন্যবাদ, তবে আমার এখনও কিছু সন্দেহ আছে doubts আমি জোরে চিন্তা করছি। ধাপে ধাপে আপনার একটি স্কোর গ্রহণ এ কল্পনা এবং আপনি টাকা দিতে হবে খেলা শুরু করতে। আমি কীভাবে প্রত্যাশিত মান গণনা করব? ভাল কারণ আপনি ভবিষ্যতে বিভিন্ন মুহুর্তে মান যুক্ত করছেন , তাই না?

d

$d$

c

$c$

E v = \sum_{i = 1}^{+ \infty} γ^{i} d - c

$Ev=\sum_{i=1}^{+\infty} \gamma^i d -c$

d

$d$

— ইমানুয়েল

ঠিক আছে, আমি value সঠিক মানটি কি তাহলেও ? সঠিক মূল্য হ'ল এমন মান যা আমাকে বর্তমান এবং ফিউচারের পুরষ্কারের মধ্যে বাণিজ্য করতে দেয় এবং এটি । পদক্ষেপ বেঁচে থাকার সম্ভাবনা এবং এ কারণেই । চেকটি হ'ল যেখানে steps প্রতিটি পদক্ষেপে বেঁচে থাকার পক্ষে প্রতিকূল এবং প্রত্যাশিত আয়ু।

d \frac{γ}{1 - γ} = c

$d\frac{\gamma}{1-\gamma}=c$

γ

$\gamma$

g a m m a

$gamma$

γ = p

$\gamma=p$

p

$p$

t

$t$

0 \leq γ \leq 1

$0\le \gamma \le 1$

\frac{p}{1 - p} = τ

$\frac{p}{1-p}=\tau$

τ

$\tau$

— ইমানুয়েল