কিউ ফাংশনটি কী এবং সংযুক্তি শিক্ষার ক্ষেত্রে ভি ফাংশন কী?

30

আমার কাছে মনে হয় $V$ ফাংশনটি সহজেই $Q$ ফাংশন দ্বারা প্রকাশ করা যেতে পারে এবং এইভাবে $V$ ফাংশনটি আমার কাছে অতিরিক্ত প্রয়োজন বলে মনে হয়। তবে, আমি পুনর্বহাল শেখার ক্ষেত্রে নতুন তাই আমার ধারণা যে আমি কিছু ভুল করেছি got

সংজ্ঞা

প্রশ্ন- এবং ভি-লার্নিং মার্কোভ সিদ্ধান্ত প্রক্রিয়াগুলির প্রসঙ্গে রয়েছে । একজন এমডিপি একটি 5 tuple হয় $(S, A, P, R, \gamma)$ সঙ্গে

$S$ রাষ্ট্রগুলির একটি সেট (সাধারণত সীমাবদ্ধ)
$A$ ক্রয়ের একটি সেট (সাধারণত সীমাবদ্ধ)
$P(s, s', a) = P(s_{t+1} = s' | s_t = s, a_t = a)$ সম্ভাব্যতা রাষ্ট্র থেকে পেতে হয় $s$ অবস্থায় $s'$ কাজের সঙ্গে $a$ ।
$R(s, s', a) \in \mathbb{R}$ রাষ্ট্র থেকে গিয়ে তাৎক্ষণিক পুরস্কার $s$ অবস্থায় $s'$ কাজের সঙ্গে $a$ । (এটা আমার মনে হচ্ছে যে সাধারণত $s'$ বিষয়)।
$\gamma \in [0, 1]$ কে ডিসকাউন্ট ফ্যাক্টর বলা হয় এবং তা নির্ধারণ করে যে কেউ তাত্ক্ষণিক পুরষ্কারগুলিতে ( $\gamma = 0$ ), মোট পুরষ্কার ( $\gamma = 1$ ) বা কিছু বাণিজ্য বন্ধ রয়েছেকিনা তা নির্ধারণ করে।

রিইনফোর্সমেন্ট লার্নিং অনুসারে একটি নীতি $\pi$ : সাটন এবং বার্তো দ্বারা পরিচিত একটি ফাংশন $\pi: S \rightarrow A$ (এটি সম্ভাব্যতা হতে পারে)।

মতে মারিও মার্টিন্স স্লাইড , $V$ ফাংশন হয়

V^{π} (s) = E_{π} {R_{t} | s_{t} = s} = E_{π} {\sum_{k = 0}^{\infty} γ^{k} r_{t + k + 1} | s_{t} = s}

$V^\pi(s) = E_\pi \{R_t | s_t = s\} = E_\pi \{\sum_{k=0}^\infty \gamma^k r_{t+k+1} | s_t = s\}$ এবং প্রশ্ন ফাংশন হয়

Q^{π} (s, a) = E_{π} {R_{t} | s_{t} = s, a_{t} = a} = E_{π} {\sum_{k = 0}^{\infty} γ^{k} r_{t + k + 1} | s_{t} = s, a_{t} = a}

$Q^\pi(s, a) = E_\pi \{R_t | s_t = s, a_t = a\} = E_\pi \{\sum_{k=0}^\infty \gamma^k r_{t+k+1} | s_t = s, a_t=a\}$

আমার চিন্তা

ফাংশন রাজ্যের প্রত্যাশিত সামগ্রিক মান একটি রাষ্ট্রের (পুরস্কার নয়!) কি নীতি অধীনে হয়। $V$ $s$ $\pi$

ফাংশন রাজ্যের কি একটি রাষ্ট্র মান এবং একটি কর্ম নীতি অধীনে হয়। $Q$ $s$ $a$ $\pi$

এর অর্থ,

Q^{π} (s, π (s)) = V^{π} (s)

$Q^\pi(s, \pi(s)) = V^\pi(s)$

রাইট? সুতরাং কেন আমরা মান ফাংশন সব আছে? (আমার ধারণা আমি কিছু মিশ্রিত করেছি)

machine-learning reinforcement-learning

— মার্টিন থোমা
সূত্র

15

কিউ-মানগুলি ক্রিয়াগুলি সুস্পষ্ট করার এক দুর্দান্ত উপায় যাতে আপনি এমন সমস্যার মোকাবিলা করতে পারেন যেখানে রূপান্তর ফাংশন উপলব্ধ নেই (মডেল-মুক্ত)। তবে, যখন আপনার অ্যাকশন-স্পেসটি বড় হয়, জিনিসগুলি এত সুন্দর হয় না এবং কি-মানগুলি এত সুবিধাজনক হয় না। বিপুল সংখ্যক ক্রিয়া বা এমনকি ক্রমাগত অ্যাকশন-স্পেসের কথা চিন্তা করুন।

একটি নমুনা দৃষ্টিকোণ থেকে, $Q(s, a)$ মাত্রিকতা $V(s)$ চেয়ে বেশি, সুতরাং সাথে তুলনা করে পর্যাপ্ত $(s, a)$ নমুনা পাওয়া শক্ত হতে পারে । আপনার যদি ট্রানজিশন ফাংশনে অ্যাক্সেস থাকে তবে কখনও কখনও ভাল হয়। $(s)$ $V$

উভয় একত্রিত হয় যেখানে অন্যান্য ব্যবহার আছে। উদাহরণস্বরূপ, সুবিধা ফাংশন যেখানে $A(s, a) = Q(s, a) - V(s)$ । আপনি যদি আগ্রহী হন তবে আপনি এখানে সুবিধাজনক কার্যগুলি ব্যবহার করে একটি সাম্প্রতিক উদাহরণ খুঁজে পেতে পারেন:

ডিপ রিইনফোর্সমেন্ট লার্নিংয়ের জন্য নেটওয়ার্ক আর্কিটেকচারগুলি ডুয়েলিং

জিয়ু ওয়াং, টম শ্যাওল, মাত্তিও হেসেল, হ্যাডো ভ্যান হ্যাসেল্ট, মার্ক ল্যানটোট এবং নান্দো ডি ফ্রেইটাসের দ্বারা।

— জুয়ান লেনি
সূত্র

19

$V^\pi(s)$ এমডিপি (মার্কভ সিদ্ধান্ত প্রক্রিয়া) এর স্টেট-ভ্যালু ফাংশন। আশা প্রত্যাবর্তন রাষ্ট্র থেকে শুরু হচ্ছে $s$ নিম্নলিখিত নীতি $\pi$ ।

অভিব্যক্তিতে

V^{π} (s) = E_{π} {G_{t} | s_{t} = s}

$V^\pi(s) = E_\pi \{G_t | s_t = s\}$

$G_t$ হ'ল ধাপে $t$ থেকে মোট অসমাপ্ত পুরষ্কার, $R_t$ বিপরীতেযা তাৎক্ষণিক প্রত্যাবর্তন। এখানে আপনি নীতি অনুযায়ী সমস্ত কর্ম প্রত্যাশা গ্রহণ করা হয় $\pi$ ।

$Q^\pi(s, a)$ হল ক্রিয়া-মান ফাংশন function এটা রাষ্ট্র থেকে শুরু প্রত্যাশিত প্রত্যাবর্তন $s$ , নীতি নিম্নলিখিত $\pi$ , ব্যবস্থা গ্রহণের $a$ । এটি নির্দিষ্ট রাজ্যে নির্দিষ্ট ক্রিয়াকে কেন্দ্র করে।

Q^{π} (s, a) = E_{π} {G_{t} | s_{t} = s, a_{t} = a}

$Q^\pi(s, a) = E_\pi \{G_t | s_t = s, a_t = a\}$

মধ্যে সম্পর্ক $Q^\pi$ এবং $V^\pi$ (যে রাষ্ট্র হচ্ছে মান) হয়

V^{π} (s) = \sum_{a \in A} π (a | s) * Q^{π} (a, s)

$V^\pi(s) = \sum_{a ∈ A} \pi (a|s) * Q^\pi(a,s)$

আপনি সেই ক্রিয়াটি গ্রহণের সম্ভাব্যতা (নীতি $\pi(a|s)$ ) দ্বারা গুণিত প্রতিটি ক্রিয়া-মান যোগ করেন ।

আপনি যদি গ্রিড ওয়ার্ল্ড উদাহরণটি মনে করেন তবে আপনি (উপরে / নিচে / ডান / বাম) সম্ভাব্যতাটিকে (উপরে / নীচে / ডান / বাম) এক ধাপ এগিয়ে রাষ্ট্রীয় মান দিয়ে গুণাবেন।

— হারুন
সূত্র

5

এটি সবচেয়ে সংক্ষিপ্ত উত্তর।

— ব্রেট

আমার কাছে এমন উত্স রয়েছে যা জানিয়েছে যে

। আপনার উত্তরে,

সাথে আপনি এই সমীকরণটি কীভাবে সম্পর্কিত ? আপনার সমীকরণে, আপনি

ওজনযুক্ত যোগফলের ক্ষেত্রে

সংজ্ঞা দিচ্ছেন

V^{π} (s) = max_{a \in A} Q^{π} (s, a)

$V^\pi(s) = \max_{a \in A} Q^\pi(s, a)$

V^{π} (s) = \sum_{a \in A} π (a ∣ s) * Q^{π} (a, s)

$V^\pi(s) = \sum_{a \in A} \pi (a \mid s) * Q^\pi(a, s)$

V

$V$

Q

$Q$ মান। এটি আমার সংজ্ঞা থেকে পৃথক, যা

কে সর্বোচ্চ

হিসাবে সংজ্ঞায়িত করে ।

V

$V$

Q

$Q$

— nbro

@ এনব্রো আমার বিশ্বাস আপনি কী ধরণের নীতি অনুসরণ করছেন তা নির্ভর করে। খাঁটি লোভী নীতিতে আপনি সঠিক। তবে এটি যদি আরও অনুসন্ধানের নীতিমালা হত তবে এটি কোনও পদক্ষেপের

— ভিত্তিতে

7

You have it right, the $V$ function gives you the value of a state, and $Q$ gives you the value of an action in a state (following a given policy $\pi$ ). I found the clearest explanation of Q-learning and how it works in Tom Mitchell's book "Machine Learning" (1997), ch. 13, which is downloadable. $V$ is defined as the sum of an infinite series but its not important here. What matters is the $Q$ function is defined as

Q (s, a) = r (s, a) + γ V^{*} (δ (s, a))

$Q(s,a ) = r(s,a ) + \gamma V^{*}(\delta(s,a))$ where V* is the best value of a state if you could follow an optimum policy which you don't know. However it has a nice characterization in terms of

Q

$Q$

V^{*} (s) = max_{a^{'}} Q (s, a^{'})

$V^{*}(s)= \max_{a'} Q(s,a')$ Computing

Q

$Q$ is done by replacing the

V^{*}

$V^*$ in the first equation to give

Q (s, a) = r (s, a) + γ max_{a^{'}} Q (δ (s, a), a^{'})

$Q(s, a) = r(s, a) + \gamma \max_{a'} Q(\delta(s, a), a')$

এটি প্রথমে একটি অদ্ভুত পুনরাবৃত্তি বলে মনে হতে পারে কারণ এটি একটি উত্তরাধিকারী রাষ্ট্রের সেরা কিউ মান হিসাবে বর্তমান অবস্থায় একটি ক্রমের Q মান প্রকাশ করে তবে ব্যাকআপ প্রক্রিয়াটি কীভাবে এটি ব্যবহার করে তা আপনি যখন দেখেন তখন তা বোধগম্য হয়: অন্বেষণ প্রক্রিয়া বন্ধ হয়ে যায় যখন এটি একটি লক্ষ্য স্থানে পৌঁছায় এবং পুরষ্কার সংগ্রহ করে, যা চূড়ান্ত রূপান্তরের Q মান হয়ে যায়। পরবর্তী পরবর্তী প্রশিক্ষণ পর্বে, যখন অনুসন্ধানের প্রক্রিয়াটি পূর্ববর্তী অবস্থানে পৌঁছেছে তখন ব্যাকআপ প্রক্রিয়া পূর্ববর্তী রাজ্যের বর্তমান Q মান আপডেট করার জন্য উপরের সমতাটি ব্যবহার করে। পরের বার তার predecessor is visited that state's Q value gets updated, and so on back down the line (Mitchell's book describes a more efficient way of doing this by storing all the computations and replaying them later). Provided every state is visited infinitely often this process eventually computes the optimal Q

Sometimes you will see a learning rate $\alpha$ applied to control how much Q actually gets updated:

Q (s, a) = (1 - α) Q (s, a) + α (r (s, a) + γ max_{a^{'}} Q (s^{'}, a^{'}))

$Q(s, a) = (1-\alpha)Q(s, a) + \alpha(r(s, a) + \gamma \max_{a'} Q(s',a'))$

= Q (s, a) + α (r (s, a) + γ max_{a^{'}} Q (s^{'}, a^{'}) - Q (s, a))

$= Q(s, a) + \alpha(r(s, a) + \gamma \max_{a'} Q(s',a') - Q(s,a))$ Notice now that the update to the Q value does depend on the current Q value. Mitchell's book also explains why that is and why you need

α

$\alpha$ : its for stochastic MDPs. Without

α

$\alpha$ , every time a state,action pair was attempted there would be a different reward so the Q^ function would bounce all over the place and not converge.

α

$\alpha$ is there so that as the new knowledge is only accepted in part. Initially

α

$\alpha$ is set high so that the current (mostly random values) of Q are less influential.

α

$\alpha$ is decreased as training progresses, so that new updates have less and less influence, and now Q learning converges

— S.N.
সূত্র

0

Here is a more detailed explanation of the relationship between state value and action value in Aaron's answer. Let's first take a look at the definitions of value function and action value function under policy $\pi$ :

\begin{aligned} v_{π} (s) = E [G_{t} | S_{t} = s] \\ q_{π} (s, a) = E [G_{t} | S_{t} = s, A_{t} = a] \end{aligned}

$\begin{align} &v_{\pi}(s)=E{\left[G_t|S_t=s\right]} \\ &q_{\pi}(s,a)=E{\left[G_t|S_t=s, A_t=a\right]} \end{align}$ where

G_{t} = \sum_{k = 0}^{\infty} γ^{k} R_{t + k + 1}

$G_t=\sum_{k=0}^{\infty}\gamma^kR_{t+k+1}$ is the return at time

t

$t$ . The relationship between these two value functions can be derived as

\begin{aligned} v_{π} (s) & = E [G_{t} | S_{t} = s] \\ = \sum_{g_{t}} p (g_{t} | S_{t} = s) g_{t} \\ = \sum_{g_{t}} \sum_{a} p (g_{t}, a | S_{t} = s) g_{t} \\ = \sum_{a} p (a | S_{t} = s) \sum_{g_{t}} p (g_{t} | S_{t} = s, A_{t} = a) g_{t} \\ = \sum_{a} p (a | S_{t} = s) E [G_{t} | S_{t} = s, A_{t} = a] \\ = \sum_{a} p (a | S_{t} = s) q_{π} (s, a) \end{aligned}

$\begin{align} v_{\pi}(s)&=E{\left[G_t|S_t=s\right]} \nonumber \\ &=\sum_{g_t} p(g_t|S_t=s)g_t \nonumber \\ &= \sum_{g_t}\sum_{a}p(g_t, a|S_t=s)g_t \nonumber \\ &= \sum_{a}p(a|S_t=s)\sum_{g_t}p(g_t|S_t=s, A_t=a)g_t \nonumber \\ &= \sum_{a}p(a|S_t=s)E{\left[G_t|S_t=s, A_t=a\right]} \nonumber \\ &= \sum_{a}p(a|S_t=s)q_{\pi}(s,a) \end{align}$ The above equation is important. It describes the relationship between two fundamental value functions in reinforcement learning. It is valid for any policy. Moreover, if we have a deterministic policy, then

v_{π} (s) = q_{π} (s, π (s))

$v_{\pi}(s)=q_{\pi}(s,\pi(s))$ . Hope this is helpful for you. (to see more about Bellman optimality equation https://stats.stackexchange.com/questions/347268/proof-of-bellman-optimality-equation/370198#370198)

— Jie Shi
সূত্র

0

The value function is an abstract formulation of utility. And the Q-function is used for the Q-learning algorithm.

— emmanuel
সূত্র

For the context of this question, the

V

$V$ and

Q

$Q$ are different.

— Siong Thye Goh