You have it right, the V function gives you the value of a state, and Q gives you the value of an action in a state (following a given policy π). I found the clearest explanation of Q-learning and how it works in Tom Mitchell's book "Machine Learning" (1997), ch. 13, which is downloadable. V is defined as the sum of an infinite series but its not important here. What matters is the Q function is defined as
Q(s,a)=r(s,a)+γV∗(δ(s,a))
where V* is the best value of a state if you could follow an optimum policy which you don't know. However it has a nice characterization in terms of Q
V∗(s)=maxa′Q(s,a′)
Computing Q is done by replacing the V∗ in the first equation to give
Q(s,a)=r(s,a)+γmaxa′Q(δ(s,a),a′)
এটি প্রথমে একটি অদ্ভুত পুনরাবৃত্তি বলে মনে হতে পারে কারণ এটি একটি উত্তরাধিকারী রাষ্ট্রের সেরা কিউ মান হিসাবে বর্তমান অবস্থায় একটি ক্রমের Q মান প্রকাশ করে তবে ব্যাকআপ প্রক্রিয়াটি কীভাবে এটি ব্যবহার করে তা আপনি যখন দেখেন তখন তা বোধগম্য হয়: অন্বেষণ প্রক্রিয়া বন্ধ হয়ে যায় যখন এটি একটি লক্ষ্য স্থানে পৌঁছায় এবং পুরষ্কার সংগ্রহ করে, যা চূড়ান্ত রূপান্তরের Q মান হয়ে যায়। পরবর্তী পরবর্তী প্রশিক্ষণ পর্বে, যখন অনুসন্ধানের প্রক্রিয়াটি পূর্ববর্তী অবস্থানে পৌঁছেছে তখন ব্যাকআপ প্রক্রিয়া পূর্ববর্তী রাজ্যের বর্তমান Q মান আপডেট করার জন্য উপরের সমতাটি ব্যবহার করে। পরের বার তার predecessor is visited that state's Q value gets updated, and so on back down the line (Mitchell's book describes a more efficient way of doing this by storing all the computations and replaying them later). Provided every state is visited infinitely often this process eventually computes the optimal Q
Sometimes you will see a learning rate α applied to control how much Q actually gets updated:
Q(s,a)=(1−α)Q(s,a)+α(r(s,a)+γmaxa′Q(s′,a′))
=Q(s,a)+α(r(s,a)+γmaxa′Q(s′,a′)−Q(s,a))
Notice now that the update to the Q value does depend on the current Q value. Mitchell's book also explains why that is and why you need α: its for stochastic MDPs. Without α, every time a state,action pair was attempted there would be a different reward so the Q^ function would bounce all over the place and not converge. α is there so that as the new knowledge is only accepted in part. Initially α is set high so that the current (mostly random values) of Q are less influential. α is decreased as training progresses, so that new updates have less and less influence, and now Q learning converges