কিউ ফাংশনটি কী এবং সংযুক্তি শিক্ষার ক্ষেত্রে ভি ফাংশন কী?


30

আমার কাছে মনে হয় V ফাংশনটি সহজেই Q ফাংশন দ্বারা প্রকাশ করা যেতে পারে এবং এইভাবে V ফাংশনটি আমার কাছে অতিরিক্ত প্রয়োজন বলে মনে হয়। তবে, আমি পুনর্বহাল শেখার ক্ষেত্রে নতুন তাই আমার ধারণা যে আমি কিছু ভুল করেছি got

সংজ্ঞা

প্রশ্ন- এবং ভি-লার্নিং মার্কোভ সিদ্ধান্ত প্রক্রিয়াগুলির প্রসঙ্গে রয়েছে । একজন এমডিপি একটি 5 tuple হয় (S,A,P,R,γ) সঙ্গে

  • S রাষ্ট্রগুলির একটি সেট (সাধারণত সীমাবদ্ধ)
  • A ক্রয়ের একটি সেট (সাধারণত সীমাবদ্ধ)
  • P(s,s,a)=P(st+1=s|st=s,at=a) সম্ভাব্যতা রাষ্ট্র থেকে পেতে হয়s অবস্থায়s কাজের সঙ্গেa
  • R(s,s,a)R রাষ্ট্র থেকে গিয়ে তাৎক্ষণিক পুরস্কারs অবস্থায়s কাজের সঙ্গেa । (এটা আমার মনে হচ্ছে যে সাধারণতs বিষয়)।
  • γ[0,1] কে ডিসকাউন্ট ফ্যাক্টর বলা হয় এবং তা নির্ধারণ করে যে কেউ তাত্ক্ষণিক পুরষ্কারগুলিতে (γ=0 ), মোট পুরষ্কার (γ=1 ) বা কিছু বাণিজ্য বন্ধ রয়েছেকিনা তা নির্ধারণ করে।

রিইনফোর্সমেন্ট লার্নিং অনুসারে একটি নীতি π : সাটন এবং বার্তো দ্বারা পরিচিত একটি ফাংশন π:SA (এটি সম্ভাব্যতা হতে পারে)।

মতে মারিও মার্টিন্স স্লাইড , V ফাংশন হয়

Vπ(s)=Eπ{Rt|st=s}=Eπ{k=0γkrt+k+1|st=s}
এবং প্রশ্ন ফাংশন হয়
Qπ(s,a)=Eπ{Rt|st=s,at=a}=Eπ{k=0γkrt+k+1|st=s,at=a}

আমার চিন্তা

ফাংশন রাজ্যের প্রত্যাশিত সামগ্রিক মান একটি রাষ্ট্রের (পুরস্কার নয়!) কি গুলি নীতি অধীনে π হয়।Vsπ

ফাংশন রাজ্যের কি একটি রাষ্ট্র মান গুলি এবং একটি কর্ম একটি নীতি অধীনে π হয়।Qsaπ

এর অর্থ,

Qπ(s,π(s))=Vπ(s)

রাইট? সুতরাং কেন আমরা মান ফাংশন সব আছে? (আমার ধারণা আমি কিছু মিশ্রিত করেছি)

উত্তর:


15

কিউ-মানগুলি ক্রিয়াগুলি সুস্পষ্ট করার এক দুর্দান্ত উপায় যাতে আপনি এমন সমস্যার মোকাবিলা করতে পারেন যেখানে রূপান্তর ফাংশন উপলব্ধ নেই (মডেল-মুক্ত)। তবে, যখন আপনার অ্যাকশন-স্পেসটি বড় হয়, জিনিসগুলি এত সুন্দর হয় না এবং কি-মানগুলি এত সুবিধাজনক হয় না। বিপুল সংখ্যক ক্রিয়া বা এমনকি ক্রমাগত অ্যাকশন-স্পেসের কথা চিন্তা করুন।

একটি নমুনা দৃষ্টিকোণ থেকে, এরQ(s,a) মাত্রিকতা এরV(s) চেয়ে বেশি, সুতরাং ( গুলি ) এর সাথে তুলনা করে পর্যাপ্ত (s,a) নমুনা পাওয়া শক্ত হতে পারে । আপনার যদি ট্রানজিশন ফাংশনে অ্যাক্সেস থাকে তবে কখনও কখনও ভি ভাল হয়।(s)V

উভয় একত্রিত হয় যেখানে অন্যান্য ব্যবহার আছে। উদাহরণস্বরূপ, সুবিধা ফাংশন যেখানে A(s,a)=Q(s,a)V(s) । আপনি যদি আগ্রহী হন তবে আপনি এখানে সুবিধাজনক কার্যগুলি ব্যবহার করে একটি সাম্প্রতিক উদাহরণ খুঁজে পেতে পারেন:

ডিপ রিইনফোর্সমেন্ট লার্নিংয়ের জন্য নেটওয়ার্ক আর্কিটেকচারগুলি ডুয়েলিং

জিয়ু ওয়াং, টম শ্যাওল, মাত্তিও হেসেল, হ্যাডো ভ্যান হ্যাসেল্ট, মার্ক ল্যানটোট এবং নান্দো ডি ফ্রেইটাসের দ্বারা।


19

Vπ(s) এমডিপি (মার্কভ সিদ্ধান্ত প্রক্রিয়া) এর স্টেট-ভ্যালু ফাংশন। আশা প্রত্যাবর্তন রাষ্ট্র থেকে শুরু হচ্ছেs নিম্নলিখিত নীতিπ

অভিব্যক্তিতে

Vπ(s)=Eπ{Gt|st=s}

Gt হ'ল ধাপেt থেকে মোট অসমাপ্ত পুরষ্কার,Rt বিপরীতেযা তাৎক্ষণিক প্রত্যাবর্তন। এখানে আপনি নীতি অনুযায়ী সমস্ত কর্ম প্রত্যাশা গ্রহণ করা হয়π

Qπ(s,a) হল ক্রিয়া-মান ফাংশন function এটা রাষ্ট্র থেকে শুরু প্রত্যাশিত প্রত্যাবর্তনs , নীতি নিম্নলিখিতπ , ব্যবস্থা গ্রহণেরa । এটি নির্দিষ্ট রাজ্যে নির্দিষ্ট ক্রিয়াকে কেন্দ্র করে।

Qπ(s,a)=Eπ{Gt|st=s,at=a}

মধ্যে সম্পর্ক Qπ এবং Vπ (যে রাষ্ট্র হচ্ছে মান) হয়

Vπ(s)=aAπ(a|s)Qπ(a,s)

আপনি সেই ক্রিয়াটি গ্রহণের সম্ভাব্যতা (নীতি π(a|s) ) দ্বারা গুণিত প্রতিটি ক্রিয়া-মান যোগ করেন ।

আপনি যদি গ্রিড ওয়ার্ল্ড উদাহরণটি মনে করেন তবে আপনি (উপরে / নিচে / ডান / বাম) সম্ভাব্যতাটিকে (উপরে / নীচে / ডান / বাম) এক ধাপ এগিয়ে রাষ্ট্রীয় মান দিয়ে গুণাবেন।


5
এটি সবচেয়ে সংক্ষিপ্ত উত্তর।
ব্রেট

আমার কাছে এমন উত্স রয়েছে যা জানিয়েছে যে । আপনার উত্তরে, ভি π ( গুলি ) = π ( এস ) কিউ π ( , এস ) এর সাথে আপনি এই সমীকরণটি কীভাবে সম্পর্কিত ? আপনার সমীকরণে, আপনি Q এর ওজনযুক্ত যোগফলের ক্ষেত্রে সংজ্ঞা দিচ্ছেনVπ(s)=maxaAQπ(s,a)Vπ(s)=aAπ(as)Qπ(a,s)VQমান। এটি আমার সংজ্ঞা থেকে পৃথক, যা কে সর্বোচ্চ Q হিসাবে সংজ্ঞায়িত করে । VQ
nbro

@ এনব্রো আমার বিশ্বাস আপনি কী ধরণের নীতি অনুসরণ করছেন তা নির্ভর করে। খাঁটি লোভী নীতিতে আপনি সঠিক। তবে এটি যদি আরও অনুসন্ধানের নীতিমালা হত তবে এটি কোনও পদক্ষেপের
ভিত্তিতে

7

You have it right, the V function gives you the value of a state, and Q gives you the value of an action in a state (following a given policy π). I found the clearest explanation of Q-learning and how it works in Tom Mitchell's book "Machine Learning" (1997), ch. 13, which is downloadable. V is defined as the sum of an infinite series but its not important here. What matters is the Q function is defined as

Q(s,a)=r(s,a)+γV(δ(s,a))
where V* is the best value of a state if you could follow an optimum policy which you don't know. However it has a nice characterization in terms of Q
V(s)=maxaQ(s,a)
Computing Q is done by replacing the V in the first equation to give
Q(s,a)=r(s,a)+γmaxaQ(δ(s,a),a)

এটি প্রথমে একটি অদ্ভুত পুনরাবৃত্তি বলে মনে হতে পারে কারণ এটি একটি উত্তরাধিকারী রাষ্ট্রের সেরা কিউ মান হিসাবে বর্তমান অবস্থায় একটি ক্রমের Q মান প্রকাশ করে তবে ব্যাকআপ প্রক্রিয়াটি কীভাবে এটি ব্যবহার করে তা আপনি যখন দেখেন তখন তা বোধগম্য হয়: অন্বেষণ প্রক্রিয়া বন্ধ হয়ে যায় যখন এটি একটি লক্ষ্য স্থানে পৌঁছায় এবং পুরষ্কার সংগ্রহ করে, যা চূড়ান্ত রূপান্তরের Q মান হয়ে যায়। পরবর্তী পরবর্তী প্রশিক্ষণ পর্বে, যখন অনুসন্ধানের প্রক্রিয়াটি পূর্ববর্তী অবস্থানে পৌঁছেছে তখন ব্যাকআপ প্রক্রিয়া পূর্ববর্তী রাজ্যের বর্তমান Q মান আপডেট করার জন্য উপরের সমতাটি ব্যবহার করে। পরের বার তার predecessor is visited that state's Q value gets updated, and so on back down the line (Mitchell's book describes a more efficient way of doing this by storing all the computations and replaying them later). Provided every state is visited infinitely often this process eventually computes the optimal Q

Sometimes you will see a learning rate α applied to control how much Q actually gets updated:

Q(s,a)=(1α)Q(s,a)+α(r(s,a)+γmaxaQ(s,a))
=Q(s,a)+α(r(s,a)+γmaxaQ(s,a)Q(s,a))
Notice now that the update to the Q value does depend on the current Q value. Mitchell's book also explains why that is and why you need α: its for stochastic MDPs. Without α, every time a state,action pair was attempted there would be a different reward so the Q^ function would bounce all over the place and not converge. α is there so that as the new knowledge is only accepted in part. Initially α is set high so that the current (mostly random values) of Q are less influential. α is decreased as training progresses, so that new updates have less and less influence, and now Q learning converges


0

Here is a more detailed explanation of the relationship between state value and action value in Aaron's answer. Let's first take a look at the definitions of value function and action value function under policy π:

vπ(s)=E[Gt|St=s]qπ(s,a)=E[Gt|St=s,At=a]
where Gt=k=0γkRt+k+1 is the return at time t. The relationship between these two value functions can be derived as
vπ(s)=E[Gt|St=s]=gtp(gt|St=s)gt=gtap(gt,a|St=s)gt=ap(a|St=s)gtp(gt|St=s,At=a)gt=ap(a|St=s)E[Gt|St=s,At=a]=ap(a|St=s)qπ(s,a)
The above equation is important. It describes the relationship between two fundamental value functions in reinforcement learning. It is valid for any policy. Moreover, if we have a deterministic policy, then vπ(s)=qπ(s,π(s)). Hope this is helpful for you. (to see more about Bellman optimality equation https://stats.stackexchange.com/questions/347268/proof-of-bellman-optimality-equation/370198#370198)


0

The value function is an abstract formulation of utility. And the Q-function is used for the Q-learning algorithm.


For the context of this question, the V and Q are different.
Siong Thye Goh
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.