আতির গেমসে গুগল ডিপমাইন্ড কৃতিত্বগুলি পড়ার পরে আমি কি-লার্নিং এবং কি-নেটওয়ার্কগুলি বোঝার চেষ্টা করছি তবে আমি কিছুটা বিভ্রান্ত হয়ে পড়েছি। ডিসকাউন্ট ফ্যাক্টরের ধারণায় বিভ্রান্তি দেখা দেয়। আমি যা বুঝি তার সংক্ষিপ্তসার কোনও ক্রিয়াকলাপের সর্বোত্তম প্রত্যাশিত মানটির মূল্য নির্ধারণের জন্য একটি গভীর কনভোলিউশনাল নিউরাল নেটওয়ার্ক ব্যবহার করা হয়। নেটওয়ার্ককে ক্ষতির ফাংশনটি হ্রাস করতে হবে
Li=Es,a,r[(Es′[y|s,a]−Q(s,a;θi))2]
যেখানেহয়
যেখানেহল একটি সংখ্যাসমূহের স্কোর মান এবংহল ক্রিয়া নির্বাচনের জন্য স্কোর মান। এবংযথাক্রমে রাষ্ট্র এবং কর্ম সময়ে চয়নএবং রাষ্ট্র এবং সময়ে কর্ম। পূর্ববর্তী পুনরাবৃত্তির এ নেটওয়ার্ক ওজন আছে। একটি ডিসকাউন্ট ফ্যাক্টর যে একাউন্টে স্কোর মূল্যবোধের সময়গত পার্থক্য নিতে হয়।
E [ r + γ m a x a ′ Q ( s ′ , a ′ ; θ - i ) | s,a]Qrs,a s ′ , a ′ t t ′ θ - i γiγθEs′[y|s,a]E[r+γmaxa′Q(s′,a′;θ−i)∣∣s,a]
Qrs,as′,a′tt′θ−iγiসাবস্ক্রিপ্ট হ'ল অস্থায়ী পদক্ষেপ। এখানে সমস্যাটি বোঝা হচ্ছে কেন নির্ভর করে না ।
γθ
দৃশ্য গাণিতিক বিন্দু থেকে ছাড় ফ্যাক্টর এবং সম্ভাবনা প্রতিনিধিত্ব করে পরিস্থিতিতে পৌছনোর রাষ্ট্র থেকে ।s ′ sγs′s
আমি অনুমান করি যে নেটওয়ার্কটি আসলে গামার সঠিক মান অনুসারে পুনরুদ্ধার করতে শেখে , তবে কেন দিচ্ছে না ?γ γ = 1Qγγ=1