রৈখিক ফাংশন আনুমানিকের সাথে কীভাবে মান-কিউ-মানগুলিতে ফিট করা যায়

শক্তিবৃদ্ধি শেখার ক্ষেত্রে লিনিয়ার ফাংশন আনুমানিকতা প্রায়শই ব্যবহৃত হয় যখন বড় বড় রাষ্ট্রের স্পেস থাকে। (যখন সারণীগুলি অনিবার্য হয়ে উঠবে তখন))

লিনিয়ার ফাংশন আনুমানিকের সাথে $Q-$ মানটির ফর্মটি দিয়েছিল

প্রশ্নঃ (গুলি, একটি) = W_{1} চ_{1} (গুলি, একটি) + + W_{2} চ_{2} (গুলি, একটি) + + \dots,

$Q(s,a) = w_1 f_1(s,a) + w_2 f_2(s,a) + \cdots,$

যেখানে $w_i$ ওজন, এবং $f_i$ বৈশিষ্ট্য।

বৈশিষ্ট্যগুলি ব্যবহারকারী দ্বারা পূর্বনির্ধারিত হয়। আমার প্রশ্ন, ওজন কীভাবে বরাদ্দ করা হয়?

আমি সম্পর্কে কিছু বক্তৃতার স্লাইডগুলি পড়ে / ডাউনলোড করেছি ফাংশন আনুমানিকতার সাথে শিখছি। তাদের বেশিরভাগের রিনিয়ার রিগ্রেশন সম্পর্কিত স্লাইড রয়েছে যা অনুসরণ করে। যেহেতু তারা কেবল স্লাইড, সেগুলি অসম্পূর্ণ হতে থাকে। আমি ভাবছি দুটি বিষয়ের মধ্যে সংযোগ / সম্পর্ক কী is $Q-$

machine-learning feature-selection reinforcement-learning

— CGO
সূত্র

ফাংশন আনুমানিককরণ মূলত একটি রিগ্রেশন সমস্যা (সাধারণ অর্থে, যেমন শ্রেণিবদ্ধের বিপরীতে যেখানে শ্রেণি বিযুক্ত), অর্থাৎ ইনপুট থেকে কোনও ফাংশন ম্যাপিং শেখার চেষ্টা করা হয় (আপনার ক্ষেত্রে $f(s,a)$ সত্যই মূল্যবান আউটপুট $Q(s,a)$ । যেহেতু আমাদের কাছে সমস্ত ইনপুট / আউটপুট মানগুলির একটি পূর্ণ সারণী নেই তবে পরিবর্তে একই সাথে $Q(s,a)$ শিখুন এবং অনুমান করুন , প্যারামিটারগুলি (এখানে: ওজন $w$ ) সরাসরি ডেটা থেকে গণনা করা যায় না। গ্রেডিয়েন্ট অবতরণ ব্যবহার করা এখানে একটি সাধারণ পন্থা ।

মান ফাংশন আনুমানিককরণ সহ $Q(s,a)$ শেখার জন্য সাধারণ অ্যালগরিদম এখানে

আইনিট প্যারামিটার-ভেক্টর $w=(w_1,w_2,....,w_n)$ এলোমেলোভাবে (যেমন [0,1])
প্রতিটি পর্বের জন্য:
1. $s\leftarrow$ পর্বের প্রাথমিক অবস্থায়
2. $a\leftarrow$ নীতি দ্বারা প্রদত্ত কর্ম $\pi$ (সুপারিশ: $\epsilon$ -greedy)
3. পদক্ষেপ নিন $a$ , পুরস্কার পালন $r$ এবং পরবর্তী রাষ্ট্র $s'$
4. $w\leftarrow w+ \alpha(r+\gamma * max_{a'}Q(s',a') - Q(s,a)) \vec\nabla_wQ(s,a)$
5. $s\leftarrow s'$
$s$ টার্মিনাল হওয়া পর্যন্ত 2-5 পুনরাবৃত্তি করুন

কোথায় ...

$\alpha\in[0,1]$ হল শিক্ষার হার
$\gamma\in[0,1]$ হ'ল ছাড়ের হার
$max_{a'}Q(s',a')$ ক্রিয়া $a'$ রাজ্যের $s'$ পূর্ণবিস্তার $Q(s',a)$
$\vec\nabla_wQ(s,a)$ এর গ্রেডিয়েন্ট হয় $Q(s,a)$ মধ্যে $w$ । আপনার রৈখিক ক্ষেত্রে, গ্রেডিয়েন্ট একটি ভেক্টর সহজভাবে হয় $(f_1(s,a),...,f_n(s,a))$

প্যারামিটার / ওজন-আপডেট (চতুর্থ ধাপ) এমনভাবে পড়া যায়:

$(r+\gamma * max_a'Q(s',a')) - (Q(s,a))$ ভবিষ্যদ্বাণী মধ্যে ত্রুটি $Q(s,a)$ এবং এর জন্য "প্রকৃত" মান $Q(s,a)$ , যা পুরস্কার $r$ প্রাপ্তএখন প্লাসপ্রত্যাশিত, ছাড় লোভী নীতি নিম্নলিখিত পুরস্কারপরে $\gamma * max_a'Q(s',a')$
$\vec\nabla_wQ(s,a)$ $\alpha$

প্রধান উৎস:

$Q(s,a)$ $V(s)$ $e$

আরও রেফারেন্স

$Q(s,a)$
গিস্ট এবং পিটকুইনের দ্বারা প্যারামেট্রিক মান ফাংশন প্রায়ের সংক্ষিপ্তসার জরিপ । প্রতিশ্রুতিবদ্ধ মনে হচ্ছে, তবে আমি এখনও এটি পড়িনি।

— স্টিফেন
সূত্র

বার্তো ও সাটনের জন্য ভাঙা লিঙ্ক! এখন এখানে -> অসম্পূর্ণতা. net/book/ the-book.html :) এবং ইবুক অসম্পূর্ণতা. net/book/ebook হিসাবে কিন্তু আমি জানি না কোথায় একটি মোবি ফাইল খুঁজে পেতে

— net

আপনি যেমনটি বলেছিলেন তেমন সমস্ত ফাইয়ের সংশ্লেষ হওয়ার পরিবর্তে ডাব্লু কলাম ভেক্টরের ক্ষেত্রে কি (এস, এ) এর গ্রেডিয়েন্ট নয়? উদ্দেশ্যটি হ'ল প্রতিটি ওজন বৈশিষ্ট্যটির মান অনুসারে পরিবর্তিত হয় যা এটির গুণক হয়।

— মিগুয়েল সরাইভা

@ মিগুয়েলসারাইভা হ্যাঁ, এটি স্থির করুন। আপনাকে অনেক ধন্যবাদ.

— স্টেফেন