রৈখিক ফাংশন আনুমানিকের সাথে কীভাবে মান-কিউ-মানগুলিতে ফিট করা যায়


12

শক্তিবৃদ্ধি শেখার ক্ষেত্রে লিনিয়ার ফাংশন আনুমানিকতা প্রায়শই ব্যবহৃত হয় যখন বড় বড় রাষ্ট্রের স্পেস থাকে। (যখন সারণীগুলি অনিবার্য হয়ে উঠবে তখন))

লিনিয়ার ফাংশন আনুমানিকের সাথে প্রশ্নঃ- মানটির ফর্মটি দিয়েছিল

প্রশ্নঃ(গুলি,একটি)=W11(গুলি,একটি)+ +W22(গুলি,একটি)+ +,

যেখানে Wআমি ওজন, এবং fi বৈশিষ্ট্য।

বৈশিষ্ট্যগুলি ব্যবহারকারী দ্বারা পূর্বনির্ধারিত হয়। আমার প্রশ্ন, ওজন কীভাবে বরাদ্দ করা হয়?

আমি সম্পর্কে কিছু বক্তৃতার স্লাইডগুলি পড়ে / ডাউনলোড করেছি - ফাংশন আনুমানিকতার সাথে শিখছি। তাদের বেশিরভাগের রিনিয়ার রিগ্রেশন সম্পর্কিত স্লাইড রয়েছে যা অনুসরণ করে। যেহেতু তারা কেবল স্লাইড, সেগুলি অসম্পূর্ণ হতে থাকে। আমি ভাবছি দুটি বিষয়ের মধ্যে সংযোগ / সম্পর্ক কী isQ

উত্তর:


11

ফাংশন আনুমানিককরণ মূলত একটি রিগ্রেশন সমস্যা (সাধারণ অর্থে, যেমন শ্রেণিবদ্ধের বিপরীতে যেখানে শ্রেণি বিযুক্ত), অর্থাৎ ইনপুট থেকে কোনও ফাংশন ম্যাপিং শেখার চেষ্টা করা হয় (আপনার ক্ষেত্রে f(s,a) সত্যই মূল্যবান আউটপুট Q(s,a) । যেহেতু আমাদের কাছে সমস্ত ইনপুট / আউটপুট মানগুলির একটি পূর্ণ সারণী নেই তবে পরিবর্তে একই সাথে Q(s,a) শিখুন এবং অনুমান করুন , প্যারামিটারগুলি (এখানে: ওজন w ) সরাসরি ডেটা থেকে গণনা করা যায় না। গ্রেডিয়েন্ট অবতরণ ব্যবহার করা এখানে একটি সাধারণ পন্থা ।

মান ফাংশন আনুমানিককরণ সহ প্রশ্নঃ(গুলি,একটি) শেখার জন্য সাধারণ অ্যালগরিদম এখানে

  • আইনিট প্যারামিটার-ভেক্টর W=(W1,W2,,Wএন) এলোমেলোভাবে (যেমন [0,1])
  • প্রতিটি পর্বের জন্য:

    1. গুলি পর্বের প্রাথমিক অবস্থায়
    2. একটি নীতি দ্বারা প্রদত্ত কর্মπ (সুপারিশ:ε -greedy)
    3. পদক্ষেপ নিন একটি , পুরস্কার পালন R এবং পরবর্তী রাষ্ট্র গুলি'
    4. WW+ +α(R+ +γ*maxaQ(s,a)Q(s,a))wQ(s,a)
    5. ss

    s টার্মিনাল হওয়া পর্যন্ত 2-5 পুনরাবৃত্তি করুন

কোথায় ...

  • α[0,1] হল শিক্ষার হার
  • γ[0,1] হ'ল ছাড়ের হার
  • maxaQ(s,a) ক্রিয়াa রাজ্যেরs পূর্ণবিস্তারQ(s,a)
  • wQ(s,a)এর গ্রেডিয়েন্ট হয়Q(s,a)মধ্যেw। আপনার রৈখিক ক্ষেত্রে, গ্রেডিয়েন্ট একটি ভেক্টর সহজভাবে হয়(f1(s,a),...,fn(s,a))

প্যারামিটার / ওজন-আপডেট (চতুর্থ ধাপ) এমনভাবে পড়া যায়:

  • (r+γmaxaQ(s,a))(Q(s,a)) ভবিষ্যদ্বাণী মধ্যে ত্রুটিQ(s,a) এবং এর জন্য "প্রকৃত" মানQ(s,a) , যা পুরস্কারr প্রাপ্তএখন প্লাসপ্রত্যাশিত, ছাড় লোভী নীতি নিম্নলিখিত পুরস্কারপরে γmaxaQ(s,a)
  • wQ(s,a)α

প্রধান উৎস:

Q(s,a)V(s)e

আরও রেফারেন্স


2
বার্তো ও সাটনের জন্য ভাঙা লিঙ্ক! এখন এখানে -> অসম্পূর্ণতা. net/book/ the-book.html :) এবং ইবুক অসম্পূর্ণতা. net/book/ebook হিসাবে কিন্তু আমি জানি না কোথায় একটি মোবি ফাইল খুঁজে পেতে
net

1
আপনি যেমনটি বলেছিলেন তেমন সমস্ত ফাইয়ের সংশ্লেষ হওয়ার পরিবর্তে ডাব্লু কলাম ভেক্টরের ক্ষেত্রে কি (এস, এ) এর গ্রেডিয়েন্ট নয়? উদ্দেশ্যটি হ'ল প্রতিটি ওজন বৈশিষ্ট্যটির মান অনুসারে পরিবর্তিত হয় যা এটির গুণক হয়।
মিগুয়েল সরাইভা

@ মিগুয়েলসারাইভা হ্যাঁ, এটি স্থির করুন। আপনাকে অনেক ধন্যবাদ.
স্টেফেন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.