এখানে আপনার কয়েকটি ভাল পাঠ্যপুস্তক / রেফারেন্স রয়েছে:
সর্বোত্তম
সাটন আরএস, বার্তো এজি। শক্তিবৃদ্ধি শিক্ষা: একটি ভূমিকা। কেমব্রিজ, গণ: একটি ব্র্যাডফোর্ড বই; 1998. 322 পি।
দ্বিতীয় সংস্করণের খসড়া বিনামূল্যে পাওয়া যায়: https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html
রাসেল / নরভিগ অধ্যায় 21:
রাসেল এসজে, নরভিগ পি, ডেভিস ই কৃত্রিম বুদ্ধিমত্তা: একটি আধুনিক পদ্ধতি। আপার স্যাডল রিভার, এনজে: প্রেন্টাইস হল; 2010।
আরও প্রযুক্তিগত
জেস্পেসরি সি। অ্যালগরিদম পুনর্বহাল শেখার জন্য। কৃত্রিম বুদ্ধিমত্তা এবং মেশিন লার্নিং উপর সংশ্লেষ বক্তৃতা। 2010; 4 (1): 1-103। http://www.ualberta.ca/~szepesva/RLBook.html
বার্টসেকাস ডিপি। ডায়নামিক প্রোগ্রামিং এবং সর্বোত্তম নিয়ন্ত্রণ। চতুর্থ সংস্করণ। বেলমন্ট, ভর: অ্যাথেনা বৈজ্ঞানিক; 2007. 1270 পি।
অধ্যায় 6, দ্বিতীয় খণ্ডটি বিনামূল্যে পাওয়া যায়: http://web.mit.edu/dimitrib/www/dpchapter.pdf
আরও সাম্প্রতিক উন্নয়নের জন্য
ওয়্যারিং এম, ভ্যান ওটার্লো এম, সম্পাদক। শক্তিবৃদ্ধি শেখা। বার্লিন, হাইডেলবার্গ: স্প্রিঞ্জার বার্লিন হাইডেলবার্গ; 2012 থেকে উপলব্ধ: http://link.springer.com/10.1007/978-3-642-27645-3
কোচেনডেরফার এমজে, আমাতো সি, চৌধারী জি, হাও জেপি, রেনল্ডস এইচজেডি, থর্টন জেআর, ইত্যাদি। অনিশ্চয়তার অধীনে সিদ্ধান্ত গ্রহণ: তত্ত্ব এবং প্রয়োগ। 1 সংস্করণ। কেমব্রিজ, ম্যাসাচুসেটস: এমআইটি প্রেস; 2015. 352 পি।
মাল্টি এজেন্ট পুনর্বহাল শেখা
বুওনিউ এল, বাবুউকা আর, শুটার বিডি। মাল্টি এজেন্ট শক্তিবৃদ্ধি শিক্ষা: একটি ওভারভিউ। ইন: শ্রীনিবাসন ডি, জৈন এলসি, সম্পাদকগণ। মাল্টি-এজেন্ট সিস্টেম এবং অ্যাপ্লিকেশনগুলিতে উদ্ভাবন - 1। স্প্রিঞ্জার বার্লিন হাইডেলবার্গ; 2010 পি। 183-221। থেকে উপলব্ধ: http://link.springer.com/chapter/10.1007/978-3-642-14435-6_7
শোয়ার্জ এইচএম। মাল্টি এজেন্ট মেশিন লার্নিং: একটি পুনর্বহাল পদ্ধতি approach হোবোকেন, নিউ জার্সি: উইলি; 2014।
ভিডিও / কোর্স
আমি ইউটিউবে ডেভিড সিলভার কোর্সের পরামর্শও দেব: https://www.youtube.com/playlist?list=PL5X3mDkKaJrL42i_jhE4N-p6E2O6262Ofa