আমি একটি দাবা প্রোগ্রাম বিকাশ করছি যা আলফা-বিটা ছাঁটাই অ্যালগরিদম এবং একটি মূল্যায়ন ফাংশন ব্যবহার করে যা নিম্নোক্ত বৈশিষ্ট্যগুলি যেমন পদার্থ, কিংবদন্তি, গতিশীলতা, প্যাঁচা কাঠামো এবং আটকা পড়া টুকরো ইত্যাদির সাহায্যে অবস্থানগুলি মূল্যায়ন করে ..... ..... আমার মূল্যায়ন ফাংশনটি হ'ল থেকে প্রাপ্ত
যেখানে প্রতিটি বৈশিষ্ট্য নির্ধারিত ওজন দেওয়া হয়। এই মুহুর্তে আমি আমার মূল্যায়ন ফাংশনটির ওজনকে সাময়িক পার্থক্যটি ব্যবহার করে সুর করতে চাই, যেখানে এজেন্ট নিজের বিরুদ্ধে খেলেন এবং প্রক্রিয়াটিতে তার পরিবেশ থেকে প্রশিক্ষণের ডেটা সংগ্রহ করেন (যা শক্তিবৃদ্ধি শেখার একটি রূপ)। জাভাতে এটি কীভাবে প্রয়োগ করা যায় সে সম্পর্কে একটি অন্তর্দৃষ্টি পেতে আমি কয়েকটি বই এবং নিবন্ধগুলি পড়েছি তবে সেগুলি বাস্তবের চেয়ে তাত্ত্বিক বলে মনে হয়। পূর্ববর্তী গেমগুলির উপর ভিত্তি করে আমার মূল্যায়ন ফাংশনের ওজনকে কীভাবে স্বয়ংক্রিয়ভাবে টিউন করা যায় সে সম্পর্কে আমার একটি বিশদ বিবরণ এবং সিউডো কোড দরকার।