দাবাতে সাময়িক পার্থক্য কার্যকর করা

আমি একটি দাবা প্রোগ্রাম বিকাশ করছি যা আলফা-বিটা ছাঁটাই অ্যালগরিদম এবং একটি মূল্যায়ন ফাংশন ব্যবহার করে যা নিম্নোক্ত বৈশিষ্ট্যগুলি যেমন পদার্থ, কিংবদন্তি, গতিশীলতা, প্যাঁচা কাঠামো এবং আটকা পড়া টুকরো ইত্যাদির সাহায্যে অবস্থানগুলি মূল্যায়ন করে ..... ..... আমার মূল্যায়ন ফাংশনটি হ'ল থেকে প্রাপ্ত

চ (পি) = W_{1} \cdot উপাদান + + W_{2} \cdot kingsafety + + W_{3} \cdot গতিশীলতা + + W_{4} \cdot গুটি-কাঠামো + + W_{5} \cdot আটকে টুকরো

$f(p) = w_1 \cdot \text{material} + w_2 \cdot \text{kingsafety} + w_3 \cdot \text{mobility} + w_4 \cdot \text{pawn-structure} + w_5 \cdot \text{trapped pieces}$

যেখানে প্রতিটি বৈশিষ্ট্য নির্ধারিত ওজন দেওয়া হয়। এই মুহুর্তে আমি আমার মূল্যায়ন ফাংশনটির ওজনকে সাময়িক পার্থক্যটি ব্যবহার করে সুর করতে চাই, যেখানে এজেন্ট নিজের বিরুদ্ধে খেলেন এবং প্রক্রিয়াটিতে তার পরিবেশ থেকে প্রশিক্ষণের ডেটা সংগ্রহ করেন (যা শক্তিবৃদ্ধি শেখার একটি রূপ)। জাভাতে এটি কীভাবে প্রয়োগ করা যায় সে সম্পর্কে একটি অন্তর্দৃষ্টি পেতে আমি কয়েকটি বই এবং নিবন্ধগুলি পড়েছি তবে সেগুলি বাস্তবের চেয়ে তাত্ত্বিক বলে মনে হয়। পূর্ববর্তী গেমগুলির উপর ভিত্তি করে আমার মূল্যায়ন ফাংশনের ওজনকে কীভাবে স্বয়ংক্রিয়ভাবে টিউন করা যায় সে সম্পর্কে আমার একটি বিশদ বিবরণ এবং সিউডো কোড দরকার। $w$

machine-learning algorithms reinforcement-learning

— user2890137
সূত্র

উত্তর:

আমি বিষয়টিতে আগ্রহী যে কাউকে টিডিএল এবং গভীর-শিক্ষার সংমিশ্রণ করা কাগজটি একবার দেখে নিন ।

মোটামুটি, আপনাকে ইঞ্জিন একে অপরের বিরুদ্ধে গেম খেলতে হবে। প্রতিটি পদের জন্য মিনি সর্বাধিক মূল্যায়ন রেকর্ড করুন। গেমের শেষে, আপনি একটি পুরষ্কার পাবেন, যা দাবা জন্য {0,1, -1।। তারপরে আপনার সাথে আপনার পরামিতিগুলি সামঞ্জস্য করতে হবে:

এই সমীকরণটি আমাদের জানায় যে আমাদের সাময়িক পার্থক্যের দ্বারা ওজনগুলি সামঞ্জস্য করা উচিত, আপনার কতদূর করা উচিত তা দ্বারা ভারিত। যদি আপনার একটি নিখুঁত মূল্যায়ন হয় তবে আপনার অস্থায়ী পার্থক্য সর্বদা শূন্য হবে, সুতরাং আপনাকে কোনও সামঞ্জস্য করার প্রয়োজন হবে না।

এর পরে, আপনাকে নতুন গেম খেলতে নতুন প্যারামিটার ব্যবহার করতে হবে। যতটা গেম আপনার সামর্থ্য না হওয়া পর্যন্ত বা যখন আপনি মনে করেন এটি রূপান্তরিত হয় তখন পর্যন্ত পুনরাবৃত্তি হয়।

কয়েকটি মন্তব্য:

আমি যে কাগজটি উদ্ধৃত করেছি তা ছাড়ের উপাদানটি প্রয়োগ করে। এটি নিউরাল নেটওয়ার্কের ব্যাকপ্রসারণ অ্যালগরিদমের জন্য সম্পন্ন হয়েছে। তোমার দরকার নেই
আপনার সর্বোত্তম শেখার হার (সমীকরণে আলফা) নিয়ে পরীক্ষা করতে হবে। খুব বড় আপনার শিখনকে অস্থিতিশীল করে তুলবে, খুব কম সংখ্যক রূপান্তরিত হতে বেশি সময় নিবে। আমি লোক 0.70 ব্যবহার করে দেখেছি। আমি যে কাগজটি উদ্ধৃত করেছি তা 1.0।

— ওহে বিশ্ব
সূত্র

হাই, আমি আপনার উত্তরটি পছন্দ করি তবে আপনি কি দয়া করে কাগজের লিঙ্কটি ঠিক করতে পারেন?

— পদুরা

@ পাদুরা স্থির দয়া করে একটি পড়ুন। এটি তথ্য বিজ্ঞানের জন্য একটি ভাল পঠন ছিল।

— হ্যালোওয়ার্ল্ড

(+1) দুর্দান্ত উত্তর। কাগজটি খুব পছন্দ করেছে :)

— ডওয়ানি 33

একটি মহান নিবন্ধ এখানেই, লজ্জা আমি এই সময় আমি আমার নিজের দাবা ইঞ্জিন কাজ হয়েছিল জানি যে হয়নি;) আমি ভাবছি যদি আমরা এই কৌশল নিয়ে মিশ্রন দ্বারা উন্নত করতে পারবেন: bjmc.lu.lv/fileadmin/user_upload/lu_portal/ প্রজেক্টি / বিজেএমসি /…

— পাদুরা

প্রথম মন্তব্য, আপনি নিজেকে কীভাবে প্রবেশ করছেন তা জানতে আপনার 'ওয়ারগেমস' দেখতে হবে।

আপনি যা চান তা চ (পি) যেমন চ (পি) অবস্থানের শক্তির যথাসম্ভব কাছাকাছি।

জেনেটিক আলগো ব্যবহার করে একটি খুব সহজ সমাধান হ'ল 10000 প্লেয়ারকে বিভিন্ন ওজন সহ সেটআপ করা এবং কোনটি জিততে পারে তা দেখুন। তারপরে শীর্ষস্থানীয় 1000 বিজয়ীর ওজন রাখুন, তাদের 10 বার অনুলিপি করুন, ওজনের স্থান অনুসন্ধান করতে কিছুটা পরিবর্তন করুন এবং আবার সিমুলেশন চালান run এটি আদর্শ জিএ, একটি কার্যকরী ফর্ম দেওয়া, এটির জন্য সেরা সহগগুলি কী।

আরেকটি সমাধান হ'ল পজিশনগুলি বের করা, সুতরাং আপনার কাছে একটি টেবিল রয়েছে '(উপাদান, কিংসফটি, গতিশীলতা, প্যাড-কাঠামো, ট্র্যাপডপিসেস) -> অবস্থানের মঙ্গল' যেখানে অবস্থানের সার্থকতা কিছু উদ্দেশ্যমূলক কারণ (ফলাফল জিত / হারানো উপরের সিমুলেশনগুলি ব্যবহার করে গণনা হারাতে হবে) বা পরিচিত ম্যাচ, উপলব্ধ গাছের গভীরতা, গাছের নীচে চলার সংখ্যা যেখানে 5 টি ফ্যাক্টরের মধ্যে একটি ভাল হয়। আপনি তারপরে আপনার চ (পি), রিগ্রেশন, এসভিএম এর জন্য বিভিন্ন কার্যকরী ফর্মগুলি চেষ্টা করতে পারেন।

— user3053
সূত্র

এটি কোনও অর্থবোধ করে না।

— হ্যালো ওয়ার্ল্ড