দাবাতে সাময়িক পার্থক্য কার্যকর করা


10

আমি একটি দাবা প্রোগ্রাম বিকাশ করছি যা আলফা-বিটা ছাঁটাই অ্যালগরিদম এবং একটি মূল্যায়ন ফাংশন ব্যবহার করে যা নিম্নোক্ত বৈশিষ্ট্যগুলি যেমন পদার্থ, কিংবদন্তি, গতিশীলতা, প্যাঁচা কাঠামো এবং আটকা পড়া টুকরো ইত্যাদির সাহায্যে অবস্থানগুলি মূল্যায়ন করে ..... ..... আমার মূল্যায়ন ফাংশনটি হ'ল থেকে প্রাপ্ত

(পি)=W1উপাদান+ +W2kingsafety+ +W3গতিশীলতা+ +W4গুটি-কাঠামো+ +W5আটকে টুকরো

যেখানে প্রতিটি বৈশিষ্ট্য নির্ধারিত ওজন দেওয়া হয়। এই মুহুর্তে আমি আমার মূল্যায়ন ফাংশনটির ওজনকে সাময়িক পার্থক্যটি ব্যবহার করে সুর করতে চাই, যেখানে এজেন্ট নিজের বিরুদ্ধে খেলেন এবং প্রক্রিয়াটিতে তার পরিবেশ থেকে প্রশিক্ষণের ডেটা সংগ্রহ করেন (যা শক্তিবৃদ্ধি শেখার একটি রূপ)। জাভাতে এটি কীভাবে প্রয়োগ করা যায় সে সম্পর্কে একটি অন্তর্দৃষ্টি পেতে আমি কয়েকটি বই এবং নিবন্ধগুলি পড়েছি তবে সেগুলি বাস্তবের চেয়ে তাত্ত্বিক বলে মনে হয়। পূর্ববর্তী গেমগুলির উপর ভিত্তি করে আমার মূল্যায়ন ফাংশনের ওজনকে কীভাবে স্বয়ংক্রিয়ভাবে টিউন করা যায় সে সম্পর্কে আমার একটি বিশদ বিবরণ এবং সিউডো কোড দরকার।W

উত্তর:


4

আমি বিষয়টিতে আগ্রহী যে কাউকে টিডিএল এবং গভীর-শিক্ষার সংমিশ্রণ করা কাগজটি একবার দেখে নিন ।

মোটামুটি, আপনাকে ইঞ্জিন একে অপরের বিরুদ্ধে গেম খেলতে হবে। প্রতিটি পদের জন্য মিনি সর্বাধিক মূল্যায়ন রেকর্ড করুন। গেমের শেষে, আপনি একটি পুরষ্কার পাবেন, যা দাবা জন্য {0,1, -1।। তারপরে আপনার সাথে আপনার পরামিতিগুলি সামঞ্জস্য করতে হবে:

এখানে চিত্র বর্ণনা লিখুন

এই সমীকরণটি আমাদের জানায় যে আমাদের সাময়িক পার্থক্যের দ্বারা ওজনগুলি সামঞ্জস্য করা উচিত, আপনার কতদূর করা উচিত তা দ্বারা ভারিত। যদি আপনার একটি নিখুঁত মূল্যায়ন হয় তবে আপনার অস্থায়ী পার্থক্য সর্বদা শূন্য হবে, সুতরাং আপনাকে কোনও সামঞ্জস্য করার প্রয়োজন হবে না।

এর পরে, আপনাকে নতুন গেম খেলতে নতুন প্যারামিটার ব্যবহার করতে হবে। যতটা গেম আপনার সামর্থ্য না হওয়া পর্যন্ত বা যখন আপনি মনে করেন এটি রূপান্তরিত হয় তখন পর্যন্ত পুনরাবৃত্তি হয়।

কয়েকটি মন্তব্য:

  1. আমি যে কাগজটি উদ্ধৃত করেছি তা ছাড়ের উপাদানটি প্রয়োগ করে। এটি নিউরাল নেটওয়ার্কের ব্যাকপ্রসারণ অ্যালগরিদমের জন্য সম্পন্ন হয়েছে। তোমার দরকার নেই
  2. আপনার সর্বোত্তম শেখার হার (সমীকরণে আলফা) নিয়ে পরীক্ষা করতে হবে। খুব বড় আপনার শিখনকে অস্থিতিশীল করে তুলবে, খুব কম সংখ্যক রূপান্তরিত হতে বেশি সময় নিবে। আমি লোক 0.70 ব্যবহার করে দেখেছি। আমি যে কাগজটি উদ্ধৃত করেছি তা 1.0।

হাই, আমি আপনার উত্তরটি পছন্দ করি তবে আপনি কি দয়া করে কাগজের লিঙ্কটি ঠিক করতে পারেন?
পদুরা

@ পাদুরা স্থির দয়া করে একটি পড়ুন। এটি তথ্য বিজ্ঞানের জন্য একটি ভাল পঠন ছিল।
হ্যালোওয়ার্ল্ড

(+1) দুর্দান্ত উত্তর। কাগজটি খুব পছন্দ করেছে :)
ডওয়ানি 33

একটি মহান নিবন্ধ এখানেই, লজ্জা আমি এই সময় আমি আমার নিজের দাবা ইঞ্জিন কাজ হয়েছিল জানি যে হয়নি;) আমি ভাবছি যদি আমরা এই কৌশল নিয়ে মিশ্রন দ্বারা উন্নত করতে পারবেন: bjmc.lu.lv/fileadmin/user_upload/lu_portal/ প্রজেক্টি / বিজেএমসি /…
পাদুরা

2

প্রথম মন্তব্য, আপনি নিজেকে কীভাবে প্রবেশ করছেন তা জানতে আপনার 'ওয়ারগেমস' দেখতে হবে।

আপনি যা চান তা চ (পি) যেমন চ (পি) অবস্থানের শক্তির যথাসম্ভব কাছাকাছি।

জেনেটিক আলগো ব্যবহার করে একটি খুব সহজ সমাধান হ'ল 10000 প্লেয়ারকে বিভিন্ন ওজন সহ সেটআপ করা এবং কোনটি জিততে পারে তা দেখুন। তারপরে শীর্ষস্থানীয় 1000 বিজয়ীর ওজন রাখুন, তাদের 10 বার অনুলিপি করুন, ওজনের স্থান অনুসন্ধান করতে কিছুটা পরিবর্তন করুন এবং আবার সিমুলেশন চালান run এটি আদর্শ জিএ, একটি কার্যকরী ফর্ম দেওয়া, এটির জন্য সেরা সহগগুলি কী।

আরেকটি সমাধান হ'ল পজিশনগুলি বের করা, সুতরাং আপনার কাছে একটি টেবিল রয়েছে '(উপাদান, কিংসফটি, গতিশীলতা, প্যাড-কাঠামো, ট্র্যাপডপিসেস) -> অবস্থানের মঙ্গল' যেখানে অবস্থানের সার্থকতা কিছু উদ্দেশ্যমূলক কারণ (ফলাফল জিত / হারানো উপরের সিমুলেশনগুলি ব্যবহার করে গণনা হারাতে হবে) বা পরিচিত ম্যাচ, উপলব্ধ গাছের গভীরতা, গাছের নীচে চলার সংখ্যা যেখানে 5 টি ফ্যাক্টরের মধ্যে একটি ভাল হয়। আপনি তারপরে আপনার চ (পি), রিগ্রেশন, এসভিএম এর জন্য বিভিন্ন কার্যকরী ফর্মগুলি চেষ্টা করতে পারেন।


এটি কোনও অর্থবোধ করে না।
হ্যালো ওয়ার্ল্ড
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.