আমি ভাবছি কীভাবে টিকি-ট্যাক-টো, দাবা, ঝুঁকি বা অন্য কোনও রাউন্ড ভিত্তিক গেমের জন্য একটি বৃত্তাকার ভিত্তিক বোর্ড গেমের জন্য নিউরাল নেটওয়ার্ক প্রশিক্ষণ দেওয়া যায়। ইনফরমেশন দিয়ে পরবর্তী পদক্ষেপটি পাওয়া খুব সোজা এগিয়ে বলে মনে হচ্ছে গেমের স্টেটকে ইনপুট হিসাবে খাওয়ানো এবং আউটপুটটি বর্তমান প্লেয়ারের পদক্ষেপ হিসাবে ব্যবহার করে। তবে সেই লক্ষ্যে কোনও এআই প্রশিক্ষণ দেওয়াকে সোজা এগিয়ে দেখায় না, কারণ:
- যদি একটি একক পদক্ষেপ ভাল হয় বা না হয় তবে রেটিং থাকতে পারে না, সুতরাং একক চালগুলির প্রশিক্ষণ সঠিক পছন্দ বলে মনে হয় না
- নিউরাল নেটওয়ার্ককে প্রশিক্ষণের জন্য পুরো গেমের সমস্ত স্টেটস (ইনপুট) এবং মুভ (আউটপুট) ব্যবহার করা, সঠিক পছন্দ বলে মনে হয় না কারণ হারানো গেমের মধ্যে থাকা সমস্ত চাল খারাপ নাও হতে পারে
সুতরাং আমি ভাবছি কীভাবে একটি বৃত্তাকার ভিত্তিক বোর্ড গেমের জন্য নিউরাল নেটওয়ার্ক প্রশিক্ষণ দেওয়া যায়? আমি টেন্সরফ্লো ব্যবহার করে টিক-ট্যাক-টোয়ের জন্য একটি নিউরাল নেটওয়ার্ক তৈরি করতে চাই।