আমি এর উপরে একটি গভীর নিউরাল নেটওয়ার্ক প্রশিক্ষণের অভিপ্রায় নিয়ে একটি সাধারণ খেলনা গেমটি লিখছি। গেমস বিধিগুলি মোটামুটি নিম্নলিখিত:
- গেমটিতে ষড়ভুজ কোষ দ্বারা গঠিত একটি বোর্ড রয়েছে।
- উভয় খেলোয়াড়েরই পিসের সমান সংগ্রহ রয়েছে যা তারা বোর্ডে অবাধে অবস্থানের জন্য চয়ন করতে পারেন।
- একে অপরের অবস্থান ও কনফিগারেশনের উপর নির্ভর করে বিভিন্ন ধরণের টুকরো পুরষ্কার পয়েন্টগুলি (বা প্রতিপক্ষের পয়েন্ট হ্রাস) করা।
- যার বেশি পয়েন্ট রয়েছে তার জয়।
অতিরিক্ত নিয়ম রয়েছে (টার্নগুলি, সংখ্যা এবং টুকরোগুলির ধরণগুলি সম্পর্কে ...) তবে এগুলি এই প্রশ্নের প্রসঙ্গে গুরুত্বপূর্ণ নয়। আমি একটি গভীর নিউরাল নেটওয়ার্ক তৈরি করতে চাই যা নিজের বিরুদ্ধে খেলে পুনরাবৃত্তভাবে শিখতে পারে। আমার প্রশ্নগুলি ইনপুট এবং আউটপুট উপস্থাপন সম্পর্কে। নির্দিষ্টভাবে:
- টুকরো টাকার প্যাটার্নের বিষয়টি বিবেচনা করে আমি কমপক্ষে কিছু বিভ্রান্তিক স্তর রাখার কথা ভাবছিলাম। বোর্ডটি বিভিন্ন আকারের হতে পারে তবে নীতিগতভাবে খুব ছোট (আমার পরীক্ষাগুলিতে 6x10, কয়েকটি ঘর দ্বারা প্রসারিত করার জন্য)। এটা কি কোন মানে আছে? আমি কোন ধরণের পুলিং ব্যবহার করতে পারি?
- উভয় পক্ষের প্রতিনিধিত্ব কিভাবে? ইন এই কাগজ চলতে চলতে সম্পর্কে, লেখক দুটি ইনপুট ম্যাট্রিক্স, সাদা পাথর জন্য এক এবং কালো পাথর জন্য ব্যবহার করুন। এটি কি এই ক্ষেত্রে কাজ করতে পারে? তবে মনে রাখবেন আমার কাছে বিভিন্ন ধরণের টুকরো রয়েছে, এ, বি, সি এবং ডি বলুন আমাকে কি 2x4 ইনপুট ম্যাট্রিক ব্যবহার করা উচিত? এটি আমার কাছে খুব কম ও সামান্য দক্ষতার বলে মনে হচ্ছে। আমি আশঙ্কা করছি যে এটি কনভ্যুশনাল স্তরগুলি কাজ করার জন্য খুব কমই বিচ্ছিন্ন হবে।
- আমি ভেবেছিলাম যে আউটপুটটি বোর্ডের পজিশনের প্রতিনিধিত্বকারী ম্যাট্রিক্সের উপরে সম্ভাবনার বন্টন হতে পারে, পাশাপাশি কোনও টুকরা কী খেলতে হবে তা নির্দেশ করে সম্ভাবনার পৃথক অ্যারেও হতে পারে। তবে, আমার এই পালাটি পাস করার ক্ষমতাও উপস্থাপন করতে হবে , যা খুব গুরুত্বপূর্ণ। অন্যান্য সম্ভাবনার মধ্যে এর তাত্পর্যটি কমিয়ে না ফেলে আমি কীভাবে এটি করতে পারি?
- এবং সর্বাপেক্ষা গুরুত্বপূর্ণ , আমি কী জয়ের চালগুলি প্রয়োগ করি বা চালগুলি খুব বেশি হারায়? বিজয়ী পদক্ষেপগুলি প্রয়োগ করা সহজ কারণ আমি সবেমাত্র কাঙ্ক্ষিত সম্ভাবনাগুলি সেট করেছি 1 তবে হেরে যাওয়ার সময় আমি কী করতে পারি? এই সরানোর সম্ভাবনাটিকে 0 এবং অন্যান্য সমস্তকে একই মান হিসাবে সেট করবেন? এছাড়াও, চূড়ান্ত স্কোর পার্থক্যের দ্বারা পদক্ষেপগুলি প্রয়োগ করা কি অর্থবোধ করে, যদিও এটি আউটপুটগুলির অর্থের বিপক্ষে যায়, যা প্রায় সম্ভাবনা?
এছাড়াও, আমি সিডেপটিককে ফ্রেমওয়ার্ক হিসাবে ব্যবহার করার চিন্তাভাবনা করে নোড.জেজে গেম ইঞ্জিনটি বিকাশ করেছি, তবে আমি নিশ্চিত নই যে এটি কনভোলশনাল নেটওয়ার্কগুলির সাথে কাজ করতে পারে (আমি সন্দেহ করি যে স্থানীয় উপলব্ধি ক্ষেত্রগুলির সাথে সম্পর্কিত ওজন ঠিক করার উপায় আছে)। নোডের সাথে সামঞ্জস্যপূর্ণ অন্যান্য লাইব্রেরিতে কোনও পরামর্শ?