শক্তিবৃদ্ধি শেখার ক্ষেত্রে কীভাবে অবৈধ পদক্ষেপগুলি পরিচালনা করবেন?

20

আমি এমন একটি এআই তৈরি করতে চাই যা পাঁচ-ইন-এ-সারি / গোমোকু খেলতে পারে। আমি শিরোনামে যেমন উল্লেখ করেছি, আমি এর জন্য পুনর্বহাল শেখার ব্যবহার করতে চাই।

আমি বেসলাইন সহ পলিসি গ্রেডিয়েন্ট পদ্ধতি, যথা নাম REINFORCE ব্যবহার করি । মান এবং নীতি ফাংশন আনুমানিক জন্য, আমি একটি নিউরাল নেটওয়ার্ক ব্যবহার করি । এটি সংবিধানমূলক এবং সম্পূর্ণরূপে সংযুক্ত স্তর রয়েছে। আউটপুট ব্যতীত সমস্ত স্তরগুলি ভাগ করা আছে। নীতিটির আউটপুট স্তরটিতে $8 \times 8=64$ (বোর্ডের আকার) আউটপুট ইউনিট এবং সেগুলিতে সফটম্যাক্স রয়েছে। সুতরাং এটি স্টোকাস্টিক। তবে যদি নেটওয়ার্কটি একটি অবৈধ পদক্ষেপের জন্য খুব উচ্চ সম্ভাবনা তৈরি করে? একটি অবৈধ পদক্ষেপ তখন হয় যখন এজেন্ট কোনও স্কোয়ারটি পরীক্ষা করতে চায় যার মধ্যে একটি "এক্স" বা "ও" থাকে। আমি মনে করি এটি সেই গেমের রাজ্যে আটকে যেতে পারে।

আপনি কি এই সমস্যার জন্য কোনও সমাধানের প্রস্তাব দিতে পারেন?

আমার অনুমান অভিনেতা-সমালোচক পদ্ধতিটি ব্যবহার করা । একটি অবৈধ পদক্ষেপের জন্য, আমাদের একটি নেতিবাচক পুরষ্কার দেওয়া উচিত এবং প্রতিপক্ষকে পালা দেওয়া উচিত।

— মোলনার ইস্তভান
সূত্র

10

কেবল অবৈধ পদক্ষেপগুলি উপেক্ষা করুন।

অন্বেষণের জন্য সম্ভবত এটি সম্ভব যে আপনি সর্বাধিক সম্ভাবনার সাথে এই পদক্ষেপটি কার্যকর করবেন না, পরিবর্তে আউটপুটযুক্ত সম্ভাবনার উপর ভিত্তি করে এলোমেলোভাবে পদক্ষেপগুলি বেছে নিন। আপনি যদি কেবল অবৈধ পদক্ষেপের শাস্তি দেন তবে তারা কিছুটা সম্ভাবনা বজায় রাখবে (তবে ছোট) এবং তাই সময়ে সময়ে সম্পাদিত হবে (তবে খুব কমই)। সুতরাং আপনি সর্বদা এমন কোনও এজেন্ট ধরে রাখবেন যা মাঝেমধ্যে অবৈধ পদক্ষেপ করে।

আমার কাছে এটি আপনার সমস্ত পদক্ষেপ বেছে নেওয়ার আগে কেবল সমস্ত অবৈধ পদক্ষেপের সম্ভাবনাগুলি শূন্যে সেট করা এবং আউটপুট ভেক্টরটিকে নতুন করে সাজানো আরও বোধগম্য।

— BlindKungFuMaster
সূত্র

ধন্যবাদ. সম্ভবত আমি পরিষ্কার ছিলাম না তবে আমি আউটপুটযুক্ত সম্ভাব্যদের দ্বারা এলোমেলোভাবে পদক্ষেপটি বেছে নিয়েছি। অবৈধ পদক্ষেপের সম্ভাবনা শূন্যে সেট করতে এবং আপনার কী ঘটবে তা দেখতে আমি আপনার পরামর্শটি চেষ্টা করব। আপনার দিনটি শুভ হোক.

— মোলনার ইস্তভান

8

$a$ $\theta$ $\phi$ $s$ $A$

π (θ, একটি) = \frac{ই^{θ φ (গুলি, একটি)}}{\underset{খ \in একজন}{Σ} ই^{θ φ (গুলি, খ)}}

$\pi(\theta, a) = \frac{e^{\theta \phi(s, a)}}{\sum_{b \in A} e^{\theta \phi(s, b)}}$

$Legal(A)$

π (θ, a) = \frac{e^{θ ϕ (s, a)}}{\sum_{b \in L e g a l (A)} e^{θ ϕ (s, b)}}, a \in L e g a l (A)

$\pi(\theta, a) = \frac{e^{\theta \phi(s, a)}}{\sum_{b \in Legal(A)} e^{\theta \phi(s, b)}}, \, a \in Legal(A)$

সিউডোকোডে সূত্রটি দেখতে পারে:

action_probs = Agent.getActionProbs(state)
legal_actions = filterLegalActions(state, action_probs)
best_legal_action = softmax(legal_actions)

লিনিয়ার বা অ-লিনিয়ার ফাংশন আনুমানিককরণ (আপনার নিউরাল নেটওয়ার্ক) ব্যবহার করা হোক না কেন, ধারণাটি কেবল আপনার সফটম্যাক্সের গণনা করার সময় আইনী পদক্ষেপগুলিই ব্যবহার করা উচিত। এই পদ্ধতির মানে হল যে কেবল বৈধ পদক্ষেপগুলি এজেন্ট দ্বারা দেওয়া হবে, আপনি যদি পরে আপনার গেমটি পরিবর্তন করতে চান তবে ভাল হয় এবং ক্রিয়ায় সীমিত পছন্দের মধ্যে মানের পার্থক্য এজেন্টের দ্বারা বৈষম্য করা আরও সহজ হবে। সম্ভাব্য ক্রিয়া সংখ্যা হ্রাস হওয়ায় এটি আরও দ্রুত হবে faster

— জাদেন ট্রাভনিক
সূত্র

খুব দরকারী. উভয় সমীকরণ এবং সিউডোকোড পোস্ট করার জন্য ধন্যবাদ!

— ডিউকঝো

1

গণিত এবং সিউডোকোড এখানে মেলে না। আইনী পদক্ষেপের সম্ভাবনার উপর সফটম্যাক্স আপেক্ষিক সম্ভাব্যতাগুলি সামঞ্জস্য করবে। উদাহরণস্বরূপ (0.3, 0.4, 0.2, 0.1) সরানো প্রথম এবং তৃতীয় আইটেম দিয়ে ফিল্টার করা আপনার সূত্র সহ (0.0, 0.8, 0.0, 0.2) হবে তবে সিউডোকোড ব্যবহার করে (0.0, 0.57, 0.0, 0.42) হবে। সিউডোকোডটির ক্রিয়া সম্ভাবনার গণনার পূর্বে লগইটগুলি নেওয়া দরকার।

— নিল স্লেটার

4

কীভাবে কেউ সফটম্যাক্সের ফিল্টার করা সংস্করণের গ্রেডিয়েন্ট গণনা করতে পারে? মনে হচ্ছে ব্যাকপ্রসারণের জন্য সফলভাবে কাজ করা দরকার, হ্যাঁ?

— ব্রায়ানবার্নস

@ ব্রায়ানবার্নস আপনি কি উত্তর খুঁজে পাওয়ার ব্যবস্থা করেছেন? দেখে মনে হচ্ছে এটি আমার কাছে হবে তবে আমার খেলনা উদাহরণে অসম্পূর্ণ সফটম্যাক্সের লগ সম্ভাবনাগুলি ব্যবহার করার সময় আমি কেবল সঠিক উত্তর পেয়ে যাচ্ছি ...

— টুর্নামেন্ট

5

আইএমএইচও অবৈধ পদক্ষেপের ধারণাটি নিজেই অবৈধ। স্থানাঙ্কে একটি "এক্স" রাখার কল্পনা করুন (9, 9)। আপনি এটিকে একটি অবৈধ পদক্ষেপ হিসাবে বিবেচনা করে এটিকে একটি নেতিবাচক পুরষ্কার দিতে পারেন। কিম্ভুতকিমাকার? নিশ্চিত!

তবে বাস্তবে আপনার অবৈধ পদক্ষেপগুলি উপস্থাপনের কেবল একটি প্রতীক (যা নিজেই সরল এবং সূক্ষ্ম)। এগুলির সর্বোত্তম চিকিত্সা হ'ল তাদের কোনও গণনা থেকে সম্পূর্ণ বাদ দেওয়া।

দাবাতে এটি আরও স্পষ্ট হয়:

অবস্থানগত উপস্থাপনায় আপনি এই পদক্ষেপটি বিবেচনা করতে পারেন a1-a8, যা কেবলমাত্র খেলায় অন্তর্ভুক্ত যখন কোনও রুক বা রানী থাকে a1(এবং কিছু অন্যান্য শর্ত ধরে রাখে)।
ভিন্ন উপস্থাপনায় আপনি এই পদক্ষেপটি বিবেচনা করতে পারেন Qb2। আবার এটি গেমের অন্তর্ভুক্ত বা নাও থাকতে পারে। যখন বর্তমান খেলোয়াড়ের কোনও রানী নেই, তখন অবশ্যই তা হয় না।

যেহেতু অবৈধ পদক্ষেপগুলি খেলার চেয়ে প্রতিনিধির সাথে সম্পর্কিত, সেগুলি মোটেই বিবেচনা করা উচিত নয়।

— maaartinus
সূত্র

1

দুর্দান্ত পয়েন্ট। [এম] গেমগুলিতে, যা সুডোকুতে খেলা হয়, প্রথম স্থান নির্ধারণের পরে প্রতিবন্ধকতা অনেকগুলি অবস্থানকে (স্থানাঙ্ক + মান) অবৈধ করে তোলে। স্থান নির্ধারণের দৃষ্টিকোণ থেকে এই অবৈধ অবস্থানগুলি বিবেচনা করার কোনও মূল্য নেই, তবে , একটি গুরুত্বপূর্ণ কৌশলগত স্তরটি স্বীকৃতি দিচ্ছে যে কোন স্থান নির্ধারিত স্থানগুলি অপরিবর্তিত অবস্থানগুলির মানকে হ্রাস করে। (অর্থাত যদি আমি একটি 8 এখানে স্থান, এটা ব্লক যে সারি, কলাম বা অঞ্চলে একটি 8 স্থাপন থেকে আমার প্রতিপক্ষের মূলত, "কত কৌশলগত অবস্থানের gameboard থেকে এই বসানো অপসারণ করে?"।)

— DukeZhou

5

আমি সম্প্রতি মাইনসুইপারের সাথে একই ধরণের সমস্যার মুখোমুখি হয়েছি।

সম্পূর্ণরূপে অবৈধ / অবৈধ পদক্ষেপগুলি উপেক্ষা করে আমি যেভাবে সমাধান করেছি তা।

আপনার সমস্ত ক্রিয়া (বৈধ এবং অবৈধ) এর Q- মানগুলি পূর্বাভাস দেওয়ার জন্য Q- নেটওয়ার্কটি ব্যবহার করুন
শূন্য / নেতিবাচক সংখ্যার Q- মানটিতে অবৈধ পদক্ষেপের সমস্ত সেট করে Q- মানগুলির প্রাক-প্রক্রিয়া করুন (আপনার দৃশ্যের উপর নির্ভর করে)
পরিশোধিত কিউ-মানগুলি (যেমন লোভী বা বল্টজম্যান) থেকে কোনও ক্রিয়া নির্বাচন করতে আপনার পছন্দের নীতি ব্যবহার করুন
নির্বাচিত ক্রিয়াটি কার্যকর করুন এবং আপনার ডিকিউএন যুক্তি পুনরায় শুরু করুন

আশাকরি এটা সাহায্য করবে.

— Sanavesa
সূত্র

1

আমি কেবল এটিই যুক্ত করতে চাই যে আপনি যখন অবৈধ (গুলি, ক) জোড়াগুলিকে বড় negativeণাত্মক মানের জন্য Q মান নির্ধারণ করেন তখন আপনাকে ডিকিউএন-তে একটি ব্যাকপ্রপ করতে হবে, যাতে এই রাজ্যটি বেছে না নেওয়ার প্রশিক্ষণ দেওয়া হয় পরের বার জোড়া।

— এসএনএন

তবে আমি বিস্মিত হই যে বৃহত্তর-লক্ষ্যবস্তু Q মান নির্ধারণ ক্ষতি / ত্রুটির ক্রিয়াকলাপের (যার ফলে গ্রেডিয়েন্ট অনুসন্ধানকে প্রভাবিত করে) এর ধারাবাহিকতা বা আকারকে কী করে। আপনার অভিজ্ঞতা কি ছিল?

— এসএনএন

1

@ এসএন আমি আপনার বিষয়টি দেখছি ধারণা নিয়ে কর্ম বাছাই হয় সর্বোচ্চ প্রশ্ন-মান যে একটি অবৈধ পদক্ষেপ না । এরপরে, আপনি সেই ক্রিয়াটি সম্পাদন করেন এবং সেই আপডেটটি আপনার আপডেটের নিয়মে ব্যবহার করেন (অর্থাত্ আপনার ডিকিউএনকে দীর্ঘমেয়াদে এই ক্রিয়াকে সমর্থন করার জন্য প্রশিক্ষণ দিন)। এটি যা করে তা নির্বাচিত ক্রিয়াকলাপের ভবিষ্যতের কিউ-মানগুলি আরও উচ্চতর এবং এইভাবে আরও অনুকূল করে তোলে। এটি অবৈধ ক্রিয়াগুলি কিউ-মানটি কম করবে না যদিও এটি সর্বদা ছাঁটাই হয়ে থাকে বলে বিবেচিত হয় না (বিবেচিত নয়)। আপনি যদি আমাকে উদাহরণ দিয়ে আরও বিস্তারিত জানাতে চান তবে আমাকে জানান। :)

— সানাভেসা

1

@ সানাভেসা নিশ্চিতভাবে বোঝায় যে আপনি মূলত ডিকিউএন-তে গণনা করছেন অবশেষে শিখছেন যে হার্ড স্কোরের মধ্য দিয়ে সঠিক পছন্দগুলি কী। তবে এমন পরিস্থিতিতে যেখানে কেবলমাত্র এক বা কয়েকটি আইনী পছন্দ রয়েছে আপনি খুব ধীরে ধীরে শিখতে পারবেন। আমি যে পদ্ধতির পরামর্শ দিচ্ছি তা হ'ল ডার্নি কে সমস্যার সাথে যুক্ত করার একটি উপায় যা এই শিক্ষার গতি বাড়ানোর জন্য। এটিও আমি ভেবেছিলাম আপনি আপনার মূল পোস্টে যেখানে আপনি "শূন্য / নেতিবাচক সংখ্যার Q- মান অবৈধ পদক্ষেপ স্থাপন" লিখেছেন

— SN

1

@SNPrecisely! উভয় পদ্ধতিরই তাদের যোগ্যতা রয়েছে। আইনী পদক্ষেপগুলি শিখতে সহজভাবে বা সরাসরি তাদের উপেক্ষা করে যদি অ্যাপ্লিকেশনটির উপর নির্ভর করে। বড় জটিল অ্যাপ্লিকেশনগুলির জন্য, আমি মনে করি যে অবৈধ পদক্ষেপগুলি উপেক্ষা করা এজেন্টের শেখার পক্ষে আরও দ্রুত, তবে সে সম্পর্কে আমাকে উদ্ধৃত করবেন না।

— সানাভেসা