পেনফাইন্ডিংয়ে কেন রিইনফোর্সমেন্ট লার্নিং এত কম ব্যবহার করা হয়?


12

শ্রদ্ধেয়তম সংক্ষিপ্ত-পথের গ্রাফ তাত্ত্বিক অ্যালগোরিদম এ * এবং পরবর্তী উন্নতি (যেমন, হায়ারার্কিকাল অ্যানোটেটেড এ *) স্পষ্টতই গেম বিকাশে পাথ ফাইন্ডিংয়ের জন্য পছন্দের কৌশল।

পরিবর্তে, এটি কেবল আমার কাছে মনে হয় যে গেমের জায়গার চারপাশে একটি চরিত্রকে সরানোর জন্য আরএল হ'ল একটি প্রাকৃতিক দৃষ্টান্ত।

এবং তবুও আমি কোনও একক গেম ডেভেলপার সম্পর্কে সচেতন নই যিনি একটি রিইনফোর্সমেন্ট লার্নিং-ভিত্তিক পাথফাইন্ডিং ইঞ্জিন প্রয়োগ করেছেন। (আমি এ থেকে অনুমান করি না যে প্যাথফাইন্ডিংয়ে আরএল প্রয়োগ 0, এটি এ * এবং বন্ধুদের সাথে খুব সামান্য সম্পর্কিত))

কারণ যাই হোক না কেন, কারণ এই বিকাশকারীরা আরএল সম্পর্কে অসচেতন, কারণ আরএল প্রায়শই গেম ইঞ্জিনে অন্য কোথাও ব্যবহৃত হয় তার প্রমাণ হিসাবে।

এই প্রশ্নটি প্যাথফাইন্ডিংয়ে আরএলে একটি মতামত দেওয়ার অজুহাত নয় ; প্রকৃতপক্ষে, আমি ধরে নিচ্ছি যে এ * এট আল এর স্বতন্ত্র পছন্দ। আরএল ওভারটি সঠিক - তবে আমার কাছে অগ্রাধিকারটি স্পষ্টতই আমার কাছে নয় এবং আমি এর কারণ সম্পর্কে খুব কৌতূহল বোধ করি, বিশেষত যে কেউ রাস্তাটি ফাইন্ডিংয়ের জন্য আরএল ব্যবহার করার চেষ্টা করেছে।


1
"এটি নয় কারণ এই বিকাশকারীরা আরএল সম্পর্কে অসচেতন" আপনি কি নিশ্চিত? এটি একটি বড় অনুমান বলে মনে হচ্ছে।
টেট্রাড

পাথফাইন্ডিংয়ে আরএল-তে কিছু লিঙ্ক বা কাগজপত্র ভাগ করে নেওয়ার যত্ন?
ফালস্ট্রো

3
এ * (এবং সম্পর্কিত অ্যালগোরিদম) এর জন্য বিভিন্ন অনুকূলতা / সীমাবদ্ধ প্রমাণগুলি দেওয়া, আপনি কী ভাবেন যে আরএল পাথফাইন্ডিংয়ের জন্য টেবিলে নিয়ে আসে?

1
সম্পর্কিত (একটি পৃথক প্রশ্নে এই পাওয়া): ai-blog.net/archives/000178.html
Tetrad

উত্তর:


14

আমি এর কল্পনা করবো কারণ যেহেতু আপনি খেলনার সমস্যা ব্যতীত নীতিমালার কোনও কার্যকর জেনারালাইজেশন পাবেন না এবং পুরষ্কারটির কাজটি সন্দেহজনকভাবে একটি এ * হিউরিস্টিকের মতো দেখায়, আরএল ব্যবহারের সম্ভাবনাটি সত্যিকারের মতো দেখায় ওভারবিল্ট, ফলাফল পাওয়ার অদক্ষ উপায় যা এ এর ​​সাথে অভিন্ন, তবে সম্ভবত এটি খুব ভাল হবে না।

এটি আরএল এর সাথে অন্যায্য হতে পারে, এবং যদি তাই হয় তবে আমি কেন তা শুনতে আগ্রহী, তবে আমি সত্যিই এটি নির্দেশ করার জন্য কিছুই দেখছি না।

আমাদের মধ্যে অনেকে এও স্মরণ করে থাকে যে এ-কে ব্যাপকভাবে গ্রহণের আগে গতিপথগুলিতে প্যাথফাইন্ডিংয়ের অবস্থা কেমন ছিল এবং খেলোয়াড়দের উপর days দিনগুলির সাদৃশ্যযুক্ত কোনও কিছুই আনতে বা উত্সাহিত করতে আগ্রহী নয় so


1
পুরষ্কার ফাংশন আপনার বিবৃতি জন্য +1। এবং, না, আমি বিশ্বাস করি এটি একটি যথাযথ বৈশিষ্ট্য। আরএল এটি যা করে তাতে দুর্দান্ত হতে পারে, তবে আমি দৃ .়পথে সেই সেটটিতে থাকতে হবে বলে আশা করব না। (দ্রষ্টব্য যে আমি এই আলোচনা থেকে ইচ্ছাকৃতভাবে গতি পরিকল্পনা বাদ দিচ্ছি R আরএল সফলভাবে সেই ধরণের সমস্যায় প্রয়োগ করা হয়েছে)।
Throwback1986

5

আরএল সম্পর্কে বেশি কিছু না জেনে আমি অন্য প্রশ্নের সাথে আপনার প্রশ্নের উত্তর দেওয়ার চেষ্টা করব:

আরএল ব্যবহার করে, আপনি নির্ধারণ করতে পারবেন যে এটি বিন্দু বি থেকে পয়েন্ট এ পৌঁছানো সম্ভব কিনা?

আরএল কি পুনরুত্পাদনযোগ্য / ধারাবাহিক / পরীক্ষাযোগ্য নেভিগেশন আচরণের গ্যারান্টি দিতে পারে?

মেমরি এবং সিপিইউ চলমান সময়ের প্রয়োজনীয়তা বনাম এ * কে কীভাবে তুলনা করে? তেমনি, আপনি এনএভি মেসের তুলনায় কতটা প্রাকটুকু করতে পারেন?

গতিশীল সংঘর্ষের সাথে কোনও পরিবেশে আরএল ফেয়ার কীভাবে হয়?

স্টিরিং আচরণগুলি, বনাম, সঠিকভাবে বুঝতে আর कार्यान्वयन করা আরও কতটা কঠিন?

আরএল-এর জন্য কোনও ভাল মিডলওয়্যার সরবরাহকারী রয়েছে?

হতে পারে এই প্রশ্নগুলি আপনাকে উত্তর দিয়ে সহায়তা করতে পারে।


তাত্ক্ষণিক নজর থেকে, এ * আরএল এর চেয়ে প্রয়োগের পক্ষে সস্তা, প্রক্রিয়াকরণে দ্রুত, কম স্মৃতি গ্রহণ করে, বেশি অনুমানযোগ্য ইত্যাদি বলে মনে হয়। আরএল, তবে আরও বাস্তবসম্মত ফলাফল তৈরি করতে পারে।
জারি কম্প্পা

4
বিপরীতে, আরএল এজেন্টরা তাদের প্রাথমিক শিক্ষার পর্যায়ে হাস্যকরভাবে অবাস্তব ফলাফল আনতে ঝোঁক। কিছু ছোট স্টিয়ারিং আচরণ সহ একটি * অনেক বেশি প্রাকৃতিক দেখায়।

ঠিক আছে, আরও বাস্তবসম্মত ফলাফল অবশেষে =)
জারি কম্প্পা

আরএল মূলত নিখুঁত প্যাথফাইন্ডিং আচরণকে precomputes করে। এটি এ * এর চেয়ে দ্রুত এবং সহজ, তবে অনেক বেশি স্মৃতি লাগে। আপনি যখন মেমরির প্রয়োজনীয়তাগুলি নীচে আনার চেষ্টা করেন তখন এটি জটিল এবং / বা বেমানান হয়ে যায়।
ডন রেবা

5

আরএল "আরও প্রাকৃতিক দৃষ্টান্ত" বলে আমি বিভ্রান্ত হয়েছি। গ্রাফ অনুসন্ধানের মতো পরিষ্কার বা নির্ভুলতার কাছাকাছি কোথাও সমস্যা ডোমেনের কীভাবে সংযুক্তি শেখার মানচিত্রগুলি আমি দেখতে পাচ্ছি না। সাধারণত আপনি কোনও এজেন্ট শিখতে চান না - আপনি ধরে নিয়েছেন যে তারা ইতিমধ্যে রুটটি জানেন। পরিবর্তে, আপনি চান যে এগুলি সর্বাধিক সরাসরি উপলভ্য রুটটি বেছে নিতে এবং ব্যবহার করতে পারে এবং গ্রাফ অনুসন্ধানটি এটি নিকটতম সর্বোত্তম উপায়ে সহজসাধ্য করে। আপনি যদি কোনও নির্দিষ্ট গন্তব্যের জন্য প্রদত্ত কোনও নোডে নিয়ে যাওয়ার সেরা দিকনির্দেশনা গণনা করতে আরএল অফলাইন ব্যবহার করতে থাকেন, তবে এটি যথেষ্ট পরিমাণে বেশি মেমরির প্রয়োজন ছাড়াই "এ * এর বিস্তৃত সমতুল্য হয়ে উঠবে * এবং এটিও প্রয়োজন যে বিকাশকারীরা খুব সতর্ক ছিলেন প্রশিক্ষণের সময় সমস্ত নোড পর্যাপ্ত পরিমাণে অন্বেষণ করা হয়েছে তা নিশ্চিত করুন। এবং এই প্রশিক্ষণটি কেবলমাত্র একটি মান অর্জন করবে যা পাইথাগোরাস সমীকরণের সাথে আমরা ইতিমধ্যে খুব ভালভাবে অনুমান করতে পারি, গ্রাফটি দূরত্বের ইউক্লিডিয়ান বিধি মানছে তা আগে থেকেই জানার কারণে। (এটি অবশ্যই, গ্রাফ অনুসন্ধান এবং / বা পুনর্বহাল শেখার কাজে লাগানো হতে পারে এমন সমস্ত পরিস্থিতিতে এটি নয়))

(স্মৃতি ইস্যু সম্পর্কিত: যদি আপনার কোনও মানচিত্রে 1000 টি সম্ভাব্য পরিমাণযুক্ত অবস্থান থাকে তবে তা 1000 নোড প্লাস 1000 * এম প্রান্ত (যেখানে এম অন্য নোড থেকে প্রাপ্ত নোডের গড় সংখ্যা।) এটি, অধিকতর হিউরিস্টিকের জন্য যথেষ্ট অপারেট করার জন্য *। কাজ করার জন্য রিইনফোর্সমেন্ট শেখার জন্য, কমপক্ষে যেভাবে আমি এটি কল্পনা করেছি, সেই 1000 * এম প্রান্তগুলির জন্য আপনার 1000 টি প্রবেশদ্বারও প্রয়োজন, 1000 এর যে কোনওটির জন্য সেই প্রান্তটি অনুসরণ করার পুরষ্কার মানটি অর্জন করতে? সম্ভাব্য গন্তব্য। এটি প্রচুর পরিমাণে ডেটা - এবং এর প্রতিটি এককটি লুপস, আউটসোর্স, বা ডেড-এন্ডস এড়াতে যুক্তিসঙ্গতভাবে সঠিক হতে হবে।


3

প্যাথফাইন্ডিং তুলনামূলকভাবে "সমাধান করা" সমস্যা, আরএল হয় না।

এ * এর সাহায্যে বিকাশকারীরা হিউরিস্টিক দ্রুত তৈরি করতে এবং সময়ের সাথে সাথে সেগুলি উন্নত করতে পারে। আরএল (আমি এখানে কিউ-লার্নিংয়ের কথা বলছি, যখন এখানে আরএলকে উল্লেখ করছি), শেখার সেরা হার এবং ছাড়ের কারণগুলি (গেমের অন্যান্য দিকগুলিতে ব্যয় করার উপযুক্ত সময়) গণনা করতে সময় লাগে।


1

এটি গেমের ধরণের উপর নির্ভর করে। গেমের সমস্ত কিছু যদি স্থিতিশীল হয় তবে এ * অনুসন্ধান ব্যবহার করা আরও দক্ষ। তবে, যদি একই জায়গায় অন্য মানব খেলোয়াড়েরা চলতে থাকে তবে এ * অনুসন্ধানের ব্যর্থতা গ্যারান্টিযুক্ত। অন্যান্য খেলোয়াড়রা কোথায় চলেছে সে সম্পর্কে একটি * অনুসন্ধানের কোনও ধারণা নেই। অন্যদিকে, আরএল অন্যান্য খেলোয়াড়দের আচরণের মডেল করতে পারে এবং আরও ভাল পথ খুঁজে পেতে পারে যা অন্যান্য খেলোয়াড়দের আন্দোলনকে বিবেচনায় রাখে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.