শক্তিবৃদ্ধি শেখার সাথে রোবট অনুসরণ করে একটি লাইন প্রোগ্রামিং

আমি পুনর্বহাল শেখার অ্যালগরিদমগুলি ব্যবহার করে রোবটকে অনুসরণ করে একটি লাইন প্রোগ্রামিংয়ের বিষয়ে বিবেচনা করছি। আমি যে প্রশ্নটি উদ্বিগ্ন করছি তা হ'ল আমি কীভাবে কোনও স্বেচ্ছাচারী পথের মাধ্যমে নেভিগেট শিখতে অ্যালগরিদম পেতে পারি?

শক্তিবৃদ্ধি শেখার জন্য সাটন এবং বার্তো বুক অনুসরণ করার পরে , আমি একটি রেসট্র্যাকের সাথে জড়িত একটি অনুশীলনের সমস্যাটি সমাধান করেছি যেখানে গাড়ী এজেন্ট ট্র্যাকটি না গিয়ে এবং তার গতি নিয়ন্ত্রণ করতে শিখেছে। যাইহোক, সেই অনুশীলনের সমস্যাটি এজেন্টকে প্রশিক্ষণ প্রাপ্ত ট্র্যাকটি কীভাবে নেভিগেট করতে হয় তা শিখেছে।

স্বেচ্ছাসেবীর পথে চলাচল করার জন্য কোনও রোবট পেতে কি এটি শক্তিবৃদ্ধি শেখার সুযোগে রয়েছে? এজেন্টের কি একেবারে রেস সার্কিট বা পাথের মানচিত্র থাকতে হবে? আমি আমার রাষ্ট্রের জায়গার জন্য কোন পরামিতিগুলি ব্যবহার করতে পারি?

— লর্ড লহ।
সূত্র

আমি জানি না কীভাবে, তবে আমি নিশ্চিত যে এটির আকার নির্বিশেষে এটিকে কোনও পথের মধ্যে রাখতে শেখানো সম্ভব। এই ক্ষেত্রে পাঠদানের লক্ষ্যটি হওয়া উচিত রোবটটি তার তাত্ক্ষণিক ইনপুটগুলির (বা সম্ভবত কিছু ইতিহাস) উপর ভিত্তি করে স্থানীয় সিদ্ধান্ত নেয়। সমস্ত সিদ্ধান্ত স্থানীয় হওয়ায় এই পথে পথের আকৃতি কী তা বিবেচ্য নয়।

— শাহবাজ

@ শাহবাজ - আপনি রাষ্ট্রের জায়গার জন্য কী ব্যবহার করবেন বলে আপনি পরামর্শ দিবেন?

— লর্ড লোহ

আমি আসলে নিশ্চিত নই। যদিও আমি বিশ্ববিদ্যালয়ে এআই পড়াশোনা করেছি, এটি কখনও আমার কাজ / গবেষণার ক্ষেত্র ছিল না। আপনি যে উত্তরটি গ্রহণ করেছেন তা যুক্তিসঙ্গত বলে মনে হচ্ছে!

— শাহবাজ

আপনি মার্কডাউন পরীক্ষা করার জন্য একটি উত্তর ব্যবহার করছেন? আপনি কেবল যা চান তা লিখতে পারেন এবং এর নীচে অবিলম্বে রেন্ডারিংটি দেখতে পারেন এবং তারপরে এটি পোস্ট করতে পারবেন না ।

— শাহবাজ

উত্তর:

যেকোন মেশিন লার্নিং অ্যালগরিদমের মূল পদক্ষেপগুলির মধ্যে একটি হ'ল এটি সাধারণকরণের দক্ষতা (যেমন এটি পূর্বে দেখা যায় না এমন দৃশ্যের ক্ষেত্রে কী শিখেছে তা প্রয়োগ করুন)। শক্তিবৃদ্ধি শিক্ষার্থীরা (আরএল) ভাল জেনারেলাইজ করতে পারে তবে এই ক্ষমতাটি আমার অভিজ্ঞতায় রাজ্য-স্থান গঠনের একটি অংশ। এর অর্থ হ'ল আপনি যদি সঠিক সেটআপটি পেতে পারেন তবে আরএল শিক্ষানবিসকে রেস সার্কিটের মানচিত্রের প্রয়োজন হবে না।

এটি কোন প্যারামিটারগুলি ব্যবহার করবে তা নিয়ে প্রশ্ন ফেলে। আপনার রোবোটে উপলব্ধ সেন্সরগুলি সম্পর্কে আরও না জেনে আমি অনুমান করতে পারি। আমার প্রথম প্রবণতাটি হ'ল লাইন এবং রোবোটের আপেক্ষিক প্রবণতাটি এনকোড করার চেষ্টা করা (অর্থাত রবোটটি ডান, বামে বা লাইনটির সাথে সমান্তরালভাবে সরানো) ending এটি করার ফলে একটি দুর্দান্ত ছোট রাজ্য-স্থান হবে। কঠোরভাবে প্রয়োজনীয় না হলেও এটি দ্রুত এবং সাধারণ বাস্তবায়নের জন্য তৈরি করবে। তদুপরি, যদি রোবট স্থির হারে চলতে না পারে তবে এটি রোবটদের বেগকে এনকোড করতে সহায়তা করতে পারে কারণ উচ্চ গতিতে চলার সময় রোবটকে আরও দ্রুত প্রতিক্রিয়া দেখাতে হবে।

— DaemonMaker
সূত্র

মানচিত্র ছাড়াই, রাষ্ট্রীয় স্থানটি রোবটটি তার তাত্ক্ষণিক অবস্থান থেকে অনুধাবন করতে পারে। সুতরাং একটি নির্দিষ্ট পরিমাণে, মানচিত্রটি "সামনের দিকে তাকানোর" একটি উপায়। মানচিত্র-কম দৃশ্যে শিখে নেওয়া আচরণটি মূলত "আগের মতোই কাজ করবে তবে ধীরে ধীরে চলবে কারণ এবার জানা নেই যে এখন মোড় কোথায়"। (সম্ভবত, আপনি ট্র্যাকের প্রান্তগুলি কোথায় তা বলতে সক্ষম হবেন))

— আয়ান ২

একটি নীতি আমাদের জানায় যে কোনও রাজ্যে কোন প্রয়োগ প্রয়োগ করতে হবে। রাজ্য-স্থানটি যদি আরএল এজেন্টের জন্য ভালভাবে তৈরি করা হয় তবে স্পষ্টভাবে পৃথক পরিস্থিতি রাজ্য-স্পেসে একই দেখায় এবং একই আচরণ পেতে পারে। একে সাধারণীকরণ বলা হয় এবং সঠিকভাবে সম্পন্ন করার সময় এটি আকাঙ্ক্ষিত। রোবটটির নিয়ন্ত্রণ লুপের গতির উপর ভিত্তি করে সর্বাধিক গতি থাকবে। শিখেছি আচরণ অগত্যা ধীরে ধীরে হবে না। পুরষ্কারটি যদি রানের দৈর্ঘ্যের সাথে বিপরীতভাবে সম্পর্কিত হয় তবে এজেন্টটি তার নিয়ন্ত্রণ লুপের গতির প্রতি শ্রদ্ধার সাথে তার গতি সর্বাধিক সন্ধান করতে ঝুঁকবে।

— ডেমনমেকার

আপনার কাছে কী ধরণের রোবট রয়েছে তা আমি নিশ্চিত নই তবে আমি কয়েক বছর ধরে রোবকআপ রেসকিউ লাইনটি করছি। আমি বুঝতে পেরেছি যে আপনি পিআইডি ব্যবহার করে ভালভাবে একটি লাইন অনুসরণ করতে চান তবে এটি একটি ভাল বিকল্প। আমাকে এই প্রসারিত করুন। আপনি যদি লাইনের দুপাশে দুটি হালকা সেন্সর কল্পনা করেন তবে আপনি চান যে সেগুলি সমান হ'ল যাতে রেখাটি মাঝখানে থাকে। এরপরে আপনি রোবটের টার্নিং শতাংশ পরিবর্তন করতে দুটি সেন্সরের মানের মধ্যে পার্থক্যটি ব্যবহার করতে পারেন। এই কৌশলটি দিয়ে অসাধারণ গতিতে একটি লাইন অনুসরণ করতে কোনও রোবট পাওয়া সম্ভব। আমি ঠিক যেমন আপনি রোবটটিকে তার লাইন ট্র্যাকিংয়ের দক্ষতাগুলি উন্নত করতে শেখার বিষয়ে চিন্তাভাবনা করছেন। আমি যেটা সামনে এসেছি তা হল আপনার প্রাথমিক পিআইডি মানগুলি যে আপনি চান সেটির চেয়ে উচ্চতর দিয়ে শুরু করুন এবং লাইনটি ট্র্যাক করার সাথে সাথে রোবোটের দোলনের ফ্রিকোয়েন্সি পরিমাপ করতে একটি জাইরোস্কোপিক সেন্সর ব্যবহার করুন। একটি স্থিতিশীল সিস্টেম পাওয়ার জন্য আপনি নিজের মানগুলি কতটা কমিয়ে আনবেন তা নির্ধারণ করতে আপনি সেখান থেকে নিজের ফাংশন তৈরি করতে পারেন, এটি কোনও স্বয়ংক্রিয় অপ্টিমাইজেশন অ্যালগরিদমের মতো ঠিক কৃত্রিম বুদ্ধিমত্তা নয়, তবে ওহে 18 এবং আমি কীভাবে কোডটি শিখতে শিখেছি ইন্টারনেট। আশা করি এটা কাজে লাগবে. আপনার যদি কোনও প্রশ্ন থাকে আমাকে ইমেল করুন এটি আমার মূল ইমেল ঠিকানা নয় তাই আমি এটি নিয়মিত পরীক্ষা করে দেখব না। 69darkeagle@sigaint.org

— ওমর কায়ে
সূত্র