আমার কখন রিইনফোর্সমেন্ট লার্নিং বনাম পিআইডি নিয়ন্ত্রণ ব্যবহার করা উচিত?


12

ওপেনএইজিআইএম- তে লুনার ল্যান্ডারের মতো সমস্যার সমাধানের নকশা করার সময় , রিইনফোর্সমেন্ট লার্নিং হ'ল এজেন্টকে পর্যাপ্ত অ্যাকশন নিয়ন্ত্রণ দেওয়ার একটি লোভনীয় মাধ্যম যাতে সাফল্যের সাথে অবতরণ করতে পারে।

কিন্তু এমন কী কী উদাহরণ রয়েছে যেখানে নিয়ন্ত্রণ ব্যবস্থা অ্যালগরিদম, যেমন পিআইডি কন্ট্রোলাররা কেবল একটি পর্যাপ্ত কাজ করবে যেমন, রিইনফোর্সমেন্ট লার্নিং এর চেয়ে ভাল না?

যেমন প্রশ্ন এই এক এই প্রশ্নের তত্ত্ব অ্যাড্রেসিং এ মহান কাজ, কিন্তু ব্যবহারিক উপাদান খুব কমই সম্বোধন করতে না।

একটি কৃত্রিম বুদ্ধিমত্তা প্রকৌশলী হিসাবে, কোনও সমস্যা ডোমেনের কোন উপাদানগুলি আমাকে পরামর্শ দেয় যে কোনও পিআইডি নিয়ন্ত্রক কোনও সমস্যা সমাধানের জন্য অপর্যাপ্ত, এবং একটি রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম পরিবর্তে ব্যবহার করা উচিত (বা বিপরীতে)?


পিআইডি সম্পর্কে আমার যে প্রাথমিক ধারণাটি রয়েছে তা বলেছে এটির নকশা করা সহজ নয়। এতে জড়িত প্রচুর ইন্টিগ্রাল এবং ডিফারেনশিয়াল রয়েছে। সুতরাং এটি মূলত একই ধারণা যখন আপনি এমএল পদ্ধতির সাথে পরিসংখ্যান প্রতিস্থাপন করেন। নিয়ন্ত্রণ ব্যবস্থা অবশ্যই ত্রুটিবিহীন তবে এটি খুব বেশি কাজ too
দত্তা

2
প্রকৃতপক্ষে এটি খুব বেশি কাজ নয়, শিল্পের এটির বেশ মান, ম্যাটল্যাবের মতো আধুনিক সিস্টেম ডিজাইন সরঞ্জামগুলি ব্যবহার করে আপনি পিআইডি বা অন্য কোনও নিয়ামককে আপনার প্রয়োজনগুলি তুলনামূলক তুলনায় সহজ করতে পারেন। শক্তিবৃদ্ধি শেখার প্রয়োগ প্রয়োগ করা হয় না কারণ এটি প্রচুর পরিমাণে ডেটা প্রয়োজন এবং ক্লাসিক নিয়ন্ত্রণ তত্ত্বের মতো কোনও তাত্ত্বিক গ্যারান্টি নেই। যাইহোক, কনটোলার ডিজাইনে সরাসরি ইন্টিগ্রাল / ডিফারেনশিয়ালের সাথে কাজ করা জড়িত না, লিনিয়ার সিস্টেমগুলির জন্য ল্যাপ্লেস ডোমেনে সমস্ত কাজ সম্পন্ন হয় যা সাধারণ বীজগণিত ম্যানিপুলেশনগুলিতে জড়িত
ব্রলে_

@ ব্র্যালে_ তবে এটি এখনও প্রচুর তাত্ত্বিক জ্ঞানের সাথে জড়িত..ল্যাপ্লেস ডোমেনটি কেবলমাত্র পার্থক্যকে সহজতর করে তবে আপনার কীভাবে জিনিসগুলি (খুঁটি এবং জিরো) ডিজাইন করতে হয় তা জানতে হবে যে সিস্টেমগুলি অস্থিতিশীল না হয়ে যায়। এই জিনিসগুলি আসলে কীভাবে কাজ করে তা আমার কাছে কল্পনা করা খুব শক্ত।
দত্তা

2
পূর্ববর্তী প্রকল্পগুলিতে আমাকে সাহায্য করার মতো একটি সুসংগত নিয়ম হিসাবে, আপনি যদি কয়েকটি বাক্যে অনুকূল নীতি (পিআইডি, আরএল, বা অন্যথায়) ব্যাখ্যা করতে না পারেন তবে পিআইডি সত্যই শক্ত হবে। প্যাকম্যানের জন্য সর্বোত্তম নীতি কী?
জাদেন ট্রাভনিক

উত্তর:


5

আমি মনে করি মন্তব্যগুলি মূলত সঠিক পথে রয়েছে।

পিআইডি নিয়ন্ত্রকরা ধারাবাহিক গতিশীল সিস্টেমে সর্বোত্তম নীতিগুলি সন্ধানের জন্য দরকারী এবং প্রায়শই এই ডোমেনগুলি আরএল-এর মানদণ্ড হিসাবেও ব্যবহৃত হয়, স্পষ্টতই কারণ একটি সহজে তৈরি হওয়া অনুকূল নীতি রয়েছে। তবে, বাস্তবে, আপনি যে কোনও ডোমেনের জন্য সহজেই একটি ডিজাইন করতে পারেন তার পক্ষে আপনি অবশ্যই একটি পিআইডি নিয়ন্ত্রককে পছন্দ করবেন: নিয়ন্ত্রকের আচরণগুলি ভালভাবে বোঝা যায়, যখন আরএল সমাধানগুলি প্রায়শই ব্যাখ্যা করা শক্ত হয়।

আরএল জ্বলছে এমন কাজগুলিতে যেখানে আমরা জানি যে ভাল আচরণটি কেমন দেখাচ্ছে (যেমন, আমরা পুরষ্কারের কাজটি জানি), এবং আমরা জানি যে সেন্সর ইনপুটগুলি কেমন দেখাচ্ছে (যেমন আমরা একটি নির্দিষ্ট রাজ্যের সংখ্যাসূচকভাবে সম্পূর্ণ এবং সঠিকভাবে বর্ণনা করতে পারি), তবে আমাদের সামান্য রয়েছে বা এই পুরষ্কারগুলি অর্জন করতে আমরা এজেন্টটি আসলে কী করতে চাই কোনও ধারণা নেই।

এখানে একটি ভাল উদাহরণ:

  • যদি আমি কোনও এজেন্টকে শত্রু বিমানের সামনের দিক থেকে সামান্যতম জ্বালানী ব্যবহার করে এর চলাচলের নিদর্শনগুলির সাথে সামনের বিমান থেকে চালিত করতে চাইতাম তবে আমি অনেকটা পিআইডি নিয়ন্ত্রক ব্যবহার করতে পছন্দ করতাম ।

  • আমি যদি কোনও বিমানকে নিয়ন্ত্রণ করতে একটি এজেন্ট তৈরি করতে এবং পর্যাপ্ত জ্বালানী দিয়ে অবতরণের জন্য একটি শত্রু বিমান ছুঁড়ে মারতে চাইতাম , তবে শত্রু বিমানটি কীভাবে আক্রমণ করতে পারে তার আনুষ্ঠানিক বিবরণ ছাড়াই (সম্ভবত কোনও বিশেষজ্ঞ আমাদের এজেন্টের বিরুদ্ধে অনুকরণে এটি চালাবেন) , আমি অনেক বেশি পছন্দ করি আরএলকে

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.