আপনি পুনরায় প্রয়োগের শেখার উদাহরণগুলিতে ড্রপআউট স্তরগুলি দেখতে পাচ্ছেন না কেন?


13

আমি রিইনফোর্সমেন্ট লার্নিংয়ের দিকে তাকিয়ে আছি এবং বিশেষত ওপেনএআইআই জিম এআই এর সাথে ব্যবহার করার জন্য আমার নিজস্ব পরিবেশ তৈরি করার সাথে ঘুরেছি। আমি এটি পরীক্ষা করার জন্য স্থির_বেসলাইন প্রকল্পের এজেন্ট ব্যবহার করছি using

একটি জিনিস আমি কার্যত সমস্ত আরএল উদাহরণগুলিতে লক্ষ্য করেছি যে এটি কোনও নেটওয়ার্কে কোনও ড্রপআউট স্তর নেই বলে মনে হয়। কেন?

আমি এমন পরিবেশ তৈরি করেছি যা মুদ্রার দাম এবং একটি সাধারণ এজেন্টকে সাদৃশ্য করে, ডিকিউএন ব্যবহার করে, কখন কেনা বেচা হবে তা শিখতে চেষ্টা করে। এক মাসের মূল্যমানের 5 মিনিটের মূল্যের ডেটা সমন্বিত ডেটা নির্দিষ্ট সেট থেকে নেওয়া প্রায় মিলিয়ন বারের বারের উপরে এটি প্রশিক্ষণ দেওয়া মনে হয় এটি যথেষ্ট পরিমাণে উপচে পড়ে। আমি যদি তখন এজেন্টদের মূল্যায়ন করি এবং মডেলটিকে এক মাসের বিভিন্ন মাসের মূল্যবান ডেটার বিপরীতে দেখায় তবে তা অত্যন্ত খারাপ হয়। ক্লাসিক overfitting মত শোনাচ্ছে।

কিন্তু আরএল নেটওয়ার্কগুলিতে আপনি ড্রপআউট স্তরগুলি না দেখার কোনও কারণ আছে? ওভারফিটিংয়ের সাথে মোকাবিলা করার এবং চেষ্টা করার জন্য কি অন্য কোনও ব্যবস্থা আছে? বা অনেক আরএল উদাহরণগুলিতে কিছু যায় আসে না? উদাহরণস্বরূপ, 'ব্রেকআউট' গেমটিতে চূড়ান্ত উচ্চ স্কোরের কেবলমাত্র একটি সঠিক উপায় থাকতে পারে, তাই আপনি ঠিক এটি শিখতে পারেন, এবং সাধারণকরণের প্রয়োজন নেই?

বা এটি কি মনে করা হয় যে পরিবেশের বিশৃঙ্খলা প্রকৃতির নিজেই ফলাফলের যথেষ্ট আলাদা সংমিশ্রণ সরবরাহ করতে হবে যা আপনার ড্রপআউট স্তরগুলির প্রয়োজন নেই?


1
কী ঘটেছিল তা দেখার জন্য আপনি কি কোনও আরএল নেটওয়ার্কে ড্রপআউট যুক্ত করার চেষ্টা করেছেন? আমার কাছে (একটি লুনারল্যান্ডার_ভি 2 সলভারের জন্য যা অন্যথায় ভালভাবে কাজ করে), এবং ফলাফলগুলি ভয়ানক ছিল, এটি 400 এপিসোডে সমাধান থেকে শুরু করে, এটির সমাধান করতে সম্পূর্ণ ব্যর্থ হয়ে যায় (এবং আমি অন্যান্য প্যারামে প্রচুর প্রকরণের চেষ্টা করেছি)। অন্যান্য নিয়মিতকরণ ঠিক আছে, এবং এমনকি উপকারী। আমি জানি না কেন ড্রপআউট নিয়ে সমস্যাগুলি যদিও এখানে একটি প্রশ্ন জিজ্ঞাসা করার কথা ভাবছিল। । ।
নিল স্লেটার

নীল, হ্যাঁ, মনে হচ্ছে আপনার অভিজ্ঞতাটি ডেনিসের নীচে যা বলেছেন তা প্রতিভাত হয়েছে। যেমনটি আমি প্রত্যাশা করেছিলাম, 'এই ধাঁধাটি সমাধান করুন' টাইপ দৃশ্যে আপনি যে নির্দিষ্ট ধাঁধাটি সমাধান করতে চান ঠিক তেমনই আপনি অতিরিক্ত পোশাকের দিকে তাকিয়ে আছেন। এবং আপনি জানতে চান যে আপনি যদি একটি নীল এলিয়েন বনাম একটি লাল এলিয়েনের মুখোমুখি হন তবে তারা আপনার খেলায় অন্যরকম আচরণ করতে পারে।
ম্যাট হ্যামিল্টন

@ ম্যাটহ্যামিলটন আমি কেবলমাত্র "আরএল গবেষকরা প্রশিক্ষণের ডেটাতে মূল্যায়ন করছেন" গল্পটি সম্পর্কে তৈরি করা টুইটগুলির একটি থ্রেড দেখতে পেয়েছি। আমি আমার উত্তরের সাথে একটি লিঙ্ক সম্পাদনা করেছি। আপনার প্রশ্নের উত্তর দেওয়ার ক্ষেত্রে বিষয়টি এখনও একইরকম, তবে আমি সেখানে সংযুক্ত টুইটের শৃঙ্খলার সাথে একমত হই যে সত্যটি কিছুটা ন্যূনতম।
ডেনিস সুমার্স

উত্তর:


11

ড্রপআউট মূলত কিছুটা ভিন্নতার পরিচয় দেয়। তত্ত্বাবধানে শেখার সেটিংসে এটি প্রায়শই ওভারফিটিং হ্রাস করতে সহায়তা করে (যদিও আমি বিশ্বাস করি যে ড্রপআউটটি ইতিমধ্যে কম হয়ে গেছে .. এর আগের কয়েক বছরের তুলনায় সাম্প্রতিক বছরগুলিতে ফ্যাশনেবল; আমি যদিও 100% নিশ্চিত নই, এটি আমার প্রাথমিক নয় দক্ষতার ক্ষেত্র)।

শক্তিবৃদ্ধি শেখার ক্ষেত্রে অতিরিক্ত বৈকল্পিকতা আমরা যা খুঁজছি তা আসলেই নয়। ইতিমধ্যে আমরা যে শিখার সংকেত পেয়েছি তাতে প্রচুর পরিমাণে বৈকল্পিকতা দেখা দেয় এবং এই বৈকল্পিকতা ইতিমধ্যে শিক্ষার স্থায়িত্ব এবং / বা শেখার গতির জন্য একটি বড় সমস্যা হয়ে দাঁড়িয়েছে। উদাহরণ স্বরূপ:

  • অ্যাকশন নির্বাচনের এলোমেলোতা আমাদের পর্যবেক্ষণগুলির মধ্যে পরিবর্তনের দিকে পরিচালিত করে to
  • পরিবেশের মধ্যে অন্তর্নিহিত এলোমেলোতা থাকতে পারে, যা আমাদের পর্যবেক্ষণগুলিতে অতিরিক্ত বৈচিত্রের দিকে পরিচালিত করে (কিছু পরিবেশ নিরক্ষরবাদী হয়)
  • তদারকি করা শেখার সেটিংসের বিপরীতে, রিইনফোর্সমেন্ট লার্নিংয়ে আমরা প্রায়শই আমাদের ক্ষতি ফাংশন / প্রশিক্ষণ সংকেতের অংশ হিসাবে আমাদের নিজস্ব ভবিষ্যদ্বাণীগুলি ব্যবহার করি। উদাহরণস্বরূপ, টেম্পোরাল-ডিফারেন্স লার্নিংয়ে (যেমন কিউ-লার্নিং / ডিকিউএন), আমরা যে টার্গেটের প্রতি আপডেট করি তা দেখতে মতো লাগে । সেই শব্দটিতে, কেবলমাত্র একটি স্থল-সত্য পর্যবেক্ষণ (যেমন আমরা তদারকি শিক্ষায় ব্যবহার করব), এবং অন্য শব্দটি আমাদের নিজস্ব ভবিষ্যদ্বাণী। একটি শেখার প্রক্রিয়া চলাকালীন, সেই উত্তরোক্ত অংশগুলি (আমাদের নিজস্ব পূর্বাভাস) সময়ের সাথে সাথে পরিবর্তিত হচ্ছে। এটি একটি " চলমান লক্ষ্য " 'সমস্যা, যা আমাদের শেখার সংকেতগুলিতে অতিরিক্ত বৈকল্পিক হিসাবে দেখা যেতে পারে।r+maxaQ(s,a)r

ডিপ আরএল অ্যালগরিদমের অনেকগুলি গুরুত্বপূর্ণ অংশ (যা ব্যতীত আমাদের প্রশিক্ষণ প্রক্রিয়াগুলি অস্থির হয়ে উঠতে এবং ভেঙে ফেলার চেষ্টা করে) সেই বৈকল্পিকতা হ্রাস করার দিকে খুব তৈরি করা হয় । উদাহরণস্বরূপ, চলমান টার্গেট সমস্যা হ্রাস করার জন্য ডিকিউএন-তে টার্গেট নেটওয়ার্কগুলি বিশেষত চালু করা হয়েছিল। এই দৃষ্টিকোণ থেকে, এটি অবাক করার মতো বিষয় নয় যে আমরা যদি আবার অন্য উপায়ে (যেমন ড্রপআউট) এর মাধ্যমে আরও কৃত্রিম বৈচিত্র যোগ করি, যা এর ফলে কর্মক্ষমতা ক্ষতিগ্রস্থ হবে / শিক্ষার অস্থিতিশীল হবে।


ওভারফিটিংয়ের সাথে মোকাবিলা করার এবং চেষ্টা করার জন্য কি অন্য কোনও ব্যবস্থা আছে? বা অনেক আরএল উদাহরণগুলিতে কিছু যায় আসে না? উদাহরণস্বরূপ, 'ব্রেকআউট' গেমটিতে চূড়ান্ত উচ্চ স্কোরের কেবলমাত্র একটি সঠিক উপায় থাকতে পারে, তাই আপনি ঠিক এটি শিখতে পারেন, এবং সাধারণকরণের প্রয়োজন নেই?

সর্বাধিক বর্তমান (গভীর) শক্তিবৃদ্ধি শেখার গবেষণায়, ওভারফিটিং অবশ্যই সমস্যা হিসাবে দেখা হয় না। আরএল গবেষণার বিস্তৃত অংশটি একটি পরিবেশে প্রশিক্ষণের সমন্বয়ে গঠিত (উদাহরণস্বরূপ কার্টপোল, বা ব্রেকআউট, বা প্যাকম্যানের একটি নির্দিষ্ট স্তর, বা একটি নির্দিষ্ট গোলকধাঁধাতে নেভিগেট করা ইত্যাদি), এবং হয় সেই শেখার প্রক্রিয়া চলাকালীন ক্রমাগত পারফরম্যান্সের মূল্যায়ন, বা মূল্যায়ন একই পরিবেশে যেমন একটি শেখার প্রক্রিয়া পরে কর্মক্ষমতা ।

যদি আমরা সেই মূল্যায়ন পদ্ধতিটিকে তদারকি শিক্ষায় যা ঘটে তার সাথে তুলনা করি ... আমরা মূলত প্রশিক্ষণের সেটটিতে পারফরম্যান্সটি মূল্যায়ন করছি । তত্ত্বাবধানে শিক্ষায়, এটি একেবারেই অগ্রহণযোগ্য হবে তবে আরএল-তে এটি ব্যতিক্রমের চেয়ে গ্রহণযোগ্য এবং অধিক নিয়ম হিসাবে বিবেচিত হয়। কেউ কেউ বলেন যে এটি কেবলমাত্র বর্তমান আরএল গবেষণায় একটি সমস্যা, এটির পরিবর্তনের প্রয়োজন। এটি যুক্তিযুক্তও হতে পারে যে এটি অগত্যা কোনও সমস্যা নয়; যদি আমরা সত্যই এজেন্টটিকে ঠিক একই পরিবেশে প্রশিক্ষণ দিতে পারি যা আমরা পরে এটি স্থাপন করতে চাই ... ভাল, তবে সেই পরিবেশটির সাথে এটি কীভাবে উপযুক্ত?

সুতরাং, যখন আমরা উপরে বর্ণিত মূল্যায়ন পদ্ধতিটি ব্যবহার করছি, প্রকৃতপক্ষে আমরা একটি নির্দিষ্ট পরিবেশের চেয়ে বেশি মানিয়ে নিই, তবে আমাদের মূল্যায়নের মানদণ্ড অনুসারে ওভারফিটটি খারাপের চেয়ে ভাল । এটি স্পষ্ট যে এই পদ্ধতিটি এজেন্টগুলির দিকে পরিচালিত করে না যা ভালভাবে সাধারণীকরণ করতে পারে; আপনি যদি কোনও এজেন্টকে ধারাবাহিকভাবে একটি নির্দিষ্ট গোলকধাঁধায়নের জন্য প্রশিক্ষণ দেন, তবে এটি প্রশিক্ষণের পরে সম্ভবত কোনও ভিন্ন ধাঁধাঁ নেভিগেট করতে অক্ষম হবে।

* দ্রষ্টব্য: আমার মতে সত্যটি আরএল-তে সত্যই "প্রশিক্ষণ সংস্থার মূল্যায়ন" করছি তার থেকে কিছুটা বেশি প্রয়োজন। উদাহরণস্বরূপ, টুইটগুলির এই দুর্দান্ত থ্রেডটি দেখুন: https://twitter.com/nanjiang_cs/status/1049682399980908544


আমি এমন পরিবেশ তৈরি করেছি যা মুদ্রার দাম এবং একটি সাধারণ এজেন্টকে সাদৃশ্য করে, ডিকিউএন ব্যবহার করে, কখন কেনা বেচা হবে তা শিখতে চেষ্টা করে। এক মাসের মূল্যমানের 5 মিনিটের মূল্যের ডেটা সমন্বিত ডেটা নির্দিষ্ট সেট থেকে নেওয়া প্রায় মিলিয়ন বারের বারের উপরে এটি প্রশিক্ষণ দেওয়া মনে হয় এটি যথেষ্ট পরিমাণে উপচে পড়ে। আমি যদি তখন এজেন্টদের মূল্যায়ন করি এবং মডেলটিকে এক মাসের বিভিন্ন মাসের মূল্যবান ডেটার বিপরীতে দেখায় তবে তা অত্যন্ত খারাপ হয়। ক্লাসিক overfitting মত শোনাচ্ছে।

নোট করুন যে এখানে বর্ণিত আপনার মূল্যায়ন পদ্ধতি প্রকৃতপক্ষে আর "সাধারণ" মূল্যায়ন পদ্ধতির সাথে ফিট করে না। পরিবেশে নন-স্টেশনের সাথে কনসেপ্ট ড্রিফট নিয়ে আপনার সমস্যা আছে । এর অর্থ ওভারফিট করা আপনার জন্য সমস্যা হতে পারে।

তবুও, আমি নিশ্চিত না যে ড্রপআউটটি সহায়তা করবে কিনা (এটি এখনও অতিরিক্ত বৈচিত্র যা ক্ষতিগ্রস্থ হতে পারে)। প্রথম এবং সর্বাগ্রে, আপনি নিশ্চিত করতে চাইবেন যে আপনার ইনপুটগুলিতে সময় / মাসের উপর নজর রাখার কিছু উপায় রয়েছে, যেমন আপনার কাছে এমন নীতি শিখার সুযোগ থাকবে যা সময়ের সাথে নিজেকে মানিয়ে নেয়। যদি আপনার "প্রশিক্ষণ পর্ব" এবং "মূল্যায়ন পর্ব" এর মধ্যে একটি সুস্পষ্ট, দৃ bound় সীমারেখা থাকে এবং আপনি জানেন যে ধারণার চালিকাটি সেই সীমানা জুড়ে ঘটে (আপনি জানেন যে মূল্যায়ন পর্ব থেকে আপনার পরিবেশ প্রশিক্ষণ পর্বে আলাদাভাবে আচরণ করে) ... আপনি সত্যিকারের কেবল প্রশিক্ষণ পর্বে অভিজ্ঞতা থেকে এমন নীতি শেখার খুব বেশি আশা নেই যা এখনও মূল্যায়ন পর্বে ভাল পারফর্ম করে। আমার সন্দেহ হয় আপনাকে সেই পরিষ্কার ও শক্ত সীমানা থেকে মুক্তি দিতে হবে। আপনি' আমি পাশাপাশি মূল্যায়ন পর্ব জুড়ে শিখতে রাখতে চাই। এটি আপনার শেখার অ্যালগরিদমকে পরিবর্তিত পরিবেশে অভিজ্ঞতা সংগ্রহ করতে এবং এটিকে খাপ খাইয়ে নিতে সক্ষম করে।


1
ডেনিস, আপনার খুব বিস্তারিত উত্তরের জন্য আপনাকে অনেক ধন্যবাদ! এটির অনেক কিছুই আমি আমার সন্দেহগুলি নিশ্চিত করে বলে নিশ্চিত করি: অর্থাত আরও আরএল একটি নির্দিষ্ট পরিবেশে খুব নির্দিষ্ট সমস্যা সমাধান করার চেষ্টা করছে যেখানে প্রায়শই এই সমস্যার সমাধানের জন্য একটি পরিষ্কার 'সেরা' সমাধান পাওয়া যায়।
ম্যাট হ্যামিল্টন

2
@ ম্যাটহ্যামিলটন নোট করুন যে আরও সাধারণ পরিবেশের জন্য আরএল-এর দিকে গবেষণা রয়েছে। আপনি যদি সেই স্টাফটিতে আগ্রহী হন তবে আপনি "ট্রান্সফার লার্নিং" এবং "রিইনফোর্সমেন্ট লার্নিং" এর সংমিশ্রণগুলি অনুসন্ধান করতে চান, বা মাল্টি-টাস্ক আরএল (মাল্টি-ওজেক্টিভ আরএল) এর মতো জিনিসগুলি আকর্ষণীয়ও হতে পারে, তবে সম্ভবত কিছুটা আলাদা )। এই ধরণের প্রচেষ্টা এখনও প্রশিক্ষণ এবং এক সময় এক পরিবেশে মূল্যায়নের প্রচলিত পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে কম পারফর্মেন্ট হতে পারে।
ডেনিস সুমারস 10-15 ই
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.