ড্রপআউট মূলত কিছুটা ভিন্নতার পরিচয় দেয়। তত্ত্বাবধানে শেখার সেটিংসে এটি প্রায়শই ওভারফিটিং হ্রাস করতে সহায়তা করে (যদিও আমি বিশ্বাস করি যে ড্রপআউটটি ইতিমধ্যে কম হয়ে গেছে .. এর আগের কয়েক বছরের তুলনায় সাম্প্রতিক বছরগুলিতে ফ্যাশনেবল; আমি যদিও 100% নিশ্চিত নই, এটি আমার প্রাথমিক নয় দক্ষতার ক্ষেত্র)।
শক্তিবৃদ্ধি শেখার ক্ষেত্রে অতিরিক্ত বৈকল্পিকতা আমরা যা খুঁজছি তা আসলেই নয়। ইতিমধ্যে আমরা যে শিখার সংকেত পেয়েছি তাতে প্রচুর পরিমাণে বৈকল্পিকতা দেখা দেয় এবং এই বৈকল্পিকতা ইতিমধ্যে শিক্ষার স্থায়িত্ব এবং / বা শেখার গতির জন্য একটি বড় সমস্যা হয়ে দাঁড়িয়েছে। উদাহরণ স্বরূপ:
- অ্যাকশন নির্বাচনের এলোমেলোতা আমাদের পর্যবেক্ষণগুলির মধ্যে পরিবর্তনের দিকে পরিচালিত করে to
- পরিবেশের মধ্যে অন্তর্নিহিত এলোমেলোতা থাকতে পারে, যা আমাদের পর্যবেক্ষণগুলিতে অতিরিক্ত বৈচিত্রের দিকে পরিচালিত করে (কিছু পরিবেশ নিরক্ষরবাদী হয়)
- তদারকি করা শেখার সেটিংসের বিপরীতে, রিইনফোর্সমেন্ট লার্নিংয়ে আমরা প্রায়শই আমাদের ক্ষতি ফাংশন / প্রশিক্ষণ সংকেতের অংশ হিসাবে আমাদের নিজস্ব ভবিষ্যদ্বাণীগুলি ব্যবহার করি। উদাহরণস্বরূপ, টেম্পোরাল-ডিফারেন্স লার্নিংয়ে (যেমন কিউ-লার্নিং / ডিকিউএন), আমরা যে টার্গেটের প্রতি আপডেট করি তা দেখতে মতো লাগে । সেই শব্দটিতে, কেবলমাত্র একটি স্থল-সত্য পর্যবেক্ষণ (যেমন আমরা তদারকি শিক্ষায় ব্যবহার করব), এবং অন্য শব্দটি আমাদের নিজস্ব ভবিষ্যদ্বাণী। একটি শেখার প্রক্রিয়া চলাকালীন, সেই উত্তরোক্ত অংশগুলি (আমাদের নিজস্ব পূর্বাভাস) সময়ের সাথে সাথে পরিবর্তিত হচ্ছে। এটি একটি " চলমান লক্ষ্য " 'সমস্যা, যা আমাদের শেখার সংকেতগুলিতে অতিরিক্ত বৈকল্পিক হিসাবে দেখা যেতে পারে।r+maxa′Q(s′,a′)r
ডিপ আরএল অ্যালগরিদমের অনেকগুলি গুরুত্বপূর্ণ অংশ (যা ব্যতীত আমাদের প্রশিক্ষণ প্রক্রিয়াগুলি অস্থির হয়ে উঠতে এবং ভেঙে ফেলার চেষ্টা করে) সেই বৈকল্পিকতা হ্রাস করার দিকে খুব তৈরি করা হয় । উদাহরণস্বরূপ, চলমান টার্গেট সমস্যা হ্রাস করার জন্য ডিকিউএন-তে টার্গেট নেটওয়ার্কগুলি বিশেষত চালু করা হয়েছিল। এই দৃষ্টিকোণ থেকে, এটি অবাক করার মতো বিষয় নয় যে আমরা যদি আবার অন্য উপায়ে (যেমন ড্রপআউট) এর মাধ্যমে আরও কৃত্রিম বৈচিত্র যোগ করি, যা এর ফলে কর্মক্ষমতা ক্ষতিগ্রস্থ হবে / শিক্ষার অস্থিতিশীল হবে।
ওভারফিটিংয়ের সাথে মোকাবিলা করার এবং চেষ্টা করার জন্য কি অন্য কোনও ব্যবস্থা আছে? বা অনেক আরএল উদাহরণগুলিতে কিছু যায় আসে না? উদাহরণস্বরূপ, 'ব্রেকআউট' গেমটিতে চূড়ান্ত উচ্চ স্কোরের কেবলমাত্র একটি সঠিক উপায় থাকতে পারে, তাই আপনি ঠিক এটি শিখতে পারেন, এবং সাধারণকরণের প্রয়োজন নেই?
সর্বাধিক বর্তমান (গভীর) শক্তিবৃদ্ধি শেখার গবেষণায়, ওভারফিটিং অবশ্যই সমস্যা হিসাবে দেখা হয় না। আরএল গবেষণার বিস্তৃত অংশটি একটি পরিবেশে প্রশিক্ষণের সমন্বয়ে গঠিত (উদাহরণস্বরূপ কার্টপোল, বা ব্রেকআউট, বা প্যাকম্যানের একটি নির্দিষ্ট স্তর, বা একটি নির্দিষ্ট গোলকধাঁধাতে নেভিগেট করা ইত্যাদি), এবং হয় সেই শেখার প্রক্রিয়া চলাকালীন ক্রমাগত পারফরম্যান্সের মূল্যায়ন, বা মূল্যায়ন একই পরিবেশে যেমন একটি শেখার প্রক্রিয়া পরে কর্মক্ষমতা ।
যদি আমরা সেই মূল্যায়ন পদ্ধতিটিকে তদারকি শিক্ষায় যা ঘটে তার সাথে তুলনা করি ... আমরা মূলত প্রশিক্ষণের সেটটিতে পারফরম্যান্সটি মূল্যায়ন করছি । তত্ত্বাবধানে শিক্ষায়, এটি একেবারেই অগ্রহণযোগ্য হবে তবে আরএল-তে এটি ব্যতিক্রমের চেয়ে গ্রহণযোগ্য এবং অধিক নিয়ম হিসাবে বিবেচিত হয়। কেউ কেউ বলেন যে এটি কেবলমাত্র বর্তমান আরএল গবেষণায় একটি সমস্যা, এটির পরিবর্তনের প্রয়োজন। এটি যুক্তিযুক্তও হতে পারে যে এটি অগত্যা কোনও সমস্যা নয়; যদি আমরা সত্যই এজেন্টটিকে ঠিক একই পরিবেশে প্রশিক্ষণ দিতে পারি যা আমরা পরে এটি স্থাপন করতে চাই ... ভাল, তবে সেই পরিবেশটির সাথে এটি কীভাবে উপযুক্ত?
সুতরাং, যখন আমরা উপরে বর্ণিত মূল্যায়ন পদ্ধতিটি ব্যবহার করছি, প্রকৃতপক্ষে আমরা একটি নির্দিষ্ট পরিবেশের চেয়ে বেশি মানিয়ে নিই, তবে আমাদের মূল্যায়নের মানদণ্ড অনুসারে ওভারফিটটি খারাপের চেয়ে ভাল । এটি স্পষ্ট যে এই পদ্ধতিটি এজেন্টগুলির দিকে পরিচালিত করে না যা ভালভাবে সাধারণীকরণ করতে পারে; আপনি যদি কোনও এজেন্টকে ধারাবাহিকভাবে একটি নির্দিষ্ট গোলকধাঁধায়নের জন্য প্রশিক্ষণ দেন, তবে এটি প্রশিক্ষণের পরে সম্ভবত কোনও ভিন্ন ধাঁধাঁ নেভিগেট করতে অক্ষম হবে।
* দ্রষ্টব্য: আমার মতে সত্যটি আরএল-তে সত্যই "প্রশিক্ষণ সংস্থার মূল্যায়ন" করছি তার থেকে কিছুটা বেশি প্রয়োজন। উদাহরণস্বরূপ, টুইটগুলির এই দুর্দান্ত থ্রেডটি দেখুন: https://twitter.com/nanjiang_cs/status/1049682399980908544
আমি এমন পরিবেশ তৈরি করেছি যা মুদ্রার দাম এবং একটি সাধারণ এজেন্টকে সাদৃশ্য করে, ডিকিউএন ব্যবহার করে, কখন কেনা বেচা হবে তা শিখতে চেষ্টা করে। এক মাসের মূল্যমানের 5 মিনিটের মূল্যের ডেটা সমন্বিত ডেটা নির্দিষ্ট সেট থেকে নেওয়া প্রায় মিলিয়ন বারের বারের উপরে এটি প্রশিক্ষণ দেওয়া মনে হয় এটি যথেষ্ট পরিমাণে উপচে পড়ে। আমি যদি তখন এজেন্টদের মূল্যায়ন করি এবং মডেলটিকে এক মাসের বিভিন্ন মাসের মূল্যবান ডেটার বিপরীতে দেখায় তবে তা অত্যন্ত খারাপ হয়। ক্লাসিক overfitting মত শোনাচ্ছে।
নোট করুন যে এখানে বর্ণিত আপনার মূল্যায়ন পদ্ধতি প্রকৃতপক্ষে আর "সাধারণ" মূল্যায়ন পদ্ধতির সাথে ফিট করে না। পরিবেশে নন-স্টেশনের সাথে কনসেপ্ট ড্রিফট নিয়ে আপনার সমস্যা আছে । এর অর্থ ওভারফিট করা আপনার জন্য সমস্যা হতে পারে।
তবুও, আমি নিশ্চিত না যে ড্রপআউটটি সহায়তা করবে কিনা (এটি এখনও অতিরিক্ত বৈচিত্র যা ক্ষতিগ্রস্থ হতে পারে)। প্রথম এবং সর্বাগ্রে, আপনি নিশ্চিত করতে চাইবেন যে আপনার ইনপুটগুলিতে সময় / মাসের উপর নজর রাখার কিছু উপায় রয়েছে, যেমন আপনার কাছে এমন নীতি শিখার সুযোগ থাকবে যা সময়ের সাথে নিজেকে মানিয়ে নেয়। যদি আপনার "প্রশিক্ষণ পর্ব" এবং "মূল্যায়ন পর্ব" এর মধ্যে একটি সুস্পষ্ট, দৃ bound় সীমারেখা থাকে এবং আপনি জানেন যে ধারণার চালিকাটি সেই সীমানা জুড়ে ঘটে (আপনি জানেন যে মূল্যায়ন পর্ব থেকে আপনার পরিবেশ প্রশিক্ষণ পর্বে আলাদাভাবে আচরণ করে) ... আপনি সত্যিকারের কেবল প্রশিক্ষণ পর্বে অভিজ্ঞতা থেকে এমন নীতি শেখার খুব বেশি আশা নেই যা এখনও মূল্যায়ন পর্বে ভাল পারফর্ম করে। আমার সন্দেহ হয় আপনাকে সেই পরিষ্কার ও শক্ত সীমানা থেকে মুক্তি দিতে হবে। আপনি' আমি পাশাপাশি মূল্যায়ন পর্ব জুড়ে শিখতে রাখতে চাই। এটি আপনার শেখার অ্যালগরিদমকে পরিবর্তিত পরিবেশে অভিজ্ঞতা সংগ্রহ করতে এবং এটিকে খাপ খাইয়ে নিতে সক্ষম করে।