এল 2 নিয়মিতকরণের সাথে আরএনএন শেখা বন্ধ করে দেয়


10

ভারসাম্যহীন ঘটনার কোনও ইভেন্ট সনাক্ত করতে আমি দ্বি নির্দেশমূলক আরএনএন ব্যবহার করি। Theণাত্মক শ্রেণীর চেয়ে ধনাত্মক শ্রেণি প্রায় 100 গুণ কম is কোনও নিয়মিতকরণ ব্যবহার না করা অবস্থায় আমি ট্রেনের সেটটিতে 100% এবং বৈধতা সেটটিতে 30% নির্ভুলতা পেতে পারি। আমি l2 নিয়মিতকরণ চালু করি এবং ফলাফলটি দীর্ঘতর শেখার পরিবর্তে ট্রেনের সেটটিতে কেবল 30% যথার্থতা এবং বৈধতা সেটটিতে 100% যথার্থতা।

আমি ভাবছিলাম যে আমার ডেটা খুব ছোট তাই কেবল পরীক্ষার জন্য আমি ট্রেন সেটটিকে টেস্ট সেটের সাথে একীভূত করেছি যা আমি আগে ব্যবহার করি নি। L2 নিয়মিতকরণ ব্যবহার করার মতো পরিস্থিতি একই ছিল যা আমি এখন করি না। আমি ট্রেন + পরীক্ষা এবং বৈধকরণে 30% নির্ভুলতা পেয়েছি।

উল্লিখিত পরীক্ষাগুলিতে 128 হিডেন ইউনিট এবং 80 টি টাইমস্টেপ ব্যবহার করার সময় আমি যখন লুকানো ইউনিটগুলির সংখ্যা 256 এ বাড়িয়েছি তখন আমি 100% নির্ভুলতা পেতে ট্রেন + পরীক্ষার সেটগুলিতে আবারও উপকার করতে পারি তবে বৈধতা সেটটিতে এখনও 30% থাকে।

হাইপারপ্যারামিটারগুলির জন্য আমি অনেকগুলি বিকল্প চেষ্টা করেছিলাম এবং প্রায় কোনও ফলাফল নেই। হতে পারে ভারী ক্রস এন্ট্রপি সমস্যা সৃষ্টি করছে, প্রদত্ত পরীক্ষায় ধনাত্মক শ্রেণীর ওজন ৫ 5. যখন বড় ওজন চেষ্টা করার সময় ফলাফল প্রায়শই নির্ভুলতার প্রায় ২০% খারাপ হয়।

আমি এলএসটিএম এবং জিআরইউ সেলগুলি চেষ্টা করেছি, কোনও পার্থক্য নেই।

আমি পেয়েছি সেরা ফলাফল। আমি 256 টি লুকানো ইউনিট সহ 2 টি গোপন স্তর চেষ্টা করেছি, এটি গণনা এবং 3 জিপিইউ মেমরির 3 দিন সময় নেয়। L2 নিয়মিতকরণ চালু থাকলেও এতটা শক্তিশালী নয়, আবার ওভারফিটিং শুরু হওয়ার আগে আমি প্রায় 40-50% নির্ভুলতা পেয়েছিলাম।

আমি অ্যাডাম অপটিমাইজার ব্যবহার করি, অন্যরা এত ভাল কাজ করে না। আমার কাছে থাকা বৈশিষ্ট্যটি যথেষ্ট, কারণ স্টেট-মেশিন ব্যবহার করার সময় আমি 90% নির্ভুলতা পেতে পারি। এই রাষ্ট্রের মেশিনে মূল বৈশিষ্ট্যটি অন্যান্য বৈশিষ্ট্যগুলির বৈশিষ্ট্যের উপর ভিত্তি করে সংশ্লেষ এবং থ্রেশহোল্ডিং হয় এবং এর পরিবর্তনশীল দৈর্ঘ্যটি কখনও কখনও এটি 10 ​​হয়, কখনও কখনও 20 টি টাইমস্ট্যাম্প যা বৈশিষ্ট্যটির বিষয়ে কথা বলে।

কিছু সাধারণ নির্দেশিকা আছে কি এই পরিস্থিতিতে করণীয়? আমি কিছুই খুঁজে পাচ্ছিলাম না।

উত্তর:


11

বেনজিও এট আল আর্টিকেল " পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলির প্রশিক্ষণের অসুবিধা সম্পর্কে " এল 2 নিয়মিতকরণ কেন আরএনএন কার্যকারিতা হারাতে পারে তার একটি ইঙ্গিত দেয়। মূলত, এল 1 / এল 2 আরএনএন কোষগুলিকে নিয়মিত করে তোলার মাধ্যমে সময়কালের মাধ্যমে তথ্যগুলি জানার এবং ধরে রাখার ক্ষমতাকেও আপোষ করে।

বারবার ওজনে একটি এল 1 বা এল 2 জরিমানা ব্যবহার বিস্ফোরিত গ্রেডিয়েন্টগুলিতে সহায়তা করতে পারে। ধরে নিচ্ছি ওজনগুলি ছোট মানগুলিতে শুরু হয়, বৃহত্তম একক মানλ1 এর ওয়াটR এল 1 / এল 2 শব্দটি প্রশিক্ষণের সময় এটি নিশ্চিত করতে পারে λ11 এর চেয়ে ছোট থাকে এবং এই ব্যবস্থায় গ্রেডিয়েন্টগুলি বিস্ফোরিত হতে পারে না। এই পদ্ধতিটি মডেলটিকে উত্সের একক পয়েন্ট আকর্ষকের মধ্যে সীমাবদ্ধ করে, যেখানে মডেলটিতে anyোকানো কোনও তথ্য দ্রুত মারা যায়। এটি জেনারেটর নেটওয়ার্কগুলি শিখতে মডেলকে বাধা দেয় না, এটি দীর্ঘমেয়াদী মেমরির চিহ্নগুলিও প্রদর্শন করতে পারে না।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.