ছোট ডেটাসেটে এলএসটিএমের ওভারফিটিং প্রতিরোধ করা

আমি সেন্টিমেন্টের পূর্বাভাসের জন্য ১৫০০ টি টুইটকে মডেলিং করছি একটি একক স্তর এলএসটিএম দিয়ে 128 টি লুকানো ইউনিট সহ 80 ডাইমেনড সহ ওয়ার্ড 2vec- এর মতো উপস্থাপনা ব্যবহার করে। আমি 1 যুগের পরে একটি বংশদ্ভুত নির্ভুলতা (এলোমেলো = 20% সহ 38%) পেয়েছি। প্রশিক্ষণের যথার্থতা আরোহণের সূচনা হওয়ার সাথে সাথে আরও প্রশিক্ষণ বৈধতার নির্ভুলতা হ্রাস শুরু করে - ওভারফিটিংয়ের একটি স্পষ্ট লক্ষণ।

তাই আমি নিয়মিতকরণ করার উপায়গুলি নিয়ে ভাবছি। আমি গোপন ইউনিটগুলির সংখ্যা হ্রাস না করার পছন্দ করব (128 ইতিমধ্যে কিছুটা কম বলে মনে হচ্ছে)। আমি বর্তমানে সম্ভাব্যতা 50% সহ ড্রপআউট ব্যবহার করি তবে এটি সম্ভবত বাড়ানো যেতে পারে। অপ্টিমাইজারটি হ'ল কেরাসের জন্য পূর্বনির্ধারিত প্যারামিটারগুলির সাথে অ্যাডাম ( http://keras.io/optimizer/#adam )।

আমার ডেটাসেটে এই মডেলটির জন্য ওভারফিটিং হ্রাস করার কয়েকটি কার্যকর উপায় কী?

— পীর
সূত্র

আমার ঠিক একই সমস্যা হচ্ছে কীভাবে আপনি আপনার এলএসটিএমকে নিয়মিত করতে পরিচালনা করলেন? আমার এলএসটিএম এর বৈধতা যথার্থতা 41%। আমার ইনপুট শেপটি (২০০,) এবং আমার 1৪ টি ইউনিট সহ 1 টি এলএসটিএম স্তর রয়েছে, তার পরে 0.4 ড্রপআউট সহ 2 ঘন স্তর রয়েছে।

— নির্বান অঞ্জিরবাগ

আপনি চেষ্টা করতে পারেন:

লুকানো ইউনিটগুলির সংখ্যা হ্রাস করুন, আমি জানি আপনি বলেছেন যে এটি ইতিমধ্যে কম বলে মনে হচ্ছে, তবে ইনপুট স্তরটিতে কেবলমাত্র ৮০ টি বৈশিষ্ট্য রয়েছে, এটি আসলে হতে পারে যে 128 খুব বেশি। থাম্বের একটি নিয়ম হ'ল লুকানো ইউনিটের সংখ্যা ইনপুট ইউনিটের সংখ্যার (80) এবং আউটপুট ক্লাসের (5) মধ্যে থাকা;
বিকল্পভাবে, আপনি ইনপুট উপস্থাপনের জায়গার মাত্রাটি 80 এরও বেশি হতে পারে (তবে এটি যদি কোনও প্রদত্ত শব্দের জন্য ইতিমধ্যে উপস্থাপনাটি খুব সংকীর্ণ হয় তবে এটি উপকারীও হতে পারে)।

একটি নেটওয়ার্ক ফিট করার একটি ভাল উপায় একটি অত্যধিক ফিটনেসিং নেটওয়ার্কের সাথে শুরু করা এবং তারপরে সক্ষমতা (লুকানো ইউনিট এবং এম্বেডিং স্পেস) হ্রাস করা উচিত যতক্ষণ না এটি আর ফিট না করে।

— মিগুয়েল
সূত্র

আপনি কি l1 এবং l2 নিয়মিতকরণ চেষ্টা করেছিলেন? এটি আসলে কাজ করে? এই উত্তরটি পরামর্শ দেয় যে আপনার সাধারণভাবে এটি করা উচিত নয়

— জাকুব বার্টকজুক

আরএনএনগুলির এই সম্পত্তি সম্পর্কে আমি অবগত ছিলাম না, আমি উত্তরের সেই বিন্দুটি মুছব

— মিগুয়েল

হ্যালো, আমি ভাবছিলাম যে আপনি কীভাবে থাম্বের নিয়ম পেয়েছেন যা জানিয়েছে যে "লুকানো ইউনিটের সংখ্যা ইনপুট ইউনিট এবং আউটপুট শ্রেণীর সংখ্যার মধ্যে থাকে"। এমন কোন কাগজ আছে যা আমি উল্লেখ করতে পারি?

— কং

এটি থাম্বের নিয়মগুলির বিষয়, আমি জানি না আমি এটি কোথা থেকে পেয়েছি ...

— মিগুয়েল