বৈধতা হ্রাস এখনও হ্রাস সঙ্গে এমনকি overfitting ঘটতে পারে?

12

কেরাসে আমার একটি কনসিউশনাল + এলএসটিএম মডেল রয়েছে, এটি (রেফ 1) এর অনুরূপ, যা আমি কাগল প্রতিযোগিতার জন্য ব্যবহার করছি। আর্কিটেকচারটি নীচে দেখানো হয়েছে। আমি এটিকে আমার লেবেলযুক্ত 11000 নমুনার সেটটিতে প্রশিক্ষণ দিয়েছি (দুটি শ্রেণি, প্রাথমিক প্রাদুর্ভাব 9 ~: 1, সুতরাং আমি 1% এর প্রায় 1/1 অনুপাতকে উপস্থাপন করেছি) 20% বৈধতা বিভক্ত সহ 50 যুগের জন্য I কিছুক্ষণের জন্য তবে আমি ভেবেছিলাম এটি শব্দ এবং ড্রপআউট স্তরগুলির সাথে এটি নিয়ন্ত্রণে পেয়েছে।

মডেলটিকে দেখে মনে হয়েছিল এটি আশ্চর্যজনকভাবে প্রশিক্ষণ পেয়েছিল, শেষে প্রশিক্ষণের পুরোটি পুরোপুরি 91% করেছে তবে পরীক্ষার ডেটা সেটটিতে পরম আবর্জনা পরীক্ষার পরে।

বিজ্ঞপ্তি: বৈধতা যথার্থতা প্রশিক্ষণের নির্ভুলতার চেয়ে বেশি। এটি "টিপিক্যাল" ওভারফিটিংয়ের বিপরীত।

আমার স্বজ্ঞাততাটি হল, ছোট-ইশ বৈধতা বিভাজনকে কেন্দ্র করে, মডেলটি এখনও ইনপুট সেটটিতে খুব দৃ strongly়ভাবে ফিট করার জন্য পরিচালনা করছে এবং সাধারণীকরণ হারাচ্ছে। অন্য সূত্রটি হ'ল ভাল_এইচসিটি এ্যাকের চেয়ে বড়, এটি মশালার মতো মনে হয়। এটাই কি এখানে সম্ভবত সবচেয়ে দৃশ্যমান?

যদি এটি অত্যধিক উপযোগী হয় তবে বৈধতা বিভাজনকে একেবারে প্রশমিত করবে বা আমি কি একই সমস্যাটিতে চলে যাব, যেহেতু গড়ে প্রতিটি নমুনা মোট মোট যুগের অর্ধেকটি দেখতে পাবে?

মডেলটি:

Layer (type)                     Output Shape          Param #     Connected to                     
====================================================================================================
convolution1d_19 (Convolution1D) (None, None, 64)      8256        convolution1d_input_16[0][0]     
____________________________________________________________________________________________________
maxpooling1d_18 (MaxPooling1D)   (None, None, 64)      0           convolution1d_19[0][0]           
____________________________________________________________________________________________________
batchnormalization_8 (BatchNormal(None, None, 64)      128         maxpooling1d_18[0][0]            
____________________________________________________________________________________________________
gaussiannoise_5 (GaussianNoise)  (None, None, 64)      0           batchnormalization_8[0][0]       
____________________________________________________________________________________________________
lstm_16 (LSTM)                   (None, 64)            33024       gaussiannoise_5[0][0]            
____________________________________________________________________________________________________
dropout_9 (Dropout)              (None, 64)            0           lstm_16[0][0]                    
____________________________________________________________________________________________________
batchnormalization_9 (BatchNormal(None, 64)            128         dropout_9[0][0]                  
____________________________________________________________________________________________________
dense_23 (Dense)                 (None, 64)            4160        batchnormalization_9[0][0]       
____________________________________________________________________________________________________
dropout_10 (Dropout)             (None, 64)            0           dense_23[0][0]                   
____________________________________________________________________________________________________
dense_24 (Dense)                 (None, 2)             130         dropout_10[0][0]                 
====================================================================================================
Total params: 45826

মডেলের ফিট করার জন্য এখানে কল দেওয়া হয়েছে (শ্রেণীর ওজন সাধারণত 1: 1 এর কাছাকাছি হয় যেহেতু আমি ইনপুটটি উপস্থাপন করি):

class_weight= {0:1./(1-ones_rate), 1:1./ones_rate} # automatically balance based on class occurence
m2.fit(X_train, y_train, nb_epoch=50, batch_size=64, shuffle=True, class_weight=class_weight, validation_split=0.2 )

এসই এর কিছু নির্বোধ নিয়ম আছে যে আমার স্কোর বেশি না হওয়া পর্যন্ত আমি 2 টির বেশি লিঙ্ক পোস্ট করতে পারি না, সুতরাং আপনার আগ্রহের ক্ষেত্রে উদাহরণ এখানে দেওয়া হয়েছে: রেফ 1: মেশিনেরিনেমাস্ট্রি ডট কম স্ল্যাশ সিকোয়েন্স-শ্রেণিবদ্ধকরণ-এলএসটিএম-পুনরাবৃত্তি-নিউরাল নেটওয়ার্কস- পাইথন-keras

keras cross-validation overfitting

— DeusXMachina
সূত্র

8

বৈধতা সেটটি ভারসাম্যপূর্ণ কিনা তা আমি নিশ্চিত নই। আপনার একটি গুরুতর ডেটা ভারসাম্যহীন সমস্যা আছে। আপনি যদি প্রতিটি শ্রেণি থেকে আপনার নেটওয়ার্ককে প্রশিক্ষণের জন্য সমান এবং এলোমেলোভাবে নমুনা করেন এবং তারপরে আপনি যা নমুনা করেছেন তার এক শতাংশ আপনার নেটওয়ার্ককে বৈধতা দেওয়ার জন্য ব্যবহৃত হয়, এর অর্থ আপনি প্রশিক্ষিত এবং ভারসাম্যপূর্ণ ডেটা সেট ব্যবহার করে যাচাই করেছেন। পরীক্ষায় আপনি ভারসাম্যহীন ডাটাবেস ব্যবহার করেছেন। এর অর্থ হল আপনার বৈধতা এবং পরীক্ষার সেট সমতুল্য নয়। এই ক্ষেত্রে আপনার উচ্চ বৈধতা নির্ভুলতা এবং কম পরীক্ষার নির্ভুলতা থাকতে পারে। দয়া করে এই রেফারেন্সটি আবিষ্কার করুন যা মূলত ডিএনএন-এর জন্য ডেটা ভারসাম্যহীন সমস্যার কথা বলে, আপনি কীভাবে প্রশিক্ষণ, যাচাইকরণ এবং পরীক্ষার জন্য নমুনা করেন তা পরীক্ষা করতে পারেন https://pdfs.semanticscholar.org/69a6/8f9cf874c69e2232f47808016c2736b90c35.pdf

— বাশার হাদ্দাদ
সূত্র

1

বৈধতা প্রশিক্ষণ সেট হিসাবে একই সেট থেকে টানা হয়। আমি ১০০% নিশ্চিত নই তবে আমি বিশ্বাস করি কেরাস বদলানো এবং প্রশিক্ষণের আগে বৈধতা কাটা নেয় (যেমন আপনি যদি এটি আনসফ্ল্যাড ডেটা খাওয়ান তবে বৈধকরণের বিভাজনটি আপনার বিতরণের অংশকে ছাড়িয়ে যায়)। তাই আমি কেরাসে যাওয়ার আগে ম্যানুয়ালি ভারসাম্য বজায় রেখেছি এবং বদলেছি। কেবল সমস্যাটিই হ'ল আমি 1 এর সদৃশ এবং গাউশিয়ান শব্দের যোগ করছি, যা অতিরিক্ত পোশাককে বাড়িয়ে তুলতে পারে।

— DeusXMachina

2

আমি মনে করি আপনার বৈধতা দেওয়ার জন্য কেরাসের উপর নির্ভর করার দরকার নেই, আপনি আপনার ডেটাটিকে তিন ভাগে ভাগ করতে পারেন। প্রশিক্ষণ, বৈধতা এবং পরীক্ষা। প্রশিক্ষণ ডেটা থেকে নমুনা এবং আপনার নেটওয়ার্ক প্রশিক্ষণ। বৈধতা এবং পরীক্ষার সেটগুলিতে বিতরণ দিয়ে খেলবেন না। বৈধতা সেটটিতে আপনার নেটওয়ার্কটি অনুকূলিত করুন এবং তারপরে পরীক্ষার সেটটি পরীক্ষা করুন। আমি একটি দরকারী রেফারেন্স যুক্ত করতে আমার উত্তর সম্পাদনা করেছি

— বাশার হাদাদ

5

যদি আপনার প্রশিক্ষণ ক্ষতি আপনার বৈধতা ক্ষতির অধীনে চলে যায় , তবে বৈধতা এখনও বাদ পড়লেও আপনি অত্যধিক মানানসই ।

আপনার নেটওয়ার্কটি ট্রেনের সেটে এমন নিদর্শনগুলি শিখছে যেগুলি যাচাইকরণের ক্ষেত্রে প্রযোজ্য নয় sign

— সাহসী
সূত্র

আমি বুঝতে পারি যে প্রশিক্ষণের ক্ষতি যাচাইকরণের ক্ষতির চেয়ে কম হচ্ছে - এটি কেবল প্রশিক্ষণ সংস্থার চেয়ে বেশি উপযুক্ত। তবে বৈধতার যথার্থতা প্রশিক্ষণের নির্ভুলতার চেয়ে বেশি । সেটাই আজব অংশ!

— DeusXMachina

যদি আপনার সেটগুলি ভারসাম্যহীন হয় তবে নয়। উদাহরণস্বরূপ, একটি বাইনারি শ্রেণিবদ্ধে, যদি আপনার বৈধতা সেটটিতে অনুপাতের তুলনায় 1 কম থাকে এবং আপনার মডেলটি কেবল 0 এর

— বোল্ড