বেশিরভাগ পরিস্থিতিতে সাধারণত আরও ডেটা আরও ভাল । ওভারফিটিং মূলত আপনার প্রশিক্ষণের ডেটাতে ঘটে এমন তাত্পর্যপূর্ণ সম্পর্কগুলি শিখছে, তবে আসল বিশ্বে নয়। উদাহরণস্বরূপ, আপনি যদি কেবলমাত্র আমার সহকর্মী হিসাবে বিবেচনা করেন, আপনি "দাড়ি রেখেছেন" "ম্যাট" নামে "যুক্ত" করতে শিখতে পারেন। এটি 100% বৈধ (n = 4
এটি বলেছিল, এমন একটি পরিস্থিতি যেখানে আরও ডেটা সাহায্য করে না --- এবং এমনকি আঘাত করতে পারে --- তা হল যদি আপনার অতিরিক্ত প্রশিক্ষণের ডেটা গোলমাল হয় বা আপনি ভবিষ্যদ্বাণী করতে যা চেষ্টা করছেন তার সাথে মেলে না। আমি একবার এমন একটি পরীক্ষা করেছি যেখানে আমি বিভিন্ন ভাষার মডেলগুলি [*] একটি ভয়েস-সক্রিয় রেস্তোরাঁ রিজার্ভেশন সিস্টেমে প্লাগ করেছিলাম। আমি প্রশিক্ষণের ডেটার পরিমাণের পাশাপাশি এর প্রাসঙ্গিকতাও বৈচিত্র্যময় করেছি: এক পর্যায়ে আমার কাছে টেবিল বুকিংয়ের লোকদের একটি ছোট, সাবধানে সংশ্লেষিত সংগ্রহ ছিল, আমার আবেদনের জন্য একটি নিখুঁত মিল match অন্যদিকে, আমার কাছে ক্লাসিক সাহিত্যের বিশাল সংগ্রহ থেকে অনুমান করা একটি মডেল ছিল , আরও নির্ভুল ভাষার একটি মডেল, তবে অ্যাপ্লিকেশনটির সাথে আরও খারাপ ম্যাচ। আমি অবাক করে দিয়েছি, ছোট-তবে-প্রাসঙ্গিক মডেলটি বড়-তবে-কম-প্রাসঙ্গিক মডেলটিকে ব্যাপকভাবে ছাপিয়েছে।
অবাক করা পরিস্থিতি, বলা হয়
ডাবল-ডেসেন্ট , যখন প্রশিক্ষণ সংস্থার আকার মডেল পরামিতিগুলির সংখ্যার কাছাকাছি হয় also এই ক্ষেত্রে, প্রশিক্ষণের সেটটির আকার বাড়ার সাথে সাথে পরীক্ষার ঝুঁকিটি হ্রাস পায়, যখন আরও কিছু প্রশিক্ষণের ডেটা যুক্ত করা হয় তখন অস্থায়ীভাবে
বৃদ্ধি পায় এবং প্রশিক্ষণ সেটটি বাড়তে থাকায় অবশেষে আবার হ্রাস শুরু হয়। এই ঘটনাটি নিউরাল নেটওয়ার্ক সাহিত্যে 25 বছর আগে প্রকাশিত হয়েছিল (দেখুন ওপার, 1995 দেখুন) তবে আধুনিক নেটওয়ার্কগুলিতেও এটি ঘটে (
অ্যাডওয়ানি এবং স্যাক্সে, 2017 )। মজার ব্যাপার হচ্ছে, এসজিডি দ্বারা উপযুক্ত এক হলেও এটি লিনিয়ার রিগ্রেশনের জন্য ঘটে (
নাকিরণ, 2019))। এই ঘটনাটি এখনও পুরোপুরি বোঝা যায় নি এবং মূলত তাত্ত্বিক আগ্রহের বিষয়: আমি অবশ্যই এটি আরও বেশি তথ্য সংগ্রহ না করার কারণ হিসাবে ব্যবহার করব না (যদিও আমি ট্রেনিং সেট আকারের সাথে ঝাঁকুনি দিতে পারি যদি এন == পি এবং পারফরম্যান্স অপ্রত্যাশিতভাবে খারাপ হয় )।
পি( ডাব্লুএন= 'দ্রুত', ডাব্লুn + 1= 'বাদামী', ডাব্লুn + 2= 'শিয়াল' )