ক্রস-বৈধতার পরে পূর্ণ ডেটাসেট দিয়ে প্রশিক্ষণ দেওয়া কি সর্বদা ভাল ধারণা ? এটি অন্য উপায়ে রাখুন, আমার ডেটাসেটের সমস্ত নমুনা দিয়ে প্রশিক্ষণ দেওয়া এবং এই নির্দিষ্ট ফিটিংয়ের ওভারফিটগুলি কিনা তা পরীক্ষা করতে সক্ষম হচ্ছেন না ?
সমস্যার কিছু পটভূমি:
বলুন আমার কাছে একটি পরিবার রয়েছে দ্বারা প্যারামিটারাইজড মডেল । এও বলুন যে আমার কাছে ডাটা পয়েন্টের একটি সেট রয়েছে এবং আমি ডেটা সর্বাধিক সাধারণীকরণ করে এমন মডেলটি বেছে নিতে কে-ফোল্ড ক্রস-বৈধকরণের সাথে মডেল নির্বাচন করি।
মডেল নির্বাচনের জন্য, আমি search দ্বারা একটি অনুসন্ধান (যেমন একটি গ্রিড অনুসন্ধান) করতে পারি , উদাহরণস্বরূপ, প্রতিটি প্রার্থীর জন্য কে-ফোল্ড ক্রস-বৈধতা চালানো। ক্রস-বৈধকরণের প্রতিটি ভাঁজগুলিতে আমি শিখেছি মডেল দিয়ে শেষ করি ।
ক্রস-বৈধকরণের বিষয়টি হ'ল এই প্রতিটি ফোল্ডের জন্য আমি "অদৃশ্য ডেটা" এ পরীক্ষার মাধ্যমে শিখেছি মডেলটির ওভারফিট ছিল কিনা তা পরীক্ষা করতে পারি। ফলাফলের উপর নির্ভর করে, আমি গ্রিড অনুসন্ধানে ক্রস বৈধকরণের সময় সেরা হওয়া পরামিতিগুলির the পরামিতিগুলির জন্য the মডেলটি বেছে নিতে পারি ।
এখন, বলে যে মডেল নির্বাচন পরে , আমি ব্যবহার করতে চান সেটি সব আমার ডেটাসেটে পয়েন্ট এবং আশা একটি উন্নততর মডেল শিখতে। আমি এই জন্যই পরামিতি ব্যবহার করতে পারে মডেল যে আমি মডেল নির্বাচন করার সময়, এবং তারপর পূর্ণ ডেটা সেটটি উপর প্রশিক্ষণ পর, আমি একটি একটি পেতে হবে সংশ্লিষ্ট নতুন শিখেছি মডেল । সমস্যাটি হ'ল, যদি আমি প্রশিক্ষণের জন্য আমার ডেটাসেটের সমস্ত পয়েন্ট ব্যবহার করি, তবে আমি এই নতুন শেখা মডেলটি কোনও অপ্রদর্শিত ডেটাতে পরীক্ষা করতে পারছি না । এই সমস্যাটি সম্পর্কে চিন্তা করার সঠিক উপায় কী?