প্রাক-প্রসেসিং বা ইমপুট করার আগে আপনার বিভক্ত হওয়া উচিত।
প্রশিক্ষণ এবং পরীক্ষার সেটগুলির মধ্যে বিভাজনটি যেখানে আপনার অতীতের তথ্য রয়েছে এবং সেই মডেলটি তৈরি করছেন যা ভবিষ্যতে আপনি এখনও অজানা তথ্যের উপর পরীক্ষা করবেন সেই প্রতিস্থাপনের চেষ্টা: প্রশিক্ষণ সেটটি অতীতের স্থান নেয় এবং পরীক্ষার সেটটি গ্রহণ করে ভবিষ্যতের স্থান, সুতরাং আপনি কেবল একবার আপনার প্রশিক্ষিত মডেলটি পরীক্ষা করতে পারবেন।
অতীত / ভবিষ্যতের উপমা মাথায় রেখে, এর অর্থ আপনার প্রাক ডেটা প্রাক-প্রক্রিয়া করতে বা প্রক্রিয়া করার জন্য যা করা হয়, যেমন অনুপস্থিত মানগুলি বোঝানো, আপনার একা প্রশিক্ষণ সেট করা উচিত। তারপরে আপনি যদি আপনার পরীক্ষার সেটটির প্রাক প্রসেসিং বা ইমপুটিংয়ের প্রয়োজন হয় তবে আপনি আপনার প্রশিক্ষণ সেটে কী করেছিলেন তা মনে রাখতে পারেন, যাতে আপনি উভয় সেটে একই পদ্ধতিতে এটি করেন।
মন্তব্যগুলি থেকে যুক্ত করা: আপনি যদি প্রশিক্ষণের ডেটা প্রভাবিত করতে পরীক্ষার ডেটা ব্যবহার করেন তবে পরীক্ষার ডেটাটি আপনার মডেলটি তৈরি করতে ব্যবহৃত হচ্ছে, তাই এটি পরীক্ষার ডেটা হয়ে যায় এবং আপনার মডেলের সুষ্ঠু পরীক্ষা সরবরাহ করে না। আপনি অতিমাত্রায় ঝুঁকিপূর্ণ, এবং এটি হতাশ করার জন্য আপনি পরীক্ষার ডেটা প্রথম স্থানে আলাদা করেছিলেন