আমি দেখেছি এমন কিছু বক্তৃতা এবং টিউটোরিয়ালে , তারা আপনার ডেটাটিকে তিন ভাগে ভাগ করার পরামর্শ দেয়: প্রশিক্ষণ, বৈধতা এবং পরীক্ষা and তবে পরীক্ষার ডেটাসেট কীভাবে ব্যবহার করা উচিত এবং পুরো ডেটা সেটের উপরে ক্রস-বৈধকরণের চেয়ে এই পদ্ধতিটি কীভাবে ভাল তা পরিষ্কার নয়।
ধরা যাক আমরা একটি পরীক্ষার সেট হিসাবে আমাদের 20% ডেটা সংরক্ষণ করেছি। তারপরে আমরা বাকীটি নিয়ে যাই, কে কে ভাঁজগুলিতে বিভক্ত করি এবং ক্রস-বৈধতা ব্যবহার করে আমরা এমন মডেলটি খুঁজে পাই যা এই ডেটাসেট থেকে অজানা ডেটাতে সেরা ভবিষ্যদ্বাণী করে। আসুন আমরা যে সর্বোত্তম মডেলটি পেয়েছি তা আমাদের 75% নির্ভুলতা দেয় ।
বিভিন্ন প্রশ্নোত্তর ওয়েবসাইটগুলির বিভিন্ন টিউটোরিয়াল এবং প্রচুর প্রশ্ন বলছে যে এখন আমরা একটি সংরক্ষিত (পরীক্ষা) ডেটাসেটে আমাদের মডেলটি যাচাই করতে পারি। তবে এটি ঠিক কীভাবে করা হয়েছে তা আমি এখনও পেতে পারি না বা এটির মূল উদ্দেশ্য কী।
ধরা যাক আমরা পরীক্ষার ডেটাসেটে 70% নির্ভুলতা পেয়েছি । তাহলে আমরা কী করব? আমরা আমাদের পরীক্ষার ডেটাসেটটিতে উচ্চতর স্কোর না পাওয়া পর্যন্ত আমরা কি অন্য একটি মডেল এবং তারপরে আরেকটি চেষ্টা করি? তবে এক্ষেত্রে এটি দেখতে সত্যই মনে হচ্ছে আমরা কেবলমাত্র আমাদের সীমাবদ্ধ (মাত্র 20%) পরীক্ষার সেটগুলিতে এমন মডেলটি সন্ধান করব । এর অর্থ এই নয় যে আমরা সেই মডেলটি সন্ধান করব যা সাধারণভাবে সেরা।
অধিকন্তু, আমরা এই স্কোরটিকে মডেলটির সাধারণ মূল্যায়ন হিসাবে কীভাবে বিবেচনা করতে পারি, যদি এটি কেবলমাত্র একটি সীমিত ডাটা সেটে গণনা করা হয়? যদি এই স্কোরটি কম হয় তবে সম্ভবত আমরা দুর্ভাগ্য এবং "খারাপ" পরীক্ষার ডেটা নির্বাচন করেছি selected
অন্যদিকে, আমরা যদি আমাদের সমস্ত ডেটা ব্যবহার করি এবং তারপরে কে-ফোল্ড ক্রস-বৈধকরণ ব্যবহার করে মডেলটি বেছে নিই, আমরা এমন মডেলটি খুঁজে পাব যা আমাদের কাছে থাকা পুরো ডেটা সেট থেকে অজানা তথ্যের উপর সর্বোত্তম ভবিষ্যদ্বাণী করে ।