সমস্ত পরিসংখ্যানগত পদ্ধতি প্রশিক্ষণ / পরীক্ষার ডেটাতে বিভক্ত হয় না, একে "ক্রস-বৈধকরণ" (যদিও পুরো পদ্ধতিটির চেয়ে কিছুটা বেশি জড়িত)।
বরং এটি এমন একটি কৌশল যা বিশেষত নমুনা ছাড়াই ত্রুটিটি অনুমান করতে ব্যবহৃত হয় ; অর্থাত্ আপনার মডেল একটি নতুন ডেটাসেট ব্যবহার করে নতুন ফলাফলের পূর্বাভাসটি কতটা ভাল করবে? উদাহরণস্বরূপ, আপনার ডেটাসেটে স্যাম্পেলগুলির সংখ্যার তুলনায় প্রেডিক্টরগুলির একটি খুব বড় সংখ্যক যখন এটি থাকে তখন এটি একটি অত্যন্ত গুরুত্বপূর্ণ সমস্যা হয়ে দাঁড়ায়। এই ধরনের ক্ষেত্রে, দুর্দান্ত ইন-স্যাম্পল ত্রুটিযুক্ত একটি মডেল তৈরি করা সত্যিই সহজ তবে নমুনা ত্রুটির বাইরে ভয়াবহ ("ওভার ফিটিং" নামে পরিচিত)। আপনার কাছে বিপুল সংখ্যক ভবিষ্যদ্বাণী এবং বিপুল সংখ্যক নমুনা উভয় ক্ষেত্রেই রয়েছে, নতুন ডেটা নিয়ে ভবিষ্যদ্বাণী করার সময় মডেলটি কতটা ভাল আচরণ করবে তা নির্ধারণে সহায়তা করার জন্য ক্রস-বৈধকরণ একটি প্রয়োজনীয় সরঞ্জাম। প্রতিযোগী ভবিষ্যদ্বাণীপূর্ণ মডেলগুলির মধ্যে নির্বাচন করার সময় এটি একটি গুরুত্বপূর্ণ সরঞ্জামও।
অন্য নোটে, ভবিষ্যদ্বাণীমূলক মডেল তৈরি করার চেষ্টা করার সময় ক্রস-বৈধতা প্রায় সর্বদা ব্যবহৃত হয় । সাধারণভাবে, আপনি যখন কিছু চিকিত্সার প্রভাব অনুমান করার চেষ্টা করছেন তখন মডেলগুলির পক্ষে এটি খুব কার্যকর নয়। উদাহরণস্বরূপ, যদি আপনি উপকরণ এ এবং বি ("চিকিত্সা" উপাদান ধরণের হচ্ছে) মধ্যে প্রসার্য শক্তি বিতরণ তুলনা করছেন, ক্রস বৈধতা প্রয়োজন হবে না; যদিও আমরা আশা করি যে চিকিত্সার প্রভাবের আমাদের অনুমানটি নমুনা ছাড়াই সাধারণীকরণ করে, বেশিরভাগ সমস্যার জন্য ক্লাসিক পরিসংখ্যানগত তত্ত্ব উত্তরটি দিতে পারে (যেমন অনুমানের "স্ট্যান্ডার্ড ত্রুটি") ক্রস-বৈধকরণের চেয়ে আরও সঠিকভাবে। দুর্ভাগ্যক্রমে, শাস্ত্রীয় পরিসংখ্যান পদ্ধতি 1স্ট্যান্ডার্ড ত্রুটিগুলি অত্যধিক ফিটনের ক্ষেত্রে ধরে রাখে না। সেক্ষেত্রে ক্রস-বৈধতা প্রায়শই আরও ভাল করে।
অন্যদিকে, আপনি যদি 10,000,000 পরিমাপের ভেরিয়েবলের উপর ভিত্তি করে কোনও উপাদান কখন ভেঙে পড়বে তা 100,000 পর্যবেক্ষণের ভিত্তিতে কিছু মেশিন লার্নিং মডেলটিতে ফেলে দিচ্ছেন এমন ভবিষ্যদ্বাণী করার চেষ্টা করছেন, আপনার ক্রস বৈধতা ছাড়াই দুর্দান্ত মডেল তৈরি করতে অনেক সমস্যা হবে!
আমি প্রচুর পদার্থবিজ্ঞানের পরীক্ষাগুলিতে অনুমান করছি, আপনি সাধারণত প্রভাবগুলির অনুমানের বিষয়ে আগ্রহী। এই ক্ষেত্রে, ক্রস-বৈধকরণের খুব কম প্রয়োজন।
1 যে কেউ তর্ক করতে পারে যে তথ্যবহুল প্রিয়ারদের সাথে বয়েসীয় পদ্ধতিগুলি একটি শাস্ত্রীয় পরিসংখ্যান পদ্ধতি যা অত্যধিক মানকে সম্বোধন করে। তবে সেটা অন্য আলোচনা।
পার্শ্ব দ্রষ্টব্য: ক্রস-বৈধকরণটি প্রথম পরিসংখ্যানের সাহিত্যে প্রকাশিত হয়েছিল, এবং স্পষ্টতই যারা নিজেকে পরিসংখ্যানবিদ বলেছেন তাদের দ্বারা ব্যবহৃত হয়, এটি মেশিন লার্নিং সম্প্রদায়ের একটি প্রয়োজনীয় প্রয়োজনীয় সরঞ্জাম হয়ে উঠেছে become প্রচুর পরিসংখ্যান মডেল ক্রস-বৈধতা ব্যবহার না করে ভাল কাজ করবে, তবে প্রায় সমস্ত মডেল যেগুলি "মেশিন লার্নিং প্রেডিকটিভ মডেল" হিসাবে বিবেচিত হয় তাদের ক্রস-বৈধকরণ প্রয়োজন , কারণ তাদের প্রায়শই সুর করার প্যারামিটারগুলির নির্বাচন প্রয়োজন হয়, যা ক্রস ছাড়াই করা প্রায় অসম্ভব। -validation।