প্রথমে আমি যেমন বুঝি তেমন প্রশ্নে ব্যবহৃত শর্তাদি পরিষ্কার করুন let আমরা সাধারণত একটি প্রশিক্ষণ ডেটাসেট দিয়ে শুরু করি, বিভিন্ন মডেল (বা হাইপারপ্যারামিটারের সেট) পরীক্ষা করতে কে-ফোল্ড ক্রস বৈধতা ব্যবহার করি এবং সর্বনিম্ন সিভি ত্রুটির সাথে সেরা মডেলটি নির্বাচন করি। সুতরাং 'পরীক্ষার ত্রুটির ক্রস-বৈধকরণের প্রাক্কলন' এর অর্থ পরীক্ষার ত্রুটি হিসাবে সর্বনিম্ন সিভি ত্রুটি ব্যবহার করা, কেবল একটি এলোমেলো মডেলের সিভি ত্রুটি নয় (যা কেবেলাইট দ্বারা আলোচিত কেস, তবে এটি আমরা সাধারণত করি না do)। অসীম পরীক্ষার ডেটাসেটে সেরা সিভি মডেল প্রয়োগ করার সময় আমরা ধরে নিতে পারি যে ধরে নেওয়া যায়, প্রশ্নটিতে থাকা 'প্রকৃত পরীক্ষার ত্রুটি' ত্রুটি। সিভি ত্রুটিটি আমাদের যে নির্দিষ্ট ডেটাসেটের উপর নির্ভর করে এবং প্রকৃত পরীক্ষার ত্রুটিটি নির্বাচিত সেরা সিভি মডেলের উপর নির্ভরশীল, যা প্রশিক্ষণ ডেটাসেটের উপরও নির্ভর করে। সুতরাং সিভি ত্রুটি এবং পরীক্ষার ত্রুটির মধ্যে পার্থক্যটি বিভিন্ন প্রশিক্ষণের ডেটাসেটের উপর নির্ভর করে। তাহলে প্রশ্নটি হয়ে ওঠে, আমরা যদি উপরের প্রক্রিয়াটিকে বিভিন্ন প্রশিক্ষণ ডেটাসেটের সাহায্যে বহুবার পুনরাবৃত্তি করি এবং যথাক্রমে দুটি ত্রুটি গড় করি তবে গড় সিভি ত্রুটি গড় পরীক্ষার ত্রুটির চেয়ে কম কেন, অর্থাৎ সিভি ত্রুটি নিম্নমুখী হয়? কিন্তু তার আগে, এটি কি সবসময় ঘটে?
সাধারণত অসীম সারি সহ অনেক প্রশিক্ষণ ডেটাসেট এবং টেস্ট ডেটাসেট পাওয়া অসম্ভব। তবে সিমুলেশন দ্বারা উত্পন্ন ডেটা ব্যবহার করে এটি করা সম্ভব। ট্রেভর হাস্টির লেখা "স্ট্যাটাসটিকাল লার্নিংয়ের" বইয়ের "অধ্যায় 7 মডেল অ্যাসেসমেন্ট অ্যান্ড সিলেকশন" এ, ইত্যাদি। , এটি যেমন সিমুলেশন পরীক্ষা অন্তর্ভুক্ত।
উপসংহারটি হ'ল, সিভি বা বুটস্ট্র্যাপ ব্যবহার করে, "... নির্দিষ্ট প্রশিক্ষণ সংস্থার জন্য পরীক্ষার ত্রুটির অনুমান করা সাধারণভাবে সহজ নয়, একই প্রশিক্ষণের সেট থেকে প্রাপ্ত ডেটা দেওয়া"। 'সহজ নয়' দ্বারা তারা বোঝায় যে সিভি ত্রুটিটি বিভিন্ন প্রশিক্ষণের ডেটা সেটগুলির উপর নির্ভর করে প্রকৃত পরীক্ষার ত্রুটিটিকে হ্রাস করা বা অত্যধিক মূল্যায়ন করতে পারে, অর্থাত্ বিভিন্ন প্রশিক্ষণ ডেটাসেটগুলির ফলে সৃষ্ট ভিন্নতাটি বেশ বড়। পক্ষপাত কীভাবে? তারা যে কেএনএন এবং লিনিয়ার মডেলগুলি পরীক্ষা করেছিল তা প্রায় পক্ষপাতদুষ্ট নয়: সিভি ত্রুটি সত্য পরীক্ষার ত্রুটি 0-4% দ্বারা ওভারস্টেট করে, তবে কিছু মডেল "গাছ, ক্রস-বৈধতা এবং বুট-স্ট্র্যাপের মতো 10% দ্বারা সত্য ত্রুটিটিকে হ্রাস করতে পারে, কারণ "সেরা গাছের অনুসন্ধান অনুসন্ধানের মাধ্যমে বৈধতা সেটটি দৃ strongly়ভাবে প্রভাবিত হয়"।
সংক্ষেপে, একটি নির্দিষ্ট প্রশিক্ষণ ডেটাসেটের জন্য, সিভি ত্রুটিটি সত্য পরীক্ষার ত্রুটির চেয়ে বেশি বা কম হতে পারে। পক্ষপাতিত্বের জন্য, অর্থাত সিভি ত্রুটি মডেলিং পদ্ধতির উপর নির্ভর করে সত্যিকারের পরীক্ষার ত্রুটির চেয়ে কিছুটা বেশি থেকে অনেক কম পর্যন্ত হতে পারে।
অবমূল্যায়নের কারণ, যেমন উপরে উল্লিখিত, হ'ল সেরা মডেলের জন্য হাইপারপ্যারামিটারগুলির নির্বাচনটি শেষ পর্যন্ত আমাদের পাওয়া বিশেষ প্রশিক্ষণের ডেটাসেটের উপর নির্ভর করে। কিছুটা বিশদ বিবরণ, এই বিশেষ প্রশিক্ষণের ডেটাসেটে সেরা হাইপারপ্যারামিটারগুলি এম 1 হতে দিন। তবে, এম 1 অন্যান্য প্রশিক্ষণ ডেটাসেটের সেরা হাইপারপ্যারামিটার হতে পারে না, যার অর্থ ন্যূনতম সিভি ত্রুটি এম 1 থেকে সিভি ত্রুটির চেয়ে কম। সুতরাং প্রশিক্ষণ প্রক্রিয়া থেকে আমরা প্রত্যাশিত সিভি ত্রুটিগুলি এম 1 এর প্রত্যাশিত সিভি ত্রুটির চেয়ে খুব সম্ভবত কম। কোনও নির্দিষ্ট প্রশিক্ষণ ডেটাসেট থেকে ন্যূনতম সিভি ত্রুটি পক্ষপাতদুষ্ট নয় কেবল তখনই যখন সেরা মডেলটি সর্বদা প্রশিক্ষণ ডেটাসেটগুলির থেকে সেরা স্বতন্ত্র। অন্যদিকে, সিবিএলাইটস দ্বারা আলোচিত হিসাবে সিভি ত্রুটিও সত্যিকারের পরীক্ষার ত্রুটিটিকে কিছুটা ছাড়িয়ে যেতে পারে। এর কারণ কে ফোল্ড সিভি ত্রুটিটি মডেলটিকে প্রশিক্ষণের জন্য কিছুটা কম প্রশিক্ষণের ডেটা ব্যবহার করে প্রাপ্ত করা হয় (10 ভাণ্ডার সিভির জন্য, 90% ডেটা ব্যবহার করুন), এটি সত্য ত্রুটির বিরুদ্ধে পক্ষপাতিত্বমূলক, তবে বেশি নয়। সুতরাং দুটি পক্ষপাতদুষ্ট বিভিন্ন দিকে যাচ্ছে। মডেলিং পদ্ধতির জন্য বেশি সাফল্য পাওয়া যায়, কম ভাঁজ সিভি ব্যবহার করে, উদাহরণস্বরূপ, 5-গুণ বনাম 10-ভাঁজ, কম পক্ষপাত হতে পারে।
সব কিছু বলা হচ্ছে, এটি অনুশীলনে খুব বেশি সহায়তা করে না: আমরা সাধারণত কেবল একটি 'নির্দিষ্ট' ডেটাसेट পাই। যদি আমরা পরীক্ষার ডেটা হিসাবে 15% থেকে 30% ধরে রাখি এবং বাকি অংশে সিভি দ্বারা প্রশিক্ষণ ডেটা হিসাবে সেরা মডেলটি বেছে নিই, সম্ভাব্য পরীক্ষার ত্রুটি থেকে উভয়ই পৃথক হওয়ায় সিভি ত্রুটি পরীক্ষার ত্রুটি থেকে আলাদা হবে। পরীক্ষার ত্রুটির তুলনায় সিভি ত্রুটিটি যদি খুব কম থাকে তবে আমরা সন্দেহজনক হতে পারি তবে কোনটি সত্য পরীক্ষার ত্রুটির নিকটে রয়েছে তা আমরা জানব না। সর্বোত্তম অনুশীলন কেবল উভয় মেট্রিক উপস্থাপন করা হতে পারে।