আমি কিছুটা দ্বিমত পোষণ করছি যে এটি স্পষ্টভাবে বিবেচনা করে না। ধরা যাক একটি মিলিয়ন প্রশিক্ষণের উদাহরণ রয়েছে এবং আমরা দশ মিলিয়ন নমুনা নিই।
আর-তে, আমরা দ্রুত দেখতে পাচ্ছি যে বিতরণটি কেমন দেখাচ্ছে
plot(dbinom(0:40, size = 10 * 1E6, prob = 1E-6), type = "h")
কিছু উদাহরণ 20+ বার পরিদর্শন করা হবে, এবং এর মধ্যে 1% 3 বা তারও কম বার দেখা হবে। যদি প্রশিক্ষণের সেটটি সত্যিকারের ডেটাতে উদাহরণগুলির প্রত্যাশিত বিতরণের উপস্থাপনের জন্য সতর্কতার সাথে বেছে নেওয়া হয়েছিল, তবে ডেটা সেটের কিছু ক্ষেত্রে এটির সত্যিকারের প্রভাব পড়তে পারে --- বিশেষত একবার আপনি যখন ছোট গ্রুপগুলিতে ডেটা টুকরো টুকরো করা শুরু করেন।
সাম্প্রতিক ক্ষেত্রে বিবেচনা করুন যেখানে একজন ইলিনয় ভোটার কার্যকরভাবে 30x ওভার স্যাম্পলিং করতে পেরেছিলেন এবং নাটকীয়ভাবে তার জনসংখ্যার গোষ্ঠীর জন্য মডেলটির অনুমানগুলি স্থানান্তরিত করেছিলেন (এবং পুরো মার্কিন জনসংখ্যার জন্য কিছুটা হলেও)। যদি আমরা দুর্ঘটনাক্রমে মেঘলা দিনে দিনে সবুজ ব্যাকগ্রাউন্ডের বিরুদ্ধে নেওয়া "রাফড গোষ্ঠী" চিত্রগুলি ওভার স্যাম্পল করি এবং অন্যান্য ধরণের গ্রোয়েস চিত্রগুলিকে নিম্নরূপ করি, মডেলটি সেই অপ্রাসঙ্গিক বৈশিষ্ট্যগুলিকে বিভাগের লেবেলের সাথে যুক্ত করতে পারে। ডেটা স্লাইভ করার আরও বেশি উপায় রয়েছে, এই সাব-গ্রুপগুলি তত বেশি হবে এবং এই ধরণের ভুল হওয়ার আরও সুযোগ থাকবে।