যথাযথ যত্ন ব্যতীত যদি লিনিয়ার রিগ্রেশন / ক্লাসিফায়ার হ'ল একেবারে ওভারফিট হতে পারে।
এখানে একটি ছোট উদাহরণ। আসুন দুটি ভেক্টর তৈরি করুন, প্রথমটি হ'ল এলোমেলো মুদ্রা উল্টে:5000
set.seed(154)
N <- 5000
y <- rbinom(N, 1, .5)
দ্বিতীয় ভেক্টরটি পর্যবেক্ষণ, প্রতিটি এলোমেলোভাবে 500 এলোমেলো ক্লাসের মধ্যে একটিতে নির্ধারিত :5000500
N.classes <- 500
rand.class <- factor(sample(1:N.classes, N, replace=TRUE))
আমাদের ফ্লিপ y
এবং আমাদের এলোমেলো শ্রেণীর মধ্যে কোনও সম্পর্ক থাকতে হবে না rand.class
, তারা সম্পূর্ণ স্বাধীনভাবে নির্ধারিত হয়েছিল।
তবুও, যদি আমরা লজিস্টিক রিগ্রেশন (একটি লিনিয়ার শ্রেণিবদ্ধ) ব্যবহার করে এলোমেলো শ্রেণীর সাথে র্যান্ডম ফ্লিপটি পূর্বাভাস দেওয়ার চেষ্টা করি তবে এটি নিশ্চিতভাবে মনে করে যে একটি সম্পর্ক আছে
M <- glm(y ~ rand.class, family="binomial")
hist(coef(M), breaks=50)
এই সহগের প্রত্যেকটির প্রকৃত মান শূন্য। তবে আপনি দেখতে পাচ্ছেন, আমাদের বেশ বিস্তার রয়েছে। এই লিনিয়ার শ্রেণিবদ্ধকারী নিশ্চিত ওভারফিটের জন্য।
- 1515y == 1
y == 0
15
"overfitting" আনুষ্ঠানিকভাবে সংজ্ঞায়িত করা বলে মনে হয় না। কেন এমন?
Overfitting সেরা একটি প্রসঙ্গের মধ্যে বোঝা যেতে পারে বর্গ মডেলের কিছু জটিলতা প্যারামিটার রয়েছে। এই ক্ষেত্রে, জটিলতা কিছুটা কমলে নমুনার কর্মক্ষমতা থেকে ভাল প্রত্যাশার ফলস্বরূপ কোনও মডেলকে ওভারফিট বলা যেতে পারে।
একটি মডেল স্বাধীন উপায়ে ধারণাটির সঠিকভাবে সংজ্ঞা দেওয়া খুব কঠিন হবে। একটি একক মডেল কেবল ফিট, আপনার এটি ফিট করার জন্য বা এর চেয়ে কম তুলনা করার জন্য কিছু দরকার। আমার উদাহরণে এই তুলনাটি সত্যের সাথে ছিল, তবে আপনি সাধারণত সত্যটি জানেন না, তাই মডেল!
প্রশিক্ষণ এবং পরীক্ষার সেট পারফরম্যান্সের মধ্যে কিছু দূরত্ব পরিমাপ কি এ জাতীয় আনুষ্ঠানিককরণের অনুমতি দেয় না?
এমন ধারণা আছে, একে বলে আশাবাদ। এটি দ্বারা সংজ্ঞায়িত:
ω = ইপরীক্ষা- ইরেলগাড়ি
ই
যদিও এটি অত্যধিক ফিটনেসের সংমিশ্রণে আসে না, কারণ একটি পরীক্ষার সেটটিতে পারফরম্যান্স ট্রেনের চেয়ে কিছুটা খারাপ হতে পারে, যদিও উচ্চতর জটিলতার একটি মডেল উভয় হ্রাস পায় ।