আমি কল্পনা করতে পারি যে একটি চলকটির উপর বৃহত্তর গুণফল, মডেলটির সেই মাত্রায় "সুইং" করার ক্ষমতা আরও বেশি, শব্দের সাথে মানিয়ে যাওয়ার আরও একটি সুযোগ সরবরাহ করে। যদিও আমি মনে করি যে মডেল এবং বড় সহগের মধ্যে পার্থক্য সম্পর্কে আমি যুক্তিসঙ্গত ধারণা পেয়েছি, তবে কেন তারা ওভারফিট মডেলগুলিতে ঘটে তা সম্পর্কে আমার তেমন ভাল ধারণা নেই । এটি কি ভুল বলা যায় যে তারা ওভারফিটিংয়ের লক্ষণ এবং কোয়ালিটি সংকোচনের বিষয়টি মডেলটির বৈকল্পিকতা হ্রাস করার জন্য আরও কৌশল? গুণাগুলি সঙ্কুচিত হওয়ার মাধ্যমে নিয়মিতকরণটি এই নীতিটিতে কাজ করে বলে মনে হচ্ছে যে বৃহত্তর গুণাগুণগুলি একটি অত্যুজ্জিত মডেলের ফলাফল, তবে সম্ভবত আমি কৌশলটির পিছনে অনুপ্রেরণার ভুল ব্যাখ্যা করছি।
আমার অন্তর্নিহিততা যে বৃহত সহগগুলি সাধারণত অত্যধিক মানসিকতার লক্ষণ হয় তা নিম্নলিখিত উদাহরণ থেকে আসে:
ধরা যাক আমরা পয়েন্টগুলি ফিট করতে চেয়েছিলাম যা সমস্ত এক্স-অক্ষে বসে। আমরা সহজেই এমন একটি বহুপদী তৈরি করতে পারি যার সমাধানগুলি এই বিষয়গুলি: । ধরা যাক আমাদের পয়েন্টগুলি । এই কৌশলটি সমস্ত সহগ>> = 10 দেয় (একটি সহগ ব্যতীত)। যেহেতু আমরা আরও পয়েন্ট যুক্ত করব (এবং এর ফলে বহুভুজের ডিগ্রি বৃদ্ধি পাবে) এই সহগের পরিমাণগুলি দ্রুত বাড়বে।f ( x ) = ( x - x 1 ) ( x - x 2 ) । । । । ( x - x n - 1 ) ( x - x n ) x = 1 , 2 , 3 , 4
এই উদাহরণটি হ'ল আমি বর্তমানে উত্পন্ন মডেলগুলির "জটিলতার" সাথে মডেল সহগের আকারকে কীভাবে সংযুক্ত করছি, তবে আমি উদ্বিগ্ন যে এই ঘটনাটি বাস্তব-বিশ্বের আচরণের পরিচায়ক হওয়ার জন্য জীবাণুমুক্ত হবে। আমি ইচ্ছাকৃতভাবে একটি ওভারফিটেড মডেল তৈরি করেছি (চতুর্ভুজ স্যাম্পলিং মডেল থেকে উত্পন্ন ডেটাতে দশম ডিগ্রির বহুবর্ষীয় ওএলএস ফিট) এবং আমার মডেলটিতে বেশিরভাগ ছোট সহগগুলি দেখে অবাক হয়েছি:
set.seed(123)
xv = seq(-5,15,length.out=1e4)
x=sample(xv,20)
gen=function(v){v^2 + 7*rnorm(length(v))}
y=gen(x)
df = data.frame(x,y)
model = lm(y~poly(x,10,raw=T), data=df)
summary(abs(model$coefficients))
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 0.000001 0.003666 0.172400 1.469000 1.776000 5.957000
data.frame(sort(abs(model$coefficients)))
# model.coefficients
# poly(x, 10, raw = T)10 7.118668e-07
# poly(x, 10, raw = T)9 3.816941e-05
# poly(x, 10, raw = T)8 7.675023e-04
# poly(x, 10, raw = T)7 6.565424e-03
# poly(x, 10, raw = T)6 1.070573e-02
# poly(x, 10, raw = T)5 1.723969e-01
# poly(x, 10, raw = T)3 6.341401e-01
# poly(x, 10, raw = T)4 8.007111e-01
# poly(x, 10, raw = T)1 2.751109e+00
# poly(x, 10, raw = T)2 5.830923e+00
# (Intercept) 5.956870e+00
সম্ভবত এই উদাহরণটি থেকে দূরে যাওয়াটি হ'ল সহগের দুই তৃতীয়াংশ 1 এর চেয়ে কম, এবং অন্যান্য সহগের তুলনায় , তিনটি সহগ রয়েছে যা অস্বাভাবিকভাবে বড় (এবং এই সহগগুলির সাথে যুক্ত ভেরিয়েবলগুলিও সবচেয়ে ঘনিষ্ঠভাবে ঘটে থাকে সত্য নমুনা মডেল সম্পর্কিত)।
(এল 2) নিয়মিতকরণ কি কেবলমাত্র কোনও মডেলটির বৈকল্পিকতা হ্রাস করার জন্য এবং এর মাধ্যমে ভবিষ্যতের ডেটা আরও ভালভাবে ফিট করার জন্য বক্ররেখাকে "মসৃণ" করতে পারে, বা অতিরিক্ত মাপের মডেলগুলি বড় সহগগুলি প্রদর্শন করার ঝোঁকটি পর্যবেক্ষণ থেকে প্রাপ্ত একটি হিউরিস্টিকের সুবিধা গ্রহণ করছে? এটি কি একটি সঠিক বিবৃতি যা ওভারফিটেড মডেলগুলি বড় সহগগুলি প্রদর্শন করে? যদি তা হয় তবে কেউ কি ঘটনার পেছনের প্রক্রিয়াটি একটু ব্যাখ্যা করতে পারেন এবং / অথবা আমাকে কিছু সাহিত্যের দিকে পরিচালিত করতে পারেন?