যখন কোনও রিগ্রেশন মডেল অতিরিক্ত-ফিট হয় তখন কীভাবে সনাক্ত করব?

আপনি যখন কাজটি করছেন, আপনি কী করছেন সে সম্পর্কে সচেতন হয়ে আপনি যখন মডেলটির ওভার-ফিট রাখবেন তখন আপনার বোধ তৈরি হবে। একটি জিনিসের জন্য, আপনি মডেলের অ্যাডজাস্টেড আর স্কোয়ারের প্রবণতা বা অবনতি ট্র্যাক করতে পারেন। আপনি প্রধান ভেরিয়েবলগুলির রিগ্রেশন সহগের p মানগুলিতেও একই ধরণের অবনতি ট্র্যাক করতে পারেন।

তবে, যখন আপনি কেবল অন্য কারও অধ্যয়ন পড়েন এবং তাদের নিজস্ব অভ্যন্তরীণ মডেল বিকাশ প্রক্রিয়া সম্পর্কে আপনার কোনও অন্তর্দৃষ্টি নেই তবে কোনও মডেল অতিরিক্ত-ফিট কিনা আপনি কীভাবে স্পষ্টভাবে সনাক্ত করতে পারবেন।

regression multivariate-analysis overfitting

— Sympa
সূত্র

এই বিষয়টিতে কেবল কয়েকটি ধারণা ফেলতে, যদি অধ্যয়নটি স্ট্যান্ডার্ড রিগ্রেশন পরিসংখ্যান প্রকাশ করে তবে আপনি সহগের টি স্ট্যাটাস এবং পি মানগুলিতে মনোনিবেশ করতে পারেন। যদি মডেলের আরস্কয়ার উচ্চ হয়; তবে, এক বা একাধিক ভেরিয়েবলের স্ট্যাটাস <2.0 আছে; এটি একটি লাল পতাকা হতে পারে। এছাড়াও, কিছু ভেরিয়েবলের সহগের সাইন যদি যুক্তিটিকে অস্বীকার করে যে সম্ভবত অন্য একটি লাল পতাকা। যদি অধ্যয়নটি মডেলটির জন্য একটি হোল্ড আউট পিরিয়ড প্রকাশ না করে তবে এটি অন্য একটি লাল পতাকা হতে পারে। আশা করি, আপনার অন্যান্য এবং আরও ভাল ধারণা থাকবে।

— সিম্পা

একটি উপায় হ'ল মডেলটি অন্যান্য (তবে অনুরূপ) ডেটাতে কীভাবে কার্য সম্পাদন করে তা দেখুন।

— শেন

উত্তর:

ক্রস বৈধকরণ এবং নিয়মিতকরণ অতিরিক্ত মানা প্রতিরোধের জন্য মোটামুটি সাধারণ কৌশল। দ্রুত গ্রহণের জন্য, আমি ক্রস-বৈধকরণ ( মিরর ) ব্যবহারের বিষয়ে অ্যান্ড্রু মুরের টিউটোরিয়াল স্লাইডগুলি সুপারিশ করব - ক্যাভ্যাটগুলিতে বিশেষ মনোযোগ দিন। আরও বিশদের জন্য, অবশ্যই ইওএসএল এর 3 এবং 7 অধ্যায়টি পড়ুন , যা বিষয় এবং সম্পর্কিত বিষয়টিকে গভীরতার সাথে কভার করে।

— Ars
সূত্র

বাহ, ধন্যবাদ অ্যান্ড্রু মুরের ক্রস-বৈধকরণ সম্পর্কিত টিউটোরিয়ালটি বিশ্বমানের।

— সিম্পা

আমি যখন নিজেকে একটি মডেল ফিট করি আমি সাধারণত ফিটিং প্রক্রিয়া চলাকালীন তথ্যের মানদণ্ডগুলি ব্যবহার করি, যেমন এআইসি বা বিআইসি , বা বিকল্পভাবে সর্বাধিক সম্ভাবনা বা এফ-পরীক্ষার উপর ভিত্তি করে মডেলগুলির জন্য সম্ভাবনা -অনুপাতের পরীক্ষা মডেলগুলির জন্য ন্যূনতম স্কোয়ারের ভিত্তিতে ফিট করে।

এগুলি অতিরিক্ত পরামিতিগুলিকে শাস্তি দেওয়ার ক্ষেত্রে ধারণাগতভাবে সমান। তারা একটি মডেলের সাথে যুক্ত প্রতিটি নতুন প্যারামিটারের জন্য "অতিরিক্ত ব্যাখ্যামূলক শক্তি" এর একটি প্রান্ত স্থাপন করে। এগুলি সবই নিয়মিতকরণের একধরনের ।

অন্যের মডেলগুলির জন্য আমি পদ্ধতিগুলির বিভাগটি দেখি যে এই জাতীয় কৌশলগুলি ব্যবহার করা হয় কিনা এবং এছাড়াও পরামিতি অনুসারে পর্যবেক্ষণের সংখ্যা - যেমন প্যারামিটারে প্রায় 5 (বা কম) পর্যবেক্ষণ থাকে আমি অবাক হতে শুরু করি see

সর্বদা মনে রাখবেন যে ভেরিয়েবলের প্রয়োজনীয়তা গুরুত্বপূর্ণ হওয়ার জন্য কোনও মডেলের "উল্লেখযোগ্য" হওয়া দরকার না। আমি একটি বিভ্রান্তি হতে পারে এবং যদি আপনার লক্ষ্যটি অন্যান্য ভেরিয়েবলের প্রভাব অনুমান করা হয় তবে সেই ভিত্তিতে অন্তর্ভুক্ত করা উচিত।

— Thylacoleo
সূত্র

এআইসি এবং বিআইসি পরীক্ষার লিঙ্কগুলির জন্য ধন্যবাদ। তারা কি ভেরিয়েবল যুক্ত করার জন্য মডেলগুলিকে দণ্ডিত করে অনুরূপ কাজ করে বনাম অ্যাডজাস্টেড আর স্কোয়ারের অনেক বেশি মান যুক্ত করে?

— সিম্পা

@ গেটেন, অ্যাডজাস্টেড আর-স্কোয়ার বাড়বে যখন মডেলের পরে বনামের আগে একটি এফ-টেস্ট গুরুত্বপূর্ণ, সুতরাং এগুলি সমতুল্য, সাধারণত কোনও অ্যাডজাস্টেড আর-স্কোয়ার গণনা করা ছাড়া পি-মান ফেরত না।

— থাইলাকোলিও

@ গেইটেন - এআইসি এবং বিআইসি এফ-টেস্ট এবং অ্যাডজাস্টেড আর-স্কোয়ারের চেয়ে বেশি সাধারণ যা সাধারণত কমপক্ষে স্কোয়ার দ্বারা মাপসই মডেলগুলিতে সীমাবদ্ধ। এআইসি এবং বিআইসি যে কোনও, মডেলের জন্য ব্যবহার করা যেতে পারে যেখানে সম্ভাবনা গণনা করা যায় এবং স্বাধীনতার ডিগ্রিগুলি (বা অনুমানিত) জানা যায়।

— থাইলাকোলিও

ভেরিয়েবলের একটি সেট পরীক্ষা করা নিয়মিতকরণ (সঙ্কুচিত) ফর্ম নয়। এবং পরীক্ষা একটিকে ভেরিয়েবলগুলি মুছে ফেলার লোভ দেয়, যার সাথে ওভারফিটিং হ্রাস করার কোনও সম্পর্ক নেই।

— ফ্র্যাঙ্ক হ্যারেল

@ ফ্র্যাঙ্কহারেল আপনার নিজের এই পুরানো মন্তব্যের বিস্তারিত বর্ণনা করতে পারেন? আমার কাছে মনে হয় যে কোনও পরিবর্তনশীল অপসারণ করলে অতিরিক্ত মান কমে যায়, অন্য সমস্ত জিনিস সমান হয়, যেহেতু অতিরিক্ত পোশাকের জন্য উপলব্ধ স্বাধীনতার ডিগ্রি হ্রাস করা হয়। আমি নিশ্চিত যে আমি এখানে কিছু উপদ্রব মিস করছি।

— লেপিডোপটারিস্ট

আমি প্রস্তাব করব যে ফলাফলগুলি কীভাবে প্রতিবেদন করা হয় তা নিয়ে এটি একটি সমস্যা। "বায়েশিয়ান ড্রামকে পেটাতে" নয় বরং বায়েশিয়ার দৃষ্টিভঙ্গি থেকে মডেল অনিশ্চয়তার কাছে আসা অনুমানের সমস্যা হিসাবে এখানে ব্যাপক সহায়তা করবে। এবং এটি একটি বড় পরিবর্তন হতে হবে না। যদি প্রতিবেদনে এই মডেলটি সত্য বলে সম্ভাবনা থাকে তবে এটি খুব সহায়ক হবে। এটি বিআইসি ব্যবহার করে আনুমানিক এক সহজ পরিমাণ। বিআইসিকে mth মডেল জন্য কল করুন । তারপরে মডেলগুলি "সত্য" মডেল হওয়ার সম্ভাবনা যা মডেলগুলি ফিট ছিল (এবং যে মডেলগুলির মধ্যে একটি সত্য) তা দ্বারা প্রদত্ত: $BIC_{m}$ $M$

P (model m is true | one of the M models is true) \approx \frac{w_{m} \exp (- \frac{1}{2} B I C_{m})}{\sum_{j = 1}^{M} w_{j} \exp (- \frac{1}{2} B I C_{j})}

$P(\text{model m is true}|\text{one of the M models is true})\approx\frac{w_{m}\exp\left(-\frac{1}{2}BIC_{m}\right)}{\sum_{j=1}^{M}w_{j}\exp\left(-\frac{1}{2}BIC_{j}\right)}$

= \frac{1}{1 + \sum_{j \neq m}^{M} \frac{w_{j}}{w_{m}} \exp (- \frac{1}{2} (B I C_{j} - B I C_{m}))}

$=\frac{1}{1+\sum_{j\neq m}^{M}\frac{w_{j}}{w_{m}}\exp\left(-\frac{1}{2}(BIC_{j}-BIC_{m})\right)}$

Where $w_{j}$ is proportional to the prior probability for the jth model. Note that this includes a "penalty" for trying to many models - and the penalty depends on how well the other models fit the data. Usually you will set $w_{j}=1$ , however, you may have some "theoretical" models within your class that you would expect to be better prior to seeing any data.

Now if somebody else doesn't report all the BIC's from all the models, then I would attempt to infer the above quantity from what you have been given. Suppose you are given the BIC from the model - note that BIC is calculable from the mean square error of the regression model, so you can always get BIC for the reported model. Now if we take the basic premise that the final model was chosen from the smallest BIC then we have $BIC_{final}<BIC_{j}$ . Now, suppose you were told that "forward" or "forward stepwise" model selection was used, starting from the intercept using $p$ potential variables. If the final model is of dimension $d$ , then the procedure must have tried at least

M \geq 1 + p + (p - 1) + \dots + (p - d + 1) = 1 + \frac{p (p - 1) - (p - d) (p - d - 1)}{2}

$M\geq 1+p+(p-1)+\dots+(p-d+1)=1+\frac{p(p-1)-(p-d)(p-d-1)}{2}$

different models (exact for forward selection), If the backwards selection was used, then we know at least

M \geq 1 + p + (p - 1) + \dots + (d + 1) = 1 + \frac{p (p - 1) - d (d - 1)}{2}

$M\geq 1+p+(p-1)+\dots+(d+1)=1+\frac{p(p-1)-d(d-1)}{2}$

Models were tried (the +1 comes from the null model or the full model). Now we could try an be more specific, but these are "minimal" parameters which a standard model selection must satisfy. We could specify a probability model for the number of models tried $M$ and the sizes of the $BIC_{j}$ - but simply plugging in some values may be useful here anyway. For example suppose that all the BICs were $\lambda$ bigger than the one of the model chosen so that $BIC_{m}=BIC_{j}-\lambda$ , then the probability becomes:

\frac{1}{1 + (M - 1) \exp (- \frac{λ}{2})}

$\frac{1}{1+(M-1)\exp\left(-\frac{\lambda}{2}\right)}$

So what this means is that unless $\lambda$ is large or $M$ is small, the probability will be small also. From an "over-fitting" perspective, this would occur when the BIC for the bigger model is not much bigger than the BIC for the smaller model - a non-neglible term appears in the denominator. Plugging in the backward selection formula for $M$ we get:

\frac{1}{1 + \frac{p (p - 1) - d (d - 1)}{2} \exp (- \frac{λ}{2})}

$\frac{1}{1+\frac{p(p-1)-d(d-1)}{2}\exp\left(-\frac{\lambda}{2}\right)}$

Now suppose we invert the problem. say $p=50$ and the backward selection gave $d=20$ variables, what would $\lambda$ have to be to make the probability of the model greater than some value $P_{0}$ ? we have

λ > - 2 l o g (\frac{2 (1 - P_{0})}{P_{0} [p (p - 1) - d (d - 1)]})

$\lambda > -2 log\left(\frac{2(1-P_{0})}{P_{0}[p(p-1)-d(d-1)]}\right)$

Setting $P_{0}=0.9$ we get $\lambda > 18.28$ - so BIC of the winning model has to win by a lot for the model to be certain.

— probabilityislogic
সূত্র

+1, this is really clever. Is this published somewhere? Is there an 'official' reference for this?

— গং - মনিকা পুনরায়

@gung - why thank you. Unfortunately, this was a "back of the envelope" answer. I'm sure there's problems with it, if you were to investigate in more detail.

— probabilityislogic