লাসো এবং রিজের মতো দণ্ডিত রিগ্রেশন অনুমানকারীরা নির্দিষ্ট কিছু প্রিয়ারের সাথে বায়েশিয়ান অনুমানের সাথে সঙ্গতিপূর্ণ বলে মনে হয়।
হ্যাঁ এটা ঠিক. যখনই আমাদের লগ-সম্ভাবনা ফাংশন সর্বাধিকীকরণের সাথে সাথে পরামিতিগুলিতে একটি পেনাল্টি ফাংশন জড়িত একটি অনুকূলকরণের সমস্যা হয়, এটি গণিতগতভাবে উত্তরোত্তর সর্বাধিককরণের সমতুল্য যেখানে পেনাল্টি ফাংশনটি পূর্বের কার্নেলের লগারিদম হিসাবে নেওয়া হয়। † এই দেখার জন্য, ধরুন আমরা একটি পেনাল্টি কার্যকারিতা থাকতে W একটি টিউনিং প্যারামিটার ব্যবহার λ । এই ক্ষেত্রে উদ্দেশ্যমূলক কাজটি এইভাবে লেখা যেতে পারে:†wλ
Hx(θ|λ)=ℓx(θ)−w(θ|λ)=ln(Lx(θ)⋅exp(−w(θ|λ)))=ln(Lx(θ)π(θ|λ)∫Lx(θ)π(θ|λ)dθ)+const=lnπ(θ|x,λ)+const,
যেখানে আমরা আগের ব্যবহারের π(θ|λ)∝exp(−w(θ|λ)) । এখানে পর্যবেক্ষণ করুন যে অপ্টিমাইজেশনে টিউনিং প্যারামিটারগুলি পূর্ববর্তী বিতরণে একটি নির্দিষ্ট হাইপারপ্যারামিটার হিসাবে বিবেচিত হয়। আপনি যদি একটি নির্দিষ্ট টিউনিং প্যারামিটার সহ শাস্ত্রীয় অপ্টিমাইজেশন গ্রহণ করেন তবে এটি একটি স্থির হাইপার-প্যারামিটারের সাথে বায়সিয়ান অপ্টিমাইজেশন গ্রহণের সমতুল্য। লাসো এবং রিজ রিগ্রেশনের জন্য পেনাল্টি ফাংশন এবং পূর্ববর্তী সমতুল্য হ'ল:
LASSO RegressionRidge Regressionπ(θ|λ)π(θ|λ)=∏k=1mLaplace(0,1λ)=∏k=1mλ2⋅exp(−λ|θk|),=∏k=1mNormal(0,12λ)=∏k=1mλ/π−−−√⋅exp(−λθ2k).
পূর্বের পদ্ধতিটি তাদের নিখুঁত পরিমাণ অনুসারে রিগ্রেশন সহগকে দণ্ড দেয়, যা শূন্যের পূর্বে অবস্থিত ল্যাপ্লেস চাপিয়ে দেওয়ার সমতুল্য। পরবর্তী পদ্ধতিটি তাদের বর্গক্ষেত্রের পরিমাণ অনুসারে রিগ্রেশন সহগকে দণ্ড দেয়, যা শূন্যে অবস্থিত একটি সাধারণ পূর্বে চাপিয়ে দেওয়ার সমতুল্য।
এখন একটি ঘনত্ববাদী ক্রস বৈধতা দ্বারা সুরক্ষা পরামিতি অনুকূল করতে হবে। এটি করার মতো কোনও বায়েশিয়ান কি সমান এবং এটি কি আদৌ ব্যবহৃত হয়?
যতক্ষণ না ঘন ঘন পদ্ধতিটি একটি অপ্টিমাইজেশান সমস্যা হিসাবে চিহ্নিত করা যায় (বরং অনুমানের পরীক্ষা সহ এইরকম বলা বা এই জাতীয় কিছু হিসাবে) এর আগে সমমানের পূর্বের ব্যবহার করে একটি বায়সিয়ান উপমা পাওয়া যাবে। ঠিক যেমন frequentists টিউনিং প্যারামিটার আচরণ করবে λ অজানা হিসেবে এবং তথ্য থেকে এই অনুমানের, Bayesian একভাবে hyperparameter আচরণ করবে λ অজানা হিসেবে। একটি সম্পূর্ণ বায়েশীয় বিশ্লেষণে এটি হাইপারপ্যারামিটারকে তার নিজস্ব পূর্বে দেওয়া এবং পূর্ববর্তীটির অধীনে উত্তরোত্তর সর্বাধিক সন্ধান করা জড়িত, যা নিম্নলিখিত উদ্দেশ্য কার্যটি সর্বাধিক করার অনুরূপ হবে:
Hx(θ,λ)=ℓx(θ)−w(θ|λ)−h(λ)=ln(Lx(θ)⋅exp(−w(θ|λ))⋅exp(−h(λ)))=ln(Lx(θ)π(θ|λ)π(λ)∫Lx(θ)π(θ|λ)π(λ)dθ)+const=lnπ(θ,λ|x)+const.
This method is indeed used in Bayesian analysis in cases where the analyst is not comfortable choosing a specific hyperparameter for their prior, and seeks to make the prior more diffuse by treating it as unknown and giving it a distribution. (Note that this is just an implicit way of giving a more diffuse prior to the parameter of interest θ.)
(Comment from statslearner2 below) I'm looking for numerical equivalent MAP estimates. For instance, for a fixed penalty Ridge there is a gaussian prior that will give me the MAP estimate exactly equal the ridge estimate. Now, for k-fold CV ridge, what is the hyper-prior that would give me the MAP estimate which is similar to the CV-ridge estimate?
Before proceeding to look at K-fold cross-validation, it is first worth noting that, mathematically, the maximum a posteriori (MAP) method is simply an optimisation of a function of the parameter θ and the data x. If you are willing to allow improper priors then the scope encapsulates any optimisation problem involving a function of these variables. Thus, any frequentist method that can be framed as a single optimisation problem of this kind has a MAP analogy, and any frequentist method that cannot be framed as a single optimisation of this kind does not have a MAP analogy.
In the above form of model, involving a penalty function with a tuning parameter, K-fold cross-validation is commonly used to estimate the tuning parameter λ. For this method you partition the data vector x into K sub-vectors x1,...,xK. For each of sub-vector k=1,...,K you fit the model with the "training" data x−k and then measure the fit of the model with the "testing" data xk. In each fit you get an estimator for the model parameters, which then gives you predictions of the testing data, which can then be compared to the actual testing data to give a measure of "loss":
EstimatorPredictionsTesting lossθ^(x−k,λ),x^k(x−k,λ),Lk(x^k,xk|x−k,λ).
K
L(x,λ)=∑kLk(x^k,xk|x−k,λ)
One then estimates the tuning parameter by minimising the overall loss measure:
λ^≡λ^(x)≡arg min λL(x,λ).
We can see that this is an optimisation problem, and so we now have two seperate optimisation problems (i.e., the one described in the sections above for θ, and the one described here for λ). Since the latter optimisation does not involve θ, we can combine these optimisations into a single problem, with some technicalities that I discuss below. To do this, consider the optimisation problem with objective function:
Hx(θ,λ)=ℓx(θ)−w(θ|λ)−δL(x,λ),
where δ>0 is a weighting value on the tuning-loss. As δ→∞ the weight on optimisation of the tuning-loss becomes infinite and so the optimisation problem yields the estimated tuning parameter from K-fold cross-validation (in the limit). The remaining part of the objective function is the standard objective function conditional on this estimated value of the tuning parameter. Now, unfortunately, taking δ=∞ screws up the optimisation problem, but if we take δ to be a very large (but still finite) value, we can approximate the combination of the two optimisation problems up to arbitrary accuracy.
From the above analysis we can see that it is possible to form a MAP analogy to the model-fitting and K-fold cross-validation process. This is not an exact analogy, but it is a close analogy, up to arbitrarily accuracy. It is also important to note that the MAP analogy no longer shares the same likelihood function as the original problem, since the loss function depends on the data and is thus absorbed as part of the likelihood rather than the prior. In fact, the full analogy is as follows:
Hx(θ,λ)=ℓx(θ)−w(θ|λ)−δL(x,λ)=ln(L∗x(θ,λ)π(θ,λ)∫L∗x(θ,λ)π(θ,λ)dθ)+const,
where L∗x(θ,λ)∝exp(ℓx(θ)−δL(x,λ)) and π(θ,λ)∝exp(−w(θ|λ)), with a fixed (and very large) hyper-parameter δ.
† This gives an improper prior in cases where the penalty does not correspond to the logarithm of a sigma-finite density.