প্রাথমিক, দ্বৈত এবং কার্নেল রিজ রিগ্রেশন মধ্যে পার্থক্য


18

প্রাথমিক , দ্বৈত এবং কার্নেল রিজ রিগ্রেশন মধ্যে পার্থক্য কি ? লোকেরা তিনটিই ব্যবহার করছে, এবং বিভিন্ন সূত্রের প্রত্যেকে যেহেতু বিভিন্ন উত্সে ব্যবহার করে তা আমার অনুসরণ করা কঠিন।

তাহলে কেউ আমাকে সহজ কথায় বলতে পারেন এই তিনটির মধ্যে পার্থক্য কী? এ ছাড়াও প্রত্যেকের কিছু সুবিধা বা অসুবিধা কী হতে পারে এবং এর জটিলতা কী হতে পারে?

উত্তর:


39

সংক্ষিপ্ত উত্তর: প্রাথমিক এবং দ্বৈত মধ্যে কোন পার্থক্য - এটি কেবল সমাধানে পৌঁছানোর উপায় সম্পর্কে। কার্নেল রিজ রিগ্রেশন মূলত রিজ রিগ্রেশন হিসাবে একই, তবে অ-রৈখিক হওয়ার জন্য কার্নেল ট্রিক ব্যবহার করে।

লিনিয়ার রিগ্রেশন

প্রথমত, একটি সর্বনিম্ন ন্যূনতম স্কোয়ারেস লিনিয়ার রিগ্রেশন তথ্য পয়েন্টগুলির সেটে একটি সরল রেখাকে এমনভাবে ফিট করার চেষ্টা করে যাতে স্কোয়ার ত্রুটির যোগফল ন্যূনতম হয়।

এখানে চিত্র বর্ণনা লিখুন

আমরা সঙ্গে ভাল হইয়া লাইন parametrize w এবং প্রতিটি ডাটা পয়েন্ট জন্য (xi,yi) আমরা চাই wTxiyi । আসুন ei=yiwTxi ত্রুটি হতে থাকি - ভবিষ্যদ্বাণী করা এবং সত্য মানের মানের মধ্যে দূরত্ব। সুতরাং আমাদের লক্ষ্য স্কোয়ারড ত্রুটি সমষ্টি কমান হয় ei2=e2=Xwy2যেখানে X=[x1x2xn]- প্রতিটি কোনো ডেটা ম্যাট্রিক্সxiএকটি সারিতে, এবং হচ্ছেy=(y1, ... ,yn)সব একটি ভেক্টরyiএর।

সুতরাং, উদ্দেশ্য হল minwXwy2 , এবং সমাধান w=(XTX)1XTy (যেমন "স্বাভাবিক সমীকরণ" নামে পরিচিত)।

একটি নতুন অদেখা ডাটা পয়েন্ট জন্য x আমরা তার লক্ষ্য মান ভবিষ্যদ্বাণী করা Y যেমন Y = W টি এক্সy^y^=wTx

রিজ রিগ্রেশন

যখন লিনিয়ার রিগ্রেশন মডেলগুলিতে অনেকগুলি সম্পর্কযুক্ত ভেরিয়েবল থাকে, তখন সহগের w খারাপভাবে নির্ধারিত হতে পারে এবং প্রচুর বৈকল্পিক থাকতে পারে। এই সমস্যার সমাধান এক ওজন সীমিত হয় w তাই তারা কিছু বাজেটের তুলনায় অধিক না C । এটি L2 নিয়মিতকরণ ব্যবহারের সমতুল্য , এটি "ওজন ক্ষয়" নামে পরিচিত: এটি কখনও কখনও সঠিক ফলাফলগুলি (যেমন কিছু পক্ষপাত প্রবর্তনের মাধ্যমে) হারিয়ে যাওয়ার ব্যয়ে বৈচিত্র্য হ্রাস করে।

উদ্দেশ্য এখন হয়ে minwXwy2+λw2 , সঙ্গেλ নিয়মিতকরণ প্যারামিটার হচ্ছে। গণিতে গিয়ে, আমরা নিম্নলিখিত সমাধানটি পাই:w=(XTX+λI)1XTy । এটি সাধারণ লিনিয়ার রিগ্রেশন এর সাথে খুব মিল, তবে এখানে আমরা এক্স টি এক্স এর প্রতিটি তির্যক উপাদানেλ যুক্ত করি।XTX

মনে রাখবেন আমরা করতে পুনরায় লেখার w যেমন w=XT(XXT+λI)1y (বিশদ জন্যএখানেদেখুন)। একটি নতুন অদেখা ডাটা পয়েন্ট জন্যx আমরা তার লক্ষ্য মান ভবিষ্যদ্বাণী করা Y যেমন Y = এক্স টি W = এক্স টি এক্স টিy^y^=xTw=xTXT(XXT+λI)1y । যাকα=(XXT+λI)1y । তারপর Y = এক্স টি এক্স টি α = Σ আমি = 1 α আমিএক্স টি এক্স আমিy^=xTXTα=i=1nαixTxi

রিজ রিগ্রেশন দ্বৈত ফর্ম

আমাদের উদ্দেশ্য সম্পর্কে আমরা আলাদা দৃষ্টি রাখতে পারি - এবং নিম্নলিখিত চতুষ্কোণ প্রোগ্রামের সমস্যাটি সংজ্ঞায়িত করতে পারি:

mine,wi=1nei2 Stei=yiwTxi জন্যi=1..n এবংw2C

এটা একই উদ্দেশ্য এখানে আকারের উপর বাধ্যতা, কিন্তু কিছুটা ভিন্নভাবে প্রকাশ এবং w স্পষ্ট হয়। তার সমাধানের জন্য, আমরা ল্যাগরান্গিয়ান সংজ্ঞায়িত Lp(w,e;C) - এই আদিম ফর্ম যে আদিম ভেরিয়েবল রয়েছে w এবং e । তারপরে আমরা এটি আর্ট e এবং w ডব্লিউটিউটিভ করব । দ্বৈত গঠনের জন্য, আমরা e এবং w ফিরে রেখেছিLp(w,e;C)

সুতরাং, Lp(w,e;C)=e2+βT(yXwe)λ(w2C) । ডেরিভেটিভস আর্টw এবং e গ্রহণ করেআমরা = প্রাপ্ত করিe=12βএবংw=12λXTβ। লেট করেα=12λβ, and putting e and w back to Lp(w,e;C), we get dual Lagrangian Ld(α,λ;C)=λ2α2+2λαTyλXTαλC. If we take a derivative w.r.t. α, we get α=(XXTλI)1y - the same answer as for usual Kernel Ridge regression. There's no need to take a derivative w.r.t λ - it depends on C, which is a regularization parameter - and it makes λ regularization parameter as well.

Next, put α to the primal form solution for w, and get w=12λXTβ=XTα. Thus, the dual form gives the same solution as usual Ridge Regression, and it's just a different way to come to the same solution.

Kernel Ridge Regression

Kernels are used to calculate inner product of two vectors in some feature space without even visiting it. We can view a kernel k as k(x1,x2)=ϕ(x1)Tϕ(x2), although we don't know what ϕ() is - we only know it exists. There are many kernels, e.g. RBF, Polynonial, etc.

We can use kernels to make our Ridge Regression non-linear. Suppose we have a kernel k(x1,x2)=ϕ(x1)Tϕ(x2). Let Φ(X) be a matrix where each row is ϕ(xi), i.e. Φ(X)=[ϕ(x1)ϕ(x2)ϕ(xn)]

Now we can just take the solution for Ridge Regression and replace every X with Φ(X): w=Φ(X)T(Φ(X)Φ(X)T+λI)1y. For a new unseen data point x we predict its target value y^ as y^=ϕ(x)TΦ(X)T(Φ(X)Φ(X)T+λI)1y.

First, we can replace Φ(X)Φ(X)T by a matrix K, calculated as (K)ij=k(xi,xj). Then, ϕ(x)TΦ(X)T is i=1nϕ(x)Tϕ(xi)=i=1nk(x,xj). So here we managed to express every dot product of the problem in terms of kernels.

Finally, by letting α=(K+λI)1y (as previously), we obtain y^=i=1nαik(x,xj)

References


1
I am impressed by the well-organized discussion. However, your early reference to "outliers" confused me. It appears the weights w apply to the variables rather than the cases, so how exactly would ridge regression help make the solution robust to outlying cases, as suggested by the illustration?
whuber

Excellent answer, Alexey (though I wouldn't call it "simple words")! +1 with no questions asked. You like to write in LaTeX, don't you?
Aleksandr Blekh

2
I suspect you might be confusing some basic things here. AFAIK, ridge regression is neither a response to nor a way of coping with "noisy observations." OLS already does that. Ridge regression is a tool used to cope with near-collinearity among regressors. Those phenomena are completely different from noise in the dependent variable.
whuber

1
+1 whuber. Alexey you are right it is overfitting -ie too many parameters for the available data - not really noise. [ and add enough dimensions for fixed sample size and 'any' data set becomes collinear]. So a better 2-d picture for RR would be all the points clustered around (0,1) with a single point at (1,0) ['justifying' the slope parameter]. See ESL fig 3.9,page 67 web.stanford.edu/~hastie/local.ftp/Springer/OLD/…. also look at primal cost function: to increase weight by 1 unit, error must decrease by 1/λ unit
seanv507

1
I believe you meant add λ to diagonal elements of XTX not subtract(?) in the ridge regression section. I applied the edit.
Heteroskedastic Jim
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.