সংক্ষিপ্ত উত্তর: প্রাথমিক এবং দ্বৈত মধ্যে কোন পার্থক্য - এটি কেবল সমাধানে পৌঁছানোর উপায় সম্পর্কে। কার্নেল রিজ রিগ্রেশন মূলত রিজ রিগ্রেশন হিসাবে একই, তবে অ-রৈখিক হওয়ার জন্য কার্নেল ট্রিক ব্যবহার করে।
লিনিয়ার রিগ্রেশন
প্রথমত, একটি সর্বনিম্ন ন্যূনতম স্কোয়ারেস লিনিয়ার রিগ্রেশন তথ্য পয়েন্টগুলির সেটে একটি সরল রেখাকে এমনভাবে ফিট করার চেষ্টা করে যাতে স্কোয়ার ত্রুটির যোগফল ন্যূনতম হয়।
আমরা সঙ্গে ভাল হইয়া লাইন parametrize w এবং প্রতিটি ডাটা পয়েন্ট জন্য (xi,yi) আমরা চাই wTxi≈yi । আসুন ei=yi−wTxi ত্রুটি হতে থাকি - ভবিষ্যদ্বাণী করা এবং সত্য মানের মানের মধ্যে দূরত্ব। সুতরাং আমাদের লক্ষ্য স্কোয়ারড ত্রুটি সমষ্টি কমান হয় ∑e2i=∥e∥2=∥Xw−y∥2যেখানে X=⎡⎣⎢⎢⎢⎢—x1——x2—⋮—xn—⎤⎦⎥⎥⎥⎥- প্রতিটি কোনো ডেটা ম্যাট্রিক্সxiএকটি সারিতে, এবং হচ্ছেy=(y1, ... ,yn)সব একটি ভেক্টরyiএর।
সুতরাং, উদ্দেশ্য হল minw∥Xw−y∥2 , এবং সমাধান w=(XTX)−1XTy (যেমন "স্বাভাবিক সমীকরণ" নামে পরিচিত)।
একটি নতুন অদেখা ডাটা পয়েন্ট জন্য x আমরা তার লক্ষ্য মান ভবিষ্যদ্বাণী করা Y যেমন Y = W টি এক্স ।y^y^=wTx
রিজ রিগ্রেশন
যখন লিনিয়ার রিগ্রেশন মডেলগুলিতে অনেকগুলি সম্পর্কযুক্ত ভেরিয়েবল থাকে, তখন সহগের w খারাপভাবে নির্ধারিত হতে পারে এবং প্রচুর বৈকল্পিক থাকতে পারে। এই সমস্যার সমাধান এক ওজন সীমিত হয় w তাই তারা কিছু বাজেটের তুলনায় অধিক না C । এটি L2 নিয়মিতকরণ ব্যবহারের সমতুল্য , এটি "ওজন ক্ষয়" নামে পরিচিত: এটি কখনও কখনও সঠিক ফলাফলগুলি (যেমন কিছু পক্ষপাত প্রবর্তনের মাধ্যমে) হারিয়ে যাওয়ার ব্যয়ে বৈচিত্র্য হ্রাস করে।
উদ্দেশ্য এখন হয়ে minw∥Xw−y∥2+λ∥w∥2 , সঙ্গেλ নিয়মিতকরণ প্যারামিটার হচ্ছে। গণিতে গিয়ে, আমরা নিম্নলিখিত সমাধানটি পাই:w=(XTX+λI)−1XTy । এটি সাধারণ লিনিয়ার রিগ্রেশন এর সাথে খুব মিল, তবে এখানে আমরা এক্স টি এক্স এর প্রতিটি তির্যক উপাদানেλ যুক্ত করি।XTX
মনে রাখবেন আমরা করতে পুনরায় লেখার w যেমন w=XT(XXT+λI)−1y (বিশদ জন্যএখানেদেখুন)। একটি নতুন অদেখা ডাটা পয়েন্ট জন্যx আমরা তার লক্ষ্য মান ভবিষ্যদ্বাণী করা Y যেমন Y = এক্স টি W = এক্স টি এক্স টিy^y^=xTw=xTXT(XXT+λI)−1y । যাকα=(XXT+λI)−1y । তারপর Y = এক্স টি এক্স টি α = ঢ Σ আমি = 1 α আমি ⋅ এক্স টি এক্স আমি ।y^=xTXTα=∑i=1nαi⋅xTxi
রিজ রিগ্রেশন দ্বৈত ফর্ম
আমাদের উদ্দেশ্য সম্পর্কে আমরা আলাদা দৃষ্টি রাখতে পারি - এবং নিম্নলিখিত চতুষ্কোণ প্রোগ্রামের সমস্যাটি সংজ্ঞায়িত করতে পারি:
mine,w∑i=1ne2i Stei=yi−wTxi জন্যi=1..n এবং∥w∥2⩽C ।
এটা একই উদ্দেশ্য এখানে আকারের উপর বাধ্যতা, কিন্তু কিছুটা ভিন্নভাবে প্রকাশ এবং w স্পষ্ট হয়। তার সমাধানের জন্য, আমরা ল্যাগরান্গিয়ান সংজ্ঞায়িত Lp(w,e;C) - এই আদিম ফর্ম যে আদিম ভেরিয়েবল রয়েছে w এবং e । তারপরে আমরা এটি আর্ট e এবং w ডব্লিউটিউটিভ করব । দ্বৈত গঠনের জন্য, আমরা e এবং w ফিরে এ রেখেছিLp(w,e;C) ।
সুতরাং, Lp(w,e;C)=∥e∥2+βT(y−Xw−e)−λ(∥w∥2−C) । ডেরিভেটিভস আর্টw এবং e গ্রহণ করেআমরা ই = প্রাপ্ত করিe=12βএবংw=12λXTβ। লেট করেα=12λβ, and putting e and w back to Lp(w,e;C), we get dual Lagrangian Ld(α,λ;C)=−λ2∥α∥2+2λαTy−λ∥XTα∥−λC. If we take a derivative w.r.t. α, we get α=(XXT−λI)−1y - the same answer as for usual Kernel Ridge regression. There's no need to take a derivative w.r.t λ - it depends on C, which is a regularization parameter - and it makes λ regularization parameter as well.
Next, put α to the primal form solution for w, and get w=12λXTβ=XTα. Thus, the dual form gives the same solution as usual Ridge Regression, and it's just a different way to come to the same solution.
Kernel Ridge Regression
Kernels are used to calculate inner product of two vectors in some feature space without even visiting it. We can view a kernel k as k(x1,x2)=ϕ(x1)Tϕ(x2), although we don't know what ϕ(⋅) is - we only know it exists. There are many kernels, e.g. RBF, Polynonial, etc.
We can use kernels to make our Ridge Regression non-linear. Suppose we have a kernel k(x1,x2)=ϕ(x1)Tϕ(x2). Let Φ(X) be a matrix where each row is ϕ(xi), i.e. Φ(X)=⎡⎣⎢⎢⎢⎢⎢—ϕ(x1)——ϕ(x2)—⋮—ϕ(xn)—⎤⎦⎥⎥⎥⎥⎥
Now we can just take the solution for Ridge Regression and replace every X with Φ(X): w=Φ(X)T(Φ(X)Φ(X)T+λI)−1y. For a new unseen data point x we predict its target value y^ as y^=ϕ(x)TΦ(X)T(Φ(X)Φ(X)T+λI)−1y.
First, we can replace Φ(X)Φ(X)T by a matrix K, calculated as (K)ij=k(xi,xj). Then, ϕ(x)TΦ(X)T is ∑i=1nϕ(x)Tϕ(xi)=∑i=1nk(x,xj). So here we managed to express every dot product of the problem in terms of kernels.
Finally, by letting α=(K+λI)−1y (as previously), we obtain y^=∑i=1nαik(x,xj)
References