রিজ রিগ্রেশন সমতুল্য সূত্রগুলির প্রমাণ

15

আমি পরিসংখ্যান শেখার সর্বাধিক জনপ্রিয় বইগুলি পড়েছি

1- পরিসংখ্যানগত শিক্ষার উপাদানসমূহ।

2- পরিসংখ্যান শেখার একটি ভূমিকা ।

উভয়ই উল্লেখ করেছেন যে রিজ রিগ্রেশনটির দুটি সূত্র সমতুল্য। এই ফলাফলের কোন বোধগম্য গাণিতিক প্রমাণ আছে?

আমি ক্রস ভ্যালিডেটেড দিয়েও গিয়েছিলাম , তবে আমি সেখানে কোনও সুনির্দিষ্ট প্রমাণ পাই না।

তদুপরি, লাসো কি একই ধরণের প্রমাণ উপভোগ করবে?

— jeza
সূত্র

2

en.wikedia.org/wiki/…

— টেলর

1

লাসো রিজ রিগ্রেশনের কোনও রূপ নয়।

— শি'আন

@ জেজা, আপনি কি উত্তর দিতে পারবেন আমার উত্তরে? এটি সত্যই সংযুক্তি সম্পর্কে সমস্ত প্রাপ্ত হতে পারে ives

— রই

@ জিজা, আপনি নির্দিষ্ট হতে পারেন? সীমাবদ্ধ সমস্যার জন্য ল্যাঙ্গরজিয়ামের ধারণাটি না জানলে একটি সংক্ষিপ্ত উত্তর দেওয়া শক্ত।

— রই

1

@ জেজা, একটি সীমাবদ্ধ অপ্টিমাইজেশান সমস্যাটি ল্যাঙ্গরজিয়ান ফাংশন / কেকেটি অবস্থার (বর্তমান উত্তরে বর্ণিত হিসাবে) অনুকূলকরণে রূপান্তরিত হতে পারে। এই নীতিটির পুরো ইন্টারনেটে ইতিমধ্যে অনেকগুলি সহজ সরল ব্যাখ্যা রয়েছে। প্রমাণের আরও ব্যাখ্যাটি কোন দিকে প্রয়োজন? লাগরজিয়ান গুণক / ফাংশনের ব্যাখ্যা / প্রমাণ, ব্যাখ্যা / প্রমাণ কীভাবে এই সমস্যাটি অপ্টিমাইজেশনের একটি ক্ষেত্রে যা ল্যাঞ্জর্জের পদ্ধতি, পার্থক্য কেকেটি / ল্যাংরেঞ্জ, নিয়মিতকরণের নীতির ব্যাখ্যা ইত্যাদির সাথে সম্পর্কিত?

— সেক্সটাস এম্পেরিকাস

19

ক্লাসিক রিজ রিগ্রেশন ( টিখনভ নিয়ন্ত্রককরণ ) এর দ্বারা দেওয়া হয়েছে:

\arg min_{x} \frac{1}{2} {‖ x - y ‖}_{2}^{2} + λ {‖ x ‖}_{2}^{2}

$\arg \min_{x} \frac{1}{2} {\left\| x - y \right\|}_{2}^{2} + \lambda {\left\| x \right\|}_{2}^{2}$

উপরের দাবিটি হ'ল নিম্নলিখিত সমস্যাটি সমতুল্য:

\begin{aligned} \arg min_{x} & \frac{1}{2} {‖ x - y ‖}_{2}^{2} \\ subject to & {‖ x ‖}_{2}^{2} \leq t \end{aligned}

$\begin{align*} \arg \min_{x} \quad & \frac{1}{2} {\left\| x - y \right\|}_{2}^{2} \\ \text{subject to} \quad & {\left\| x \right\|}_{2}^{2} \leq t \end{align*}$

আসুন সংজ্ঞায়িত প্রথম সমস্যার সন্তোষজনক সমাধান এবং দ্বিতীয় সমস্যা সন্তোষজনক সমাধান হিসাবে। $\hat{x}$ $\tilde{x}$

সমতা দাবি করার অর্থ $\forall t, \: \exists \lambda \geq 0 : \hat{x} = \tilde{x}$ ।
যথা আপনার কাছে সর্বদা এক জোড়া $t$ এবং $\lambda \geq 0$ পারে সমস্যার সমাধানটি একই।

কীভাবে আমরা একটি জুড়ি খুঁজে পেতে পারি?
ঠিক আছে, সমস্যাগুলি সমাধান করে এবং সমাধানের বৈশিষ্ট্যগুলি দেখে।
উভয় সমস্যা উত্তল এবং মসৃণ তাই এটি জিনিস সহজতর করা উচিত।

প্রথম সমস্যার সমাধানটি সেই বিন্দুতে দেওয়া হয় যে বিন্দুতে গ্রেডিয়েন্টটি নিখোঁজ হয় যার অর্থ:

\hat{x} - y + 2 λ \hat{x} = 0

$\hat{x} - y + 2 \lambda \hat{x} = 0$

Kkt শর্তাবলী দ্বিতীয় সমস্যা রাজ্যের:

\tilde{এক্স} - Y + + 2 μ \tilde{এক্স} = 0

$\tilde{x} - y + 2 \mu \tilde{x} = 0$

এবং

μ ({‖ \tilde{x} ‖}_{2}^{2} - t) = 0

$\mu \left( {\left\| \tilde{x} \right\|}_{2}^{2} - t \right) = 0$

শেষ সমীকরণটি পরামর্শ দেয় যে হয় $\mu = 0$ বা ${\left\| \tilde{x} \right\|}_{2}^{2} = t$ ।

মনোযোগ দিন যে 2 বেস সমীকরণ সমতুল্য।
যেমন যদি এবং উভয় সমীকরণ ধরে রাখুন। $\hat{x} = \tilde{x}$ $\mu = \lambda$

সুতরাং এটি এর মানে হল যে ক্ষেত্রে ${\left\| y \right\|}_{2}^{2} \leq t$ এক আবশ্যক সেট $\mu = 0$ যার মানে জন্য $t$ বৃহৎ যথেষ্ট উভয়ই হতে সমতূল্য এক আবশ্যক সেট অনুক্রমে $\lambda = 0$ ।

অন্যান্য ক্ষেত্রে উপর এক হবে $\mu$ যেখানে:

y^{t} {(I + 2 μ I)}^{- 1} {(I + 2 μ I)}^{- 1} y = t

${y}^{t} \left( I + 2 \mu I \right)^{-1} \left( I + 2 \mu I \right)^{-1} y = t$

এটি মূলত যখন ${\left\| \tilde{x} \right\|}_{2}^{2} = t$

একবার আপনি খুঁজে পাবেন যে $\mu$ সমাধানগুলির সংঘর্ষ হবে।

সংক্রান্ত ${L}_{1}$ (Lasso) মামলা, ভাল, এটি একই ধারণা সঙ্গে কাজ করে।
পার্থক্যটি কেবলমাত্র আমরা সমাধানের জন্য বন্ধ করি নি তাই সংযোগ আটকানো আরও জটিল।

আমার উত্তর কটাক্ষপাত আছে StackExchange ক্রস যাচাই Q291962 এবং তাত্পর্য - StackExchange সিগন্যাল প্রসেসিং Q21730 $\lambda$ বেসিস সাধনা ।

মন্তব্য
আসলে কি ঘটছে?
উভয় সমস্যার সালে $x$ চেষ্টা যতটা সম্ভব ঘনিষ্ঠ হিসেবে হতে $y$ ।
প্রথম ক্ষেত্রে, $x = y$ প্রথম পদটি ( ${L}_{2}$ দূরত্ব) অদৃশ্য হয়ে যাবে এবং দ্বিতীয় ক্ষেত্রে এটি উদ্দেশ্যমূলক কার্যটি বিলুপ্ত করবে।
পার্থক্য হল যে প্রথম ক্ষেত্রে এক সামঞ্জস্য বজায় রাখা আবশ্যক ${L}_{2}$ নর্ম এর $x$ । হিসাবে $\lambda$ উচ্চতর ভারসাম্য উপায়ে পায় আপনি করা উচিত $x$ ছোট করা হয়েছে।
দ্বিতীয় ক্ষেত্রে একটি প্রাচীর রয়েছে, আপনি $x$ কাছাকাছি এবং কাছাকাছি আনবেন $y$ যতক্ষণ না আপনি প্রাচীরকে আঘাত করেন যা এটির আদর্শের ( $t$ ) দ্বারা সীমাবদ্ধ ।
প্রাচীর খুব বেশী কথা (উচ্চ মান হয়, তাহলে $t$ ) এবং যথেষ্ট আদর্শ উপর নির্ভর করে $y$ তারপর আমি ঠিক কোন অর্থ আছে, $\lambda$ শুধুমাত্র আদর্শ দ্বারা গুন এর মান প্রাসঙ্গিক $y$ অর্থপূর্ণ হতে শুরু হয়।
সঠিক সংযোগটি উপরে বর্ণিত ল্যাঙ্গরজিয়ান দ্বারা।

সম্পদ

আমি আজ এই কাগজটি পেয়েছি (03/04/2019):

এক শ্রেণীর বিরল অপ্টিমাইজেশান সমস্যার জন্য আনুমানিক কঠোরতা ।

— Royi
সূত্র

সমতুল্যর অর্থ কি \ ল্যাম্বদা এবং \ টি একই হওয়া উচিত। কারণ আমি প্রুফ এ দেখতে পাচ্ছি না। ধন্যবাদ

— জাজা

@jeza হিসেবে আমি উপরের লিখেছিলেন, কোন

আছে

(অগত্যা না সমান

কিন্তু একটি ফাংশন

এবং ডেটা

) যেমন যে দুই ফর্ম সমাধান একই।

t

$t$

λ \geq 0

$\lambda \geq 0$

t

$t$

t

$t$

y

$y$

— রয়ি

3

@jeza, উভয়

&

মূলত বিনামূল্যে পরামিতি এখানে আছে। একবার আপনি নির্দিষ্ট করুন, বলুন,

, এটি একটি নির্দিষ্ট অনুকূল সমাধান দেয়। তবে

একটি মুক্ত প্যারামিটার হিসাবে রয়ে গেছে। সুতরাং এই মুহুর্তে দাবিটি হ'ল

কিছু মান থাকতে পারে যা একই সর্বোত্তম সমাধান দেয়। মূলত সেই

হবে তা নিয়ে মূলত কোনও বাধা নেই ; এটি not এর কিছু স্থির ফাংশন যেমন

বা কোনও

মতো হওয়া উচিত নয়।

λ

$\lambda$

t

$t$

λ

$\lambda$

t

$t$

t

$t$

t

$t$

λ

$\lambda$

t = λ / 2

$t=\lambda/2$

— গুং - মনিকা পুনরায়

@ রয়ী, আমি জানতে চাই 1- আপনার সূত্রটি কেন (1/2) রয়েছে, যদিও সূত্রগুলি প্রশ্নবিদ্ধ নয়? 2- দুটি সূত্রের সমতা দেখানোর জন্য কেকেটি ব্যবহার করছেন? 3- হ্যাঁ, আমি এখনও এই সমতা দেখতে পাচ্ছি না। আমি নিশ্চিত নই তবে আমি যা দেখতে প্রত্যাশা করি তা হ'ল সেই সূত্রটি এক = সূত্র দুটি দেখানোর প্রমাণ।

— জেজা

1. আপনি যখন এলএস শব্দটির পার্থক্য করেন ঠিক তখনই সহজ। তুমি আমার গঠন স্থানান্তর করতে পারেন

ওপি করার

দুই গুণক দ্বারা। ২. আমি ২ য় ক্ষেত্রে কেকেটি ব্যবহার করেছি। প্রথম ক্ষেত্রে কোনও বাধা নেই, তাই আপনি কেবল এটি সমাধান করতে পারেন। ৩. তাদের মধ্যে কোনও বদ্ধ ফর্ম সমীকরণ নেই। আমি যুক্তি দেখিয়েছি এবং কীভাবে আপনি তাদের সংযোগকারী একটি গ্রাফ তৈরি করতে পারেন। তবে আমি যেমন লিখেছি এটি প্রতিটি

জন্য পরিবর্তিত হবে (এটি ডেটা নির্ভর dependent

λ

$\lambda$

λ

$\lambda$

y

$y$

— রায়য়

9

অল্প গাণিতিকভাবে কঠোর, তবে সম্ভবত আরও স্বজ্ঞাত, কী চলছে তা বোঝার পদ্ধতির সীমাবদ্ধতা সংস্করণ (প্রশ্নটির সমীকরণ 3.2) দিয়ে শুরু করা এবং "ল্যাংরেঞ্জ মাল্টিপ্লায়ার" ( https: //en.wikedia ) এর পদ্ধতি ব্যবহার করে সমাধান করা ipedia .org / wiki / ল্যাঞ্জারেঞ্জ_ মাল্টিপ্লায়ার বা আপনার প্রিয় মাল্টিভারিয়াল ক্যালকুলাস পাঠ্য)। কেবল মনে রাখবেন ক্যালকুলাসে হল ভেরিয়েবলের ভেক্টর, তবে আমাদের ক্ষেত্রে ধ্রুবক এবং হল ভেরিয়েবল ভেক্টর। একবার আপনি ল্যাঞ্জরেঞ্জ গুণক প্রযুক্তি প্রয়োগ করার পরে আপনি প্রথম সমীকরণটি শেষ করেন (3.41) (অতিরিক্ত যা নূন্যতমের সাথে সামঞ্জস্যপূর্ণ এবং উপেক্ষা করা যায়) দিয়ে শেষ করে with $x$ $x$ $\beta$ $-\lambda t$

এটিও দেখায় যে এটি লাসো এবং অন্যান্য সীমাবদ্ধতার জন্য কাজ করে।

— গ্রেগ স্নো
সূত্র

8

লাগরজিয়ান দ্বৈততা এবং এর মধ্যে একটি বিস্তৃত সম্পর্ক (কখনও কখনও সমতুল্য) সম্পর্কে পড়ার পক্ষে এটি মূল্যবান:

অপ্টিমাইজেশন কঠোর (যেমন অদম্য) বাধা to
সীমাবদ্ধতা লঙ্ঘনের জন্য জরিমানার সাথে অপ্টিমাইজেশন।

দুর্বল দ্বৈত এবং দৃ strong় দ্বৈততে দ্রুত পরিচয়

ধরুন আমাদের দুটি ভেরিয়েবলের কিছু ফাংশন রয়েছে। কোন এবং , আমরা আছে: $f(x,y)$ $\hat{x}$ $\hat{y}$

min_{x} f (x, \hat{y}) \leq f (\hat{x}, \hat{y}) \leq max_{y} f (\hat{x}, y)

$\min_x f(x, \hat{y}) \leq f(\hat{x}, \hat{y}) \leq \max_y f(\hat{x}, y)$

যেহেতু যে কোনো জন্য ঝুলিতে এবং এটি যে ঝুলিতে: $\hat{x}$ $\hat{y}$

max_{y} min_{x} f (x, y) \leq min_{x} max_{y} f (x, y)

$\max_y \min_x f(x, y) \leq \min_x \max_y f(x, y)$

This is known as weak duality. In certain circumstances, you have also have strong duality (also known as the saddle point property):

max_{y} min_{x} f (x, y) = min_{x} max_{y} f (x, y)

$\max_y \min_x f(x, y) = \min_x \max_y f(x, y)$

When strong duality holds, solving the dual problem also solves the primal problem. They're in a sense the same problem!

Lagrangian for constrained Ridge Regression

Let me define the function $\mathcal{L}$ as:

L (b, λ) = \sum_{i = 1}^{n} (y - x_{i} \cdot b)^{2} + λ (\sum_{j = 1}^{p} b_{j}^{2} - t)

$\mathcal{L}(\mathbf{b}, \lambda) = \sum_{i=1}^n (y - \mathbf{x}_i \cdot \mathbf{b})^2 + \lambda \left( \sum_{j=1}^p b_j^2 - t \right)$

The min-max interpretation of the Lagrangian

The Ridge regression problem subject to hard constraints is:

min_{b} max_{λ \geq 0} L (b, λ)

$\min_\mathbf{b} \max_{\lambda \geq 0} \mathcal{L}(\mathbf{b}, \lambda)$

$\mathbf{b}$ $\mathbf{b}$ $\lambda$ $\mathbf{b}$ such that $\sum_{j=1}^p b_j^2 > t$ .

If strong duality holds (which it does here because Slater's condition is satisfied for $t>0$ ), you then achieve the same result by reversing the order:

max_{λ \geq 0} min_{b} L (b, λ)

$\max_{\lambda \geq 0} \min_\mathbf{b} \mathcal{L}(\mathbf{b}, \lambda)$

Here, your opponent chooses $\lambda$ first! You then choose $\mathbf{b}$ to minimize the objective, already knowing their choice of $\lambda$ . The $\min_\mathbf{b} \mathcal{L}(\mathbf{b}, \lambda)$ part (taken $\lambda$ as given) is equivalent to the 2nd form of your Ridge Regression problem.

As you can see, this isn't a result particular to Ridge regression. It is a broader concept.

References

(I started this post following an exposition I read from Rockafellar.)

Rockafellar, R.T., Convex Analysis

You might also examine lectures 7 and lecture 8 from Prof. Stephen Boyd's course on convex optimization.

— Matthew Gunn
সূত্র

note that your answer can be extended to any convex function.

— 81235

6

They are not equivalent.

For a constrained minimization problem

\begin{matrix} (1) & min_{b} \sum_{i = 1}^{n} (y - x_{i}^{'} \cdot b)^{2} s . t . \sum_{j = 1}^{p} b_{j}^{2} \leq t, b = (b_{1}, . . ., b_{p}) \end{matrix}

$\min_{\mathbf b} \sum_{i=1}^n (y - \mathbf{x}'_i \cdot \mathbf{b})^2\\ s.t. \sum_{j=1}^p b_j^2 \leq t,\;\;\; \mathbf b = (b_1,...,b_p) \tag{1}$

we solve by minimize over $\mathbf b$ the corresponding Lagrangean

\begin{matrix} (2) & Λ = \sum_{i = 1}^{n} (y - x_{i}^{'} \cdot b)^{2} + λ (\sum_{j = 1}^{p} b_{j}^{2} - t) \end{matrix}

$\Lambda = \sum_{i=1}^n (y - \mathbf{x}'_i \cdot \mathbf{b})^2 + \lambda \left( \sum_{j=1}^p b_j^2 - t \right) \tag{2}$

Here, $t$ is a bound given exogenously, $\lambda \geq 0$ is a Karush-Kuhn-Tucker non-negative multiplier, and both the beta vector and $\lambda$ are to be determined optimally through the minimization procedure given $t$ .

Comparing $(2)$ and eq $(3.41)$ in the OP's post, it appears that the Ridge estimator can be obtained as the solution to

\begin{matrix} (3) & min_{b} {Λ + λ t} \end{matrix}

$\min_{\mathbf b}\{\Lambda + \lambda t\} \tag{3}$

Since in $(3)$ the function to be minimized appears to be the Lagrangean of the constrained minimization problem plus a term that does not involve $\mathbf b$ , it would appear that indeed the two approaches are equivalent...

But this is not correct because in the Ridge regression we minimize over $\mathbf b$ given $\lambda >0$ . But, in the lens of the constrained minimization problem, assuming $\lambda >0$ imposes the condition that the constraint is binding, i.e that

\sum_{j = 1}^{p} (b_{j, r i d g e}^{*})^{2} = t

$\sum_{j=1}^p (b^*_{j,ridge})^2 = t$

The general constrained minimization problem allows for $\lambda = 0$ also, and essentially it is a formulation that includes as special cases the basic least-squares estimator ( $\lambda ^*=0$ ) and the Ridge estimator ( $\lambda^* >0$ ).

So the two formulation are not equivalent. Nevertheless, Matthew Gunn's post shows in another and very intuitive way how the two are very closely connected. But duality is not equivalence.

— Alecos Papadopoulos
সূত্র

@MartijnWeterings Thanks for the comment, I have reworked my answer.

— অ্যালেকোস পাপাদোপল্লোস

@MartijnWeterings I do not see what is confusing since the expression written in your comment is exactly the expression I wrote in my reworked post.

— Alecos Papadopoulos

1

এটি ছিল আমার সদ্ব্যবহারের সদৃশ প্রশ্নটি যে সমতাটি আমার কাছে খুব স্বজ্ঞাতভাবে ব্যাখ্যা করা হয়েছিল তা math.stackexchange.com/a/336618/466748 আপনি যে যুক্তিটি দুজনের সমতুল্য না হওয়ার পক্ষে দিচ্ছেন তা আমার কাছে কেবল গৌণ মনে হয় এবং একটি বিষয় সংজ্ঞা (ওপি ব্যবহার করে)

λ \geq 0

$\lambda \geq 0$ পরিবর্তে

λ > 0

$\lambda > 0$ এবং আমরা ঠিক পাশাপাশি সীমাবদ্ধতা যোগ করতে পারে

t < ‖ β^{O L S} ‖_{2}^{2}

$t < \Vert \beta^{OLS} \Vert^2_2$ কেস যেখানে বাদ দিতে

λ = 0

$\lambda=0$ )।

— সেক্সটাস এম্পেরিকাস

@MartijnWeterings When A is a special case of B, A cannot be equivalent to B. And ridge regression is a special case of the general constrained minimization problem, Namely a situation to which we arrive if we constrain further the general problem (like you do in your last comment).

— অ্যালেকোস পাপাদোপল্লো

অবশ্যই আপনি কিছু সীমাবদ্ধ মিনিমাইজেশন সমস্যাটি সংজ্ঞায়িত করতে পারেন যা আরও সাধারণ তবে রিজ রিগ্রেশন (যেমন আপনি কিছু নিয়মিত সমস্যাও সংজ্ঞায়িত করতে পারেন যা রিজ রিগ্রেশন, যেমন নেতিবাচক নেতিবাচক রিজ রিগ্রেশন এর চেয়ে সাধারণ) তবে তারপরে অ-সমতা যেভাবে হয় আপনি সমস্যাটিকে সংজ্ঞায়িত করেছেন এবং সীমিত উপস্থাপনা থেকে ল্যাঙ্গরজিয়ান প্রতিনিধিত্বের পরিবর্তনের কারণে নয়। দুটি রূপকেই বাধা গঠনের / সংজ্ঞা (অ-সাধারণ) এর মধ্যে সমতুল্য হিসাবে দেখা যায় যা রিজ রিগ্রেশন জন্য দরকারী।

— সেক্সটাস এম্পেরিকাস