রিজ রিগ্রেশন সমতুল্য সূত্রগুলির প্রমাণ


15

আমি পরিসংখ্যান শেখার সর্বাধিক জনপ্রিয় বইগুলি পড়েছি

1- পরিসংখ্যানগত শিক্ষার উপাদানসমূহ।

2- পরিসংখ্যান শেখার একটি ভূমিকা

উভয়ই উল্লেখ করেছেন যে রিজ রিগ্রেশনটির দুটি সূত্র সমতুল্য। এই ফলাফলের কোন বোধগম্য গাণিতিক প্রমাণ আছে?

আমি ক্রস ভ্যালিডেটেড দিয়েও গিয়েছিলাম , তবে আমি সেখানে কোনও সুনির্দিষ্ট প্রমাণ পাই না।

তদুপরি, লাসো কি একই ধরণের প্রমাণ উপভোগ করবে?

এখানে চিত্র বর্ণনা লিখুন



1
লাসো রিজ রিগ্রেশনের কোনও রূপ নয়।
শি'আন

@ জেজা, আপনি কি উত্তর দিতে পারবেন আমার উত্তরে? এটি সত্যই সংযুক্তি সম্পর্কে সমস্ত প্রাপ্ত হতে পারে ives
রই

@ জিজা, আপনি নির্দিষ্ট হতে পারেন? সীমাবদ্ধ সমস্যার জন্য ল্যাঙ্গরজিয়ামের ধারণাটি না জানলে একটি সংক্ষিপ্ত উত্তর দেওয়া শক্ত।
রই

1
@ জেজা, একটি সীমাবদ্ধ অপ্টিমাইজেশান সমস্যাটি ল্যাঙ্গরজিয়ান ফাংশন / কেকেটি অবস্থার (বর্তমান উত্তরে বর্ণিত হিসাবে) অনুকূলকরণে রূপান্তরিত হতে পারে। এই নীতিটির পুরো ইন্টারনেটে ইতিমধ্যে অনেকগুলি সহজ সরল ব্যাখ্যা রয়েছে। প্রমাণের আরও ব্যাখ্যাটি কোন দিকে প্রয়োজন? লাগরজিয়ান গুণক / ফাংশনের ব্যাখ্যা / প্রমাণ, ব্যাখ্যা / প্রমাণ কীভাবে এই সমস্যাটি অপ্টিমাইজেশনের একটি ক্ষেত্রে যা ল্যাঞ্জর্জের পদ্ধতি, পার্থক্য কেকেটি / ল্যাংরেঞ্জ, নিয়মিতকরণের নীতির ব্যাখ্যা ইত্যাদির সাথে সম্পর্কিত?
সেক্সটাস এম্পেরিকাস

উত্তর:


19

ক্লাসিক রিজ রিগ্রেশন ( টিখনভ নিয়ন্ত্রককরণ ) এর দ্বারা দেওয়া হয়েছে:

argminx12xy22+λx22

উপরের দাবিটি হ'ল নিম্নলিখিত সমস্যাটি সমতুল্য:

argminx12xy22subject tox22t

আসুন সংজ্ঞায়িত এক্স প্রথম সমস্যার সন্তোষজনক সমাধান এবং ~ X দ্বিতীয় সমস্যা সন্তোষজনক সমাধান হিসাবে।x^x~

সমতা দাবি করার অর্থ t,λ0:x^=x~
যথা আপনার কাছে সর্বদা এক জোড়াt এবংλ0 পারে সমস্যার সমাধানটি একই।

কীভাবে আমরা একটি জুড়ি খুঁজে পেতে পারি?
ঠিক আছে, সমস্যাগুলি সমাধান করে এবং সমাধানের বৈশিষ্ট্যগুলি দেখে।
উভয় সমস্যা উত্তল এবং মসৃণ তাই এটি জিনিস সহজতর করা উচিত।

প্রথম সমস্যার সমাধানটি সেই বিন্দুতে দেওয়া হয় যে বিন্দুতে গ্রেডিয়েন্টটি নিখোঁজ হয় যার অর্থ:

x^y+2λx^=0

Kkt শর্তাবলী দ্বিতীয় সমস্যা রাজ্যের:

এক্স~-Y+ +2μএক্স~=0

এবং

μ(x~22t)=0

শেষ সমীকরণটি পরামর্শ দেয় যে হয় μ=0 বা x~22=t

মনোযোগ দিন যে 2 বেস সমীকরণ সমতুল্য।
যেমন যদি এক্স = ~ X এবং μ = λ উভয় সমীকরণ ধরে রাখুন। x^=x~μ=λ

সুতরাং এটি এর মানে হল যে ক্ষেত্রে y22t এক আবশ্যক সেট μ=0 যার মানে জন্য t বৃহৎ যথেষ্ট উভয়ই হতে সমতূল্য এক আবশ্যক সেট অনুক্রমে λ=0

অন্যান্য ক্ষেত্রে উপর এক হবে μ যেখানে:

yt(I+2μI)1(I+2μI)1y=t

এটি মূলত যখন x~22=t

একবার আপনি খুঁজে পাবেন যে μ সমাধানগুলির সংঘর্ষ হবে।

সংক্রান্ত L1 (Lasso) মামলা, ভাল, এটি একই ধারণা সঙ্গে কাজ করে।
পার্থক্যটি কেবলমাত্র আমরা সমাধানের জন্য বন্ধ করি নি তাই সংযোগ আটকানো আরও জটিল।

আমার উত্তর কটাক্ষপাত আছে StackExchange ক্রস যাচাই Q291962 এবং তাত্পর্য - StackExchange সিগন্যাল প্রসেসিং Q21730 λ বেসিস সাধনা

মন্তব্য
আসলে কি ঘটছে?
উভয় সমস্যার সালে x চেষ্টা যতটা সম্ভব ঘনিষ্ঠ হিসেবে হতে y
প্রথম ক্ষেত্রে, x=y প্রথম পদটি ( L2 দূরত্ব) অদৃশ্য হয়ে যাবে এবং দ্বিতীয় ক্ষেত্রে এটি উদ্দেশ্যমূলক কার্যটি বিলুপ্ত করবে।
পার্থক্য হল যে প্রথম ক্ষেত্রে এক সামঞ্জস্য বজায় রাখা আবশ্যক L2 নর্ম এর x । হিসাবে λ উচ্চতর ভারসাম্য উপায়ে পায় আপনি করা উচিত x ছোট করা হয়েছে।
দ্বিতীয় ক্ষেত্রে একটি প্রাচীর রয়েছে, আপনি x কাছাকাছি এবং y এর কাছাকাছি আনবেনyযতক্ষণ না আপনি প্রাচীরকে আঘাত করেন যা এটির আদর্শের ( t ) দ্বারা সীমাবদ্ধ ।
প্রাচীর খুব বেশী কথা (উচ্চ মান হয়, তাহলে t ) এবং যথেষ্ট আদর্শ উপর নির্ভর করে y তারপর আমি ঠিক কোন অর্থ আছে, λ শুধুমাত্র আদর্শ দ্বারা গুন এর মান প্রাসঙ্গিক y অর্থপূর্ণ হতে শুরু হয়।
সঠিক সংযোগটি উপরে বর্ণিত ল্যাঙ্গরজিয়ান দ্বারা।

সম্পদ

আমি আজ এই কাগজটি পেয়েছি (03/04/2019):


সমতুল্যর অর্থ কি \ ল্যাম্বদা এবং \ টি একই হওয়া উচিত। কারণ আমি প্রুফ এ দেখতে পাচ্ছি না। ধন্যবাদ
জাজা

@jeza হিসেবে আমি উপরের লিখেছিলেন, কোন আছে λ 0 (অগত্যা না সমান টন কিন্তু একটি ফাংশন টি এবং ডেটা Y ) যেমন যে দুই ফর্ম সমাধান একই। tλ0tty
রয়ি

3
@jeza, উভয় & T মূলত বিনামূল্যে পরামিতি এখানে আছে। একবার আপনি নির্দিষ্ট করুন, বলুন, λ , এটি একটি নির্দিষ্ট অনুকূল সমাধান দেয়। তবে টি একটি মুক্ত প্যারামিটার হিসাবে রয়ে গেছে। সুতরাং এই মুহুর্তে দাবিটি হ'ল টি এর কিছু মান থাকতে পারে যা একই সর্বোত্তম সমাধান দেয়। মূলত সেই টিটি কী হবে তা নিয়ে মূলত কোনও বাধা নেই ; এটি not এর কিছু স্থির ফাংশন যেমন টি = λ / 2 বা কোনও কিছুর মতো হওয়া উচিত নয়। λtλtttλt=λ/2
গুং - মনিকা পুনরায়

@ রয়ী, আমি জানতে চাই 1- আপনার সূত্রটি কেন (1/2) রয়েছে, যদিও সূত্রগুলি প্রশ্নবিদ্ধ নয়? 2- দুটি সূত্রের সমতা দেখানোর জন্য কেকেটি ব্যবহার করছেন? 3- হ্যাঁ, আমি এখনও এই সমতা দেখতে পাচ্ছি না। আমি নিশ্চিত নই তবে আমি যা দেখতে প্রত্যাশা করি তা হ'ল সেই সূত্রটি এক = সূত্র দুটি দেখানোর প্রমাণ।
জেজা

1. আপনি যখন এলএস শব্দটির পার্থক্য করেন ঠিক তখনই সহজ। তুমি আমার গঠন স্থানান্তর করতে পারেন ওপি করার λ দুই গুণক দ্বারা। ২. আমি ২ য় ক্ষেত্রে কেকেটি ব্যবহার করেছি। প্রথম ক্ষেত্রে কোনও বাধা নেই, তাই আপনি কেবল এটি সমাধান করতে পারেন। ৩. তাদের মধ্যে কোনও বদ্ধ ফর্ম সমীকরণ নেই। আমি যুক্তি দেখিয়েছি এবং কীভাবে আপনি তাদের সংযোগকারী একটি গ্রাফ তৈরি করতে পারেন। তবে আমি যেমন লিখেছি এটি প্রতিটি y এর জন্য পরিবর্তিত হবে (এটি ডেটা নির্ভর dependent λλy
রায়য়

9

অল্প গাণিতিকভাবে কঠোর, তবে সম্ভবত আরও স্বজ্ঞাত, কী চলছে তা বোঝার পদ্ধতির সীমাবদ্ধতা সংস্করণ (প্রশ্নটির সমীকরণ 3.2) দিয়ে শুরু করা এবং "ল্যাংরেঞ্জ মাল্টিপ্লায়ার" ( https: //en.wikedia ) এর পদ্ধতি ব্যবহার করে সমাধান করা ipedia .org / wiki / ল্যাঞ্জারেঞ্জ_ মাল্টিপ্লায়ার বা আপনার প্রিয় মাল্টিভারিয়াল ক্যালকুলাস পাঠ্য)। কেবল মনে রাখবেন ক্যালকুলাসে হল ভেরিয়েবলের ভেক্টর, তবে আমাদের ক্ষেত্রে x ধ্রুবক এবং β হল ভেরিয়েবল ভেক্টর। একবার আপনি ল্যাঞ্জরেঞ্জ গুণক প্রযুক্তি প্রয়োগ করার পরে আপনি প্রথম সমীকরণটি শেষ করেন (3.41) (অতিরিক্ত - λ t যা নূন্যতমের সাথে সামঞ্জস্যপূর্ণ এবং উপেক্ষা করা যায়) দিয়ে শেষ করে withxxβλt

এটিও দেখায় যে এটি লাসো এবং অন্যান্য সীমাবদ্ধতার জন্য কাজ করে।


8

লাগরজিয়ান দ্বৈততা এবং এর মধ্যে একটি বিস্তৃত সম্পর্ক (কখনও কখনও সমতুল্য) সম্পর্কে পড়ার পক্ষে এটি মূল্যবান:

  • অপ্টিমাইজেশন কঠোর (যেমন অদম্য) বাধা to
  • সীমাবদ্ধতা লঙ্ঘনের জন্য জরিমানার সাথে অপ্টিমাইজেশন।

দুর্বল দ্বৈত এবং দৃ strong় দ্বৈততে দ্রুত পরিচয়

ধরুন আমাদের দুটি ভেরিয়েবলের কিছু ফাংশন রয়েছে। কোন এক্স এবং ওয়াই , আমরা আছে:f(x,y)x^y^

minxf(x,y^)f(x^,y^)maxyf(x^,y)

যেহেতু যে কোনো জন্য ঝুলিতে এক্স এবং ওয়াই এটি যে ঝুলিতে:x^y^

maxyminxf(x,y)minxmaxyf(x,y)

This is known as weak duality. In certain circumstances, you have also have strong duality (also known as the saddle point property):

maxyminxf(x,y)=minxmaxyf(x,y)

When strong duality holds, solving the dual problem also solves the primal problem. They're in a sense the same problem!

Lagrangian for constrained Ridge Regression

Let me define the function L as:

L(b,λ)=i=1n(yxib)2+λ(j=1pbj2t)

The min-max interpretation of the Lagrangian

The Ridge regression problem subject to hard constraints is:

minbmaxλ0L(b,λ)

bbλb such that j=1pbj2>t.

If strong duality holds (which it does here because Slater's condition is satisfied for t>0), you then achieve the same result by reversing the order:

maxλ0minbL(b,λ)

Here, your opponent chooses λ first! You then choose b to minimize the objective, already knowing their choice of λ. The minbL(b,λ) part (taken λ as given) is equivalent to the 2nd form of your Ridge Regression problem.

As you can see, this isn't a result particular to Ridge regression. It is a broader concept.

References

(I started this post following an exposition I read from Rockafellar.)

Rockafellar, R.T., Convex Analysis

You might also examine lectures 7 and lecture 8 from Prof. Stephen Boyd's course on convex optimization.


note that your answer can be extended to any convex function.
81235

6

They are not equivalent.

For a constrained minimization problem

(1)minbi=1n(yxib)2s.t.j=1pbj2t,b=(b1,...,bp)

we solve by minimize over b the corresponding Lagrangean

(2)Λ=i=1n(yxib)2+λ(j=1pbj2t)

Here, t is a bound given exogenously, λ0 is a Karush-Kuhn-Tucker non-negative multiplier, and both the beta vector and λ are to be determined optimally through the minimization procedure given t.

Comparing (2) and eq (3.41) in the OP's post, it appears that the Ridge estimator can be obtained as the solution to

(3)minb{Λ+λt}

Since in (3) the function to be minimized appears to be the Lagrangean of the constrained minimization problem plus a term that does not involve b, it would appear that indeed the two approaches are equivalent...

But this is not correct because in the Ridge regression we minimize over b given λ>0. But, in the lens of the constrained minimization problem, assuming λ>0 imposes the condition that the constraint is binding, i.e that

j=1p(bj,ridge)2=t

The general constrained minimization problem allows for λ=0 also, and essentially it is a formulation that includes as special cases the basic least-squares estimator (λ=0) and the Ridge estimator (λ>0).

So the two formulation are not equivalent. Nevertheless, Matthew Gunn's post shows in another and very intuitive way how the two are very closely connected. But duality is not equivalence.


@MartijnWeterings Thanks for the comment, I have reworked my answer.
অ্যালেকোস পাপাদোপল্লোস

@MartijnWeterings I do not see what is confusing since the expression written in your comment is exactly the expression I wrote in my reworked post.
Alecos Papadopoulos

1
এটি ছিল আমার সদ্ব্যবহারের সদৃশ প্রশ্নটি যে সমতাটি আমার কাছে খুব স্বজ্ঞাতভাবে ব্যাখ্যা করা হয়েছিল তা math.stackexchange.com/a/336618/466748 আপনি যে যুক্তিটি দুজনের সমতুল্য না হওয়ার পক্ষে দিচ্ছেন তা আমার কাছে কেবল গৌণ মনে হয় এবং একটি বিষয় সংজ্ঞা (ওপি ব্যবহার করে)λ0 পরিবর্তে λ>0 এবং আমরা ঠিক পাশাপাশি সীমাবদ্ধতা যোগ করতে পারে টি<βহেএলএস22 কেস যেখানে বাদ দিতে λ=0)।
সেক্সটাস এম্পেরিকাস

@MartijnWeterings When A is a special case of B, A cannot be equivalent to B. And ridge regression is a special case of the general constrained minimization problem, Namely a situation to which we arrive if we constrain further the general problem (like you do in your last comment).
অ্যালেকোস পাপাদোপল্লো

অবশ্যই আপনি কিছু সীমাবদ্ধ মিনিমাইজেশন সমস্যাটি সংজ্ঞায়িত করতে পারেন যা আরও সাধারণ তবে রিজ রিগ্রেশন (যেমন আপনি কিছু নিয়মিত সমস্যাও সংজ্ঞায়িত করতে পারেন যা রিজ রিগ্রেশন, যেমন নেতিবাচক নেতিবাচক রিজ রিগ্রেশন এর চেয়ে সাধারণ) তবে তারপরে অ-সমতা যেভাবে হয় আপনি সমস্যাটিকে সংজ্ঞায়িত করেছেন এবং সীমিত উপস্থাপনা থেকে ল্যাঙ্গরজিয়ান প্রতিনিধিত্বের পরিবর্তনের কারণে নয়। দুটি রূপকেই বাধা গঠনের / সংজ্ঞা (অ-সাধারণ) এর মধ্যে সমতুল্য হিসাবে দেখা যায় যা রিজ রিগ্রেশন জন্য দরকারী।
সেক্সটাস এম্পেরিকাস
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.