ব্রিজ পেনাল্টি বনাম ইলাস্টিক নেট নিয়মিতকরণ


22

কিছু শাস্তি ফাংশন এবং অনুমান ভাল যেমন Lasso (যেমন চর্চিত হয়, L1 ) এবং রিজ ( ) এবং কিভাবে এইসব রিগ্রেশনে তুলনা করুন।L2

আমি ব্রিজ পেনাল্টি সম্পর্কে পড়ছি, যা the জেনারেলাইজড পেনাল্টি। এটিকে লাসো-এর সাথে তুলনা করুন, যার এবং রিজকে, সাথে তুলনা করুন, যাতে তাদের বিশেষ কেস তৈরি করে।βjγγ=1γ=2

ওয়েঞ্জিয়াং [ ] লাসো-র সাথে যখন সেতুর পেনাল্টি তুলনা করে , তবে আমি হিসাবে প্রদত্ত এবং রিজ জরিমানার সংমিশ্রণ, ইলাস্টিক নেট নিয়মিতকরণের সাথে তুলনা করতে পারি না I ।γ1Σλ2β2+λ1β1

এটি একটি আকর্ষণীয় প্রশ্ন কারণ ইলাস্টিক নেট এবং এই নির্দিষ্ট সেতুটির সীমাবদ্ধতার রূপ রয়েছে। বিভিন্ন মেট্রিক ব্যবহার করে এই ইউনিট চেনাশোনাগুলির সাথে তুলনা করুন ( মিনকোভস্কি দূরত্বের শক্তি ):p

মিনকভস্কি দূরত্বের বিভিন্ন শক্তির জন্য ইউনিট চেনাশোনাগুলি

p=1 লাসো, রিজের সাথে এবং একটি সম্ভাব্য ব্রিজের সাথে সম্পর্কিত। ইলাস্টিক নেট উপর সমান তৌল দিয়ে তৈরি করা হয়েছিল এবং জরিমানা। এই পরিসংখ্যানগুলি স্পারসিটি সনাক্ত করতে দরকারী, উদাহরণস্বরূপ (যা ব্রিজের স্পষ্টতই অভাব রয়েছে যখন ইলাস্টিক নেট এটি লাসো থেকে সংরক্ষণ করে)।p=2p=1.4L1L2

তাহলে কীভাবে সমেত সেতুটি নিয়মিতকরণ (স্পারসিটি ব্যতীত) সম্পর্কিত ইলাস্টিক নেট এর সাথে তুলনা করে? তত্ত্বাবধানে শেখার ক্ষেত্রে আমার বিশেষ আগ্রহ আছে, তাই সম্ভবত বৈশিষ্ট্য নির্বাচন / ওজন সম্পর্কে আলোচনা প্রাসঙ্গিক। জ্যামিতিক যুক্তিটিও স্বাগত।1<γ<2

সম্ভবত, আরও গুরুত্বপূর্ণ, ইলাস্টিক নেট এই ক্ষেত্রে সর্বদা আরও আকাঙ্ক্ষিত?


[1] ফু, ডব্লিউজে (1998) পেনালাইজড রিগ্রেশনস: ব্রিজ বনাম লাসো। গণনা এবং গ্রাফিকাল পরিসংখ্যান জার্নাল, 7 (3), 397-416।


সম্পাদনা: এই প্রশ্নটি রয়েছে যে কোন জরিমানার ব্যবস্থা ব্যবহার করবেন তা কীভাবে সিদ্ধান্ত নেবেন? পাঠ্যপুস্তকের বাইরে যে কোনও সাধারণ নির্দেশিকা বা থাম্ব নিয়ম রয়েছে যা লাফসো, রিজ, ব্রিজ এবং ইলাস্টিক নেট উল্লেখযোগ্যভাবে উল্লেখ করেছে, কিন্তু সেগুলির তুলনা করার কোনও চেষ্টা নেই।


4
কেবলমাত্র স্পর্শকাতরভাবে সম্পর্কিত, তবে যদি আদর্শ জরিমানাটি সহগের উপর স্বতন্ত্র ল্যাপ্লেস প্রিয়ারগুলির সাথে কোনও বয়েসিয়ান রিগ্রেশনের এমএপি অনুমান হয় এবং এল 2 গাউসীয় প্রিরিয়ারদের জন্য সমান হয় তবে আমি অবাক হয়েছি যে সেতুটি পেনাল্টিটি আগে সাববোটিনের সমতুল্য কিনা। .. stats.stackexchange.com/questions/201038/…L1L2
সাইকোরাক্স মনিকাকে

@ রিচার্ড হার্ডি সমস্ত রাজধানীতে লাসো লেখার দরকার নেই, আমার মন্তব্যটি এখানে দেখুন
অ্যামিবা বলছেন

2
মনে রাখবেন যে ব্রিজ রিগ্রেশন জন্য মঞ্জুরি দেয় যা একটি নন-কনভেক্স রিগ্রেশন দেয়। বিশেষত স্পার্স ডেটা থেকে কোভারিয়েটগুলির গোষ্ঠীগুলি নির্বাচন করার চেষ্টা করার সময় এটি বিশেষত দুর্দান্ত are বা সাধারণভাবে আপনার কাছে কোভারিয়েটগুলির পূর্বনির্ধারিত গোষ্ঠী থাকতে পারে, যা আপনি এল 2 নিয়মিত করতে চান যাতে কোনও নির্দিষ্ট গ্রুপ বড় না হয় এবং তারপরে স্পষ্টতা অর্জনের জন্য L 1 একক গ্রুপ সহগকে নিয়মিত করে দেয় ula অর্থাত্ যদি আপনি লিখতে β = ( একটি 1 , , একটি ) , যেখানে একটি আমি = ( β আমি 1 , আমিγ<1L2L1β=(a1,,ak)তারপর আপনি কাজ করতে পারেλ1β γ আমি + +λ2Σআমিএকটিআমি ν আমিai=(βi1,βi2,,,βir)λ1βγi+λ2iaiνi
অ্যালেক্স আর।

@AlexR। আমি আসলে এটা পরিষ্কার আমি পড়ুন করা উচিত । আমি জানতাম না γ < 1 এছাড়াও সেতু ডাকা হয়। γ1γ<1
ফায়ারব্যাগ

1
@ আমেবা, ঠিক আছে, ঠিক আছে। আমি সাধারণত সম্পাদনা করি না যদি রাজধানীর ব্যবহার পুরো পোস্ট জুড়ে সামঞ্জস্যপূর্ণ হয় তবে এবার "লাসো" এবং "লাসো" উভয়ই ছিল, তাই আমি কেবল "লাসো" এর জন্য গিয়েছিলাম যা পোস্টের প্রথম রূপ ছিল। আমি সর্বদা সংক্ষিপ্ত বিবরণ সম্পর্কে চিন্তা করি, এজন্য আমি সমস্ত রাজধানী ব্যবহার করেছি; তবে আপনি যেমনটি বলেছেন, সাধারণ "লাসো" আরও ভাল হতে পারে।
রিচার্ড হার্ডি

উত্তর:


20

ব্রিজ রিগ্রেশন এবং ইলাস্টিক নেট কীভাবে পৃথক হয় তা আকর্ষণীয় প্রশ্ন, তাদের অনুরূপ দেখতে পেনাল্টি দেওয়া। এখানে একটি সম্ভাব্য পন্থা। মনে করুন আমরা ব্রিজ রিগ্রেশন সমস্যাটি সমাধান করি। এরপরে আমরা জিজ্ঞাসা করতে পারি যে স্থিতিস্থাপক নেট সমাধানটি কীভাবে পৃথক হবে। দুটি ক্ষতির ক্রিয়াকলাপগুলির গ্রেডিয়েন্টগুলি দেখানো আমাদের এ সম্পর্কে কিছু বলতে পারে।

ব্রিজ রিগ্রেশন

বলুন হ'ল একটি ম্যাট্রিক্স যা পৃথক ভেরিয়েবলের ( এন পয়েন্টস x ডি ডাইমেনশন) এর মান রয়েছে , y নির্ভরশীল ভেরিয়েবলের মান সমেত একটি ভেক্টর এবং ডাব্লু ওয়েট ভেক্টর।Xndyw

ক্ষতি ফাংশন penalizes ওজন আদর্শ, মাত্রার সঙ্গে λ :qλb

Lb(w)=yXw22+λbwqq

ক্ষতির ফাংশনের গ্রেডিয়েন্টটি হ'ল:

wLb(w)=2XT(yXw)+λbq|w|(q1)sgn(w)

হাদামারডকে (অর্থাৎ উপাদান অনুসারে) শক্তি বোঝায়, যা এমন ভেক্টর দেয় যার i ম এলিমেন্টটি v c iSGN ( W ) চিহ্ন ফাংশন (প্রতিটি উপাদান প্রয়োগ করা হয় W )। গ্রেডিয়েন্ট Q এর কিছু মানের জন্য শূন্যে অপরিজ্ঞাত হতে পারে।vcivicsgn(w)wq

ইলাস্টিক নেট

ক্ষতির ফাংশনটি হ'ল:

Le(w)=yXw22+λ1w1+λ2w22

এই penalizes মাত্রার সঙ্গে ওজন আদর্শ λ 1 এবং 2 মাত্রার সঙ্গে আদর্শ λ 2 । ইলাস্টিক নেট পেপারটি এই ক্ষতির ফাংশনটি হ্রাস করতে বলে '' নিষ্পাপ ইলাস্টিক নেট 'কারণ এটি দ্বিগুণভাবে ওজনকে সঙ্কুচিত করে। তারা একটি উন্নত পদ্ধতি বর্ণনা করে যেখানে ডাবল সংকোচনের জন্য ক্ষতিপূরণ দিতে ওজনগুলি পরে পুনরুদ্ধার করা হয়, তবে আমি কেবল নিষ্পাপ সংস্করণটি বিশ্লেষণ করতে যাচ্ছি। এটা মনে রাখা একটি সতর্কতা।1λ12λ2

ক্ষতির ফাংশনের গ্রেডিয়েন্টটি হ'ল:

wLe(w)=2XT(yXw)+λ1sgn(w)+2λ2w

গ্রেডিয়েন্টটি শূন্যের সাথে হয় যখন λ 1 > 0 হয় কারণ 1 জরিমানার মধ্যে পরম মান সেখানে পার্থক্যযোগ্য নয়।λ1>01

অভিগমন

আমরা ওজন নির্বাচন বলুন যে সেতু রিগ্রেশন সমস্যা সমাধানের জন্য। এর অর্থ ব্রিজের রিগ্রেশন গ্রেডিয়েন্টটি এই সময়ে শূন্য:w

wLb(w)=2XT(yXw)+λbq|w|(q1)sgn(w)=0

অতএব:

2XT(yXw)=λbq|w|(q1)sgn(w)

আমরা ইলাস্টিক নেট গ্রেডিয়েন্ট এই প্রতিস্থাপন করতে পারেন, এ ইলাস্টিক নেট গ্রেডিয়েন্ট জন্য একটি মান পেতে । ভাগ্যক্রমে, এটি আর সরাসরি ডেটার উপর নির্ভর করে না:w

wLe(w)=λ1sgn(w)+2λ2wλbq|w|(q1)sgn(w)

এ ইলাস্টিক নেট গ্রেডিয়েন্ট এ খুঁজছি আমাদের বলে: প্রদত্ত যে সেতু রিগ্রেশন ওজন করার converged করেছে W * , কিভাবে এই ওজন পরিবর্তন করতে ইলাস্টিক নেট চাইবে?ww

এটি আমাদের স্থানীয় দিক এবং পছন্দসই পরিবর্তনের প্রবণতা দেয় কারণ গ্রেডিয়েন্টের বিপরীত দিকের দিকে অগ্রসর হওয়ার সাথে সাথে খাড়া asর্ধ্বগতির দিকের গ্রেডিয়েন্ট পয়েন্টগুলি এবং ক্ষতির ক্রিয়াটি হ্রাস পাবে। গ্রেডিয়েন্টটি সম্ভবত ইলাস্টিক নেট সমাধানের দিকে সরাসরি নির্দেশ না করে। তবে, যেহেতু ইলাস্টিক নেট লোকসান ফাংশন উত্তল, স্থানীয় দিক / মাত্রা সেতুটি রিগ্রেশন সলিউশন থেকে স্থিতিস্থাপক নেট সমাধানটি কীভাবে পৃথক হবে সে সম্পর্কে কিছু তথ্য দেয় ।

কেস 1: স্যানিটি চেক

( )। এই ক্ষেত্রে ব্রিজ রিগ্রেশন সাধারণ ন্যূনতম স্কোয়ারের (ওএলএস) সমতুল্য, কারণ পেনাল্টির পরিমাণটি শূন্য। ইলাস্টিক নেটটি সমতুল্য রিজ রিগ্রেশন, কারণ শুধুমাত্র 2 র আদর্শকে শাস্তি দেওয়া হয়। নিম্নলিখিত প্লটগুলি বিভিন্ন ব্রিজের রিগ্রেশন সলিউশন এবং প্রতিটিটির জন্য স্থিতিস্থাপক নেট গ্রেডিয়েন্ট কীভাবে আচরণ করে তা দেখায়।λb=0,λ1=0,λ2=12

enter image description here

বাম চক্রান্ত: প্রতিটি মাত্রা সহ ইলাস্টিক নেট গ্রেডিয়েন্ট বনাম ব্রিজ রিগ্রেশন ওজন

X অক্ষ ওজন একটি সেটের এক উপাদান প্রতিনিধিত্ব করে সেতু রিগ্রেশন দ্বারা নির্বাচিত। Y অক্ষের ইলাস্টিক নেট গ্রেডিয়েন্টের সংশ্লিষ্ট কম্পোনেন্ট এ মূল্যায়ন প্রতিনিধিত্ব করে W * । নোট করুন যে ওজনগুলি বহুমাত্রিক, তবে আমরা কেবলমাত্র একক মাত্রার সাথে ওজন / গ্রেডিয়েন্টটি দেখছি।ww

ডান চক্রান্ত: ব্রিজ রিগ্রেশন ওজনে স্থিতিশীল নেট পরিবর্তন (2 ডি)

প্রতিটি বিন্দু 2d ওজন একটি সেট প্রতিনিধিত্ব করে সেতু রিগ্রেশন দ্বারা নির্বাচিত। প্রতিটি পছন্দ জন্য W * একটি ভেক্টর ইলাস্টিক নেট গ্রেডিয়েন্ট বিপরীত দিকে ইশারা অঙ্কিত হয়, মাত্রার গ্রেডিয়েন্ট যে সমানুপাতিক সঙ্গে। এটি হ'ল প্লট করা ভেক্টরগুলি দেখায় যে ইলাস্টিক নেট কীভাবে ব্রিজ রিগ্রেশন সলিউশন পরিবর্তন করতে চায়।ww

এই প্লটগুলি দেখায় যে ব্রিজ রিগ্রেশন (এই ক্ষেত্রে ওএলএস) এর সাথে তুলনা করে ইলাস্টিক নেট (এই ক্ষেত্রে রিজ রিগ্রেশন) শূন্যের দিকে ওজন সঙ্কুচিত করতে চায়। ওজনের परिमाणের সাথে কাঙ্ক্ষিত পরিমাণ সঙ্কুচিত হয় increases ওজন যদি শূন্য হয় তবে সমাধানগুলি একই। ব্যাখ্যাটি হ'ল আমরা ক্ষতির ক্রিয়াটি হ্রাস করতে গ্রেডিয়েন্টের বিপরীত দিকে যেতে চাই। উদাহরণস্বরূপ, বলুন ব্রিজ রিগ্রেশন ওজনগুলির মধ্যে একটির জন্য ইতিবাচক মানে রূপান্তরিত হয়েছিল। ইলাস্টিক নেট গ্রেডিয়েন্ট এই মুহুর্তে ইতিবাচক, তাই ইলাস্টিক নেট এই ওজন হ্রাস করতে চায়। গ্রেডিয়েন্ট বংশোদ্ভুত ব্যবহার করে, আমরা আকারে আনুপাতিক পদক্ষেপগুলি গ্রেডিয়েন্টের কাছে নিয়ে যাব (অবশ্যই, আমরা শূন্যের অবিচ্ছিন্নতার কারণে স্থিতিস্থাপক জাল সমাধানের জন্য প্রযুক্তিগতভাবে গ্রেডিয়েন্ট বংশদ্ভুত ব্যবহার করতে পারি না,

কেস 2: মিলিত ব্রিজ এবং ইলাস্টিক নেট

q=1.4,λb=1,λ1=0.629,λ2=0.355

minλ1,λ2E[(λ1w1+λ2w22λbwqq)2]

এখানে, আমি এ ইউনিফর্ম বিতরণ থেকে আইডিতে আঁকা সমস্ত এন্ট্রি সহ ওজন বিবেচনা করেছি[2,2] (i.e. within a hypercube centered at the origin). The best-matching elastic net parameters were similar for 2 to 1000 dimensions. Although they don't appear to be sensitive to the dimensionality, the best-matching parameters do depend on the scale of the distribution.

Penalty surface

Here's a contour plot of the total penalty imposed by bridge regression (q=1.4,λb=100) and best-matching elastic net (λ1=0.629,λ2=0.355) as a function of the weights (for the 2d case):

enter image description here

Gradient behavior

enter image description here

We can see the following:

  • Let wj be the chosen bridge regression weight along dimension j.
  • If |wj|<0.25, elastic net wants to shrink the weight toward zero.
  • If |wj|0.25, the bridge regression and elastic net solutions are the same. But, elastic net wants to move away if the weight differs even slightly.
  • If 0.25<|wj|<1.31, elastic net wants to grow the weight.
  • If |wj|1.31, the bridge regression and elastic net solutions are the same. Elastic net wants to move toward this point from nearby weights.
  • If |wj|>1.31, elastic net wants to shrink the weight.

The results are qualitatively similar if we change the the value of q and/or λb and find the corresponding best λ1,λ2. The points where the bridge and elastic net solutions coincide change slightly, but the behavior of the gradients are otherwise similar.

Case 3: Mismatched bridge & elastic net

(q=1.8,λb=1,λ1=0.765,λ2=0.225). In this regime, bridge regression behaves similar to ridge regression. I found the best-matching λ1,λ2, but then swapped them so that the elastic net behaves more like lasso (1 penalty greater than 2 penalty).

enter image description here

Relative to bridge regression, elastic net wants to shrink small weights toward zero and increase larger weights. There's a single set of weights in each quadrant where the bridge regression and elastic net solutions coincide, but elastic net wants to move away from this point if the weights differ even slightly.

(q=1.2,λb=1,λ1=173,λ2=0.816). In this regime, the bridge penalty is more similar to an 1 penalty (although bridge regression may not produce sparse solutions with q>1, as mentioned in the elastic net paper). I found the best-matching λ1,λ2, but then swapped them so that the elastic net behaves more like ridge regression (2 penalty greater than 1 penalty).

enter image description here

Relative to bridge regression, elastic net wants to grow small weights and shrink larger weights. There's a point in each quadrant where the bridge regression and elastic net solutions coincide, and elastic net wants to move toward these weights from neighboring points.


3
(+1) Great answer, thanks for the effort! Could you address one last thing: "is the Elastic Net always more desirable?". No need to be lengthy;
Firebug

6
Bridge regression and elastic net are equivalent to MAP estimation with different kinds of priors on the weights. From this perspective, it seems like the better choice would be the prior that better matches the data-generating process, and that neither method could be better in all cases.
user20160

2
+6, very nice answer. Regarding your above comment: what prior yields bridge regression? I know that Gaussian prior corresponds to ridge and Laplace prior to lasso. Can one somehow combine these priors to get something that corresponds to elastic net?
amoeba says Reinstate Monica

2
@amoeba The question wasn't directed to me, I know, but as GeneralAbrial said in the question, bridge probably corresponds to a Subbotin prior. Elastic net, as expected, is between Gaussian and Laplacian priors. See Li, Q., & Lin, N. (2010). The Bayesian elastic net. Bayesian Analysis, 5(1), 151-170. and Zou, H., & Hastie, T. (2005). Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 67(2), 301-320. for a brief comparison between elastic net and bridge regression.
Firebug

2
@amoeba thanks for the bounty and drawing attention to this post, likewise for the other post about PCA vs. nonlinear dimensionality reduction. It's admirable that you use your rep to promote others' questions/answers, and it makes me glad if this post is at least of some small value to people. Others, thanks too for the kind words.
user20160
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.