রিজ রিগ্রেশন কেন কিছু সহগকে লাসোর মতো শূন্যে সঙ্কুচিত করবে না?


16

লাসো রিগ্রেশন ব্যাখ্যা করার সময়, একটি হীরা এবং বৃত্তের চিত্রটি প্রায়শই ব্যবহৃত হয়। বলা হয়ে থাকে যে লাসোতে সীমাবদ্ধতার আকৃতিটি হীরক হওয়ায় প্রাপ্ত ন্যূনতম স্কোয়ার সমাধানগুলি হীরাটির কোণায় এমনভাবে স্পর্শ করতে পারে যে এটি কিছু পরিবর্তনশীল সঙ্কুচিত হতে পারে। তবে, রিজ রিগ্রেশনে, কারণ এটি একটি বৃত্ত, এটি প্রায়শই অক্ষকে স্পর্শ করবে না। আমি বুঝতে পারি না কেন এটি অক্ষকে স্পর্শ করতে পারে না বা নির্দিষ্ট পরামিতি সঙ্কুচিত করার জন্য লাসোর চেয়ে কম সম্ভাবনা থাকতে পারে। সর্বোপরি, লাসো এবং রিজের সাধারণ ন্যূনতম স্কোয়ারগুলির চেয়ে কম বৈচিত্র কেন? উপরেরটি হ'ল রিজ এবং লাসো সম্পর্কে আমার বোঝা এবং আমি ভুল হতে পারি। এই দুটি প্রতিরোধের পদ্ধতির কেন কম বৈচিত্র রয়েছে তা বুঝতে কেউ আমাকে সহায়তা করতে পারে?



1
ঠিক আছে, গা bold় মধ্যে বৈকল্পিক অংশটি সদৃশ নয়, এই প্রশ্নের কমপক্ষে; সুতরাং সম্ভবত এই প্রশ্নটি ফোকাস করার জন্য সম্পাদনা করা যেতে পারে।
জুহো কোককল 16


@fcop আমি বইটি পড়েছি তবে আমি
গণিতটি

তবে ছবিটি বোঝার জন্য আপনার গণিতের দরকার নেই?

উত্তর:


26

এটি ভিন্নতা সম্পর্কিত

ওএলএস যা সরবরাহ করে তাকে সেরা লিনিয়ার নিরপেক্ষ আনুষাঙ্গিক (ব্লু) বলা হয় । এর অর্থ হ'ল আপনি যদি অন্য কোনও পক্ষপাতহীন প্রাক্কলনকারী গ্রহণ করেন তবে এটি ওএলএসের সমাধানের চেয়ে বেশি বৈকল্পিক হতে বাধ্য। তাহলে পৃথিবীতে কেন আমরা এর বাইরে অন্য কিছু বিবেচনা করব?

এখন নিয়মিতকরণের কৌশল, যেমন লাসো বা রিজ, তারতম্য হ্রাস করার চেষ্টা করার জন্য কিছুটা পক্ষপাতিত্ব যুক্ত করা উচিত। কারণ আপনি যখন আপনার ভবিষ্যদ্বাণী ত্রুটি অনুমান, এটি একটি হল তিনটি বিষয় সমন্বয় :

E[(yf^(x))2]=Bias[f^(x))]2+Var[f^(x))]+σ2
শেষ অংশটি অপরিশোধনযোগ্য ত্রুটি, সুতরাং এর উপর আমাদের কোনও নিয়ন্ত্রণ নেই। ওএলএস দ্রবণটি ব্যবহার করে পক্ষপাতের শব্দটি শূন্য। তবে এটি হতে পারে যে দ্বিতীয় টার্মটি বড়। এটি একটি ভাল ধারণা হতে পারে, ( যদি আমরা ভাল পূর্বাভাস চাই ), কিছু পক্ষপাতিত্ব যুক্ত করতে এবং আশা করি বৈচিত্রটি হ্রাস করতে পারে।

তাই কি এই হল ? এটি আপনার মডেলের পরামিতিগুলির জন্য অনুমানগুলিতে প্রবর্তিত বৈকল্পিকতা। লিনিয়ার মডেলটির y = X β + ϵ ফর্ম রয়েছে ,Var[f^(x))] OLS ঔজ্জ্বল্যের প্রেক্ষাপটে সমাধান আমরা কম সমস্যা সমাধানের প্রাপ্ত ARG মিনিট বিটা | | y - এক্স β | | 2 এই সমাধান প্রদান করে β OLS ঔজ্জ্বল্যের প্রেক্ষাপটে = ( এক্স টি এক্স ) - 1 এক্স টি Y শৈলশিরা রিগ্রেশন জন্য কম সমস্যা অনুরূপ: ARG মিনিট β | | y - এক্স β | |

y=Xβ+ϵ,ϵN(0,σ2I)
argminβ||yXβ||2
β^OLS=(XTX)1XTy
এখন সমাধান হয়ে β রিজ = ( এক্স টি এক্স + + λ আমি ) - 1 এক্স টি Y সুতরাং আমরা এই যোগ করা হয় λ আমি (শৈলশিরা বলা হয়) ম্যাট্রিক্স যে আমরা বিপরীতমুখী তির্যক উপর। এটি ম্যাট্রিক্স এক্স টি এক্স- এর উপর প্রভাব ফেলে এটি ম্যাট্রিক্সেরনির্ধারককে শূন্য থেকে দূরে"টেনে" ফেলে। সুতরাং আপনি যখন এটি উল্টান, আপনি বিশাল ইগেনভ্যালু পাবেন না। তবে এটি আরেকটি আকর্ষণীয় সত্যের দিকে নিয়ে যায়, যথা প্যারামিটারের প্রাক্কলনগুলির অনুমানগুলি কম হয়ে যায়।
argminβ||yXβ||2+λ||β||2λ>0
β^Ridge=(XTX+λI)1XTy
λIXTX

আমি নিশ্চিত নই যে আমি যদি আরও পরিষ্কার উত্তর দিতে পারি তবে এটি। মডেলটির পরামিতিগুলির জন্য covariance ম্যাট্রিক্স এবং সেই covariance ম্যাট্রিক্সের মানগুলির বিশালতা হ'ল এটি কীভাবে ফুটে উঠেছে।

আমি উদাহরণ হিসাবে রিজ রিগ্রেশন নিয়েছিলাম, কারণ এটি চিকিত্সা করা অনেক সহজ। লাসো অনেক বেশি শক্ত এবং এখনও এই বিষয়ে সক্রিয় চলমান গবেষণা চলছে

এই স্লাইডগুলি আরও কিছু তথ্য সরবরাহ করে এবং এই ব্লগে কিছু প্রাসঙ্গিক তথ্যও রয়েছে।

সম্পাদনা: আমি কী বলতে চাই যে রিজ যুক্ত করে নির্ধারকটি শূন্য থেকে দূরে " টানা " হয়?

XTX

det(XTXtI)=0
t
det(XTX+λItI)=0
det(XTX(tλ)I)=0
(tλ)titi+λλ

এটি চিত্রিত করার জন্য এখানে কিছু আর কোড রয়েছে:

# Create random matrix
A <- matrix(sample(10,9,T),nrow=3,ncol=3)

# Make a symmetric matrix
B <- A+t(A)

# Calculate eigenvalues
eigen(B)

# Calculate eigenvalues of B with ridge
eigen(B+3*diag(3))

যা ফলাফল দেয়:

> eigen(B)
$values
[1] 37.368634  6.952718 -8.321352

> eigen(B+3*diag(3))
$values
[1] 40.368634  9.952718 -5.321352

সুতরাং সমস্ত ইউজনুয়ালুগুলি ঠিক 3 দ্বারা স্থানান্তরিত হবে।

জার্গগোরিয়ান সার্কেল উপপাদ্যটি ব্যবহার করে আপনি সাধারণভাবে এটি প্রমাণ করতে পারেন । ইগেনভ্যালুগুলি ধারণ করে এমন বৃত্তগুলির কেন্দ্রগুলি হ'ল তির্যক উপাদান। ইতিবাচক আসল বিমানের সমস্ত চেনাশোনা তৈরি করতে আপনি সর্বদা তির্যক উপাদানটিতে "পর্যাপ্ত" যুক্ত করতে পারেন। ফলাফলটি আরও সাধারণ এবং এর জন্য প্রয়োজন হয় না।


আপনি কীভাবে এটি নির্ধারণকারীকে শূন্য (গণিত) থেকে দূরে সরিয়ে "ব্যাখ্যা" করতে পারেন? ধন্যবাদ
ব্যবহারকারী 10024395

@ ব্যবহারকারী 2675516 আমি আমার উত্তর সম্পাদনা করেছি।
গুমেও

"এর অর্থ হ'ল আপনি যদি অন্য কোনও পক্ষপাতহীন প্রাক্কলনকারী গ্রহণ করেন তবে এটির ওএলএস সমাধানটি আরও উচ্চতর হবে।" আপনি ওএলএসের চেয়ে উচ্চতর পক্ষপাতিত্ব বলতে চান? আমি ভেবেছিলাম ওএলএস-এর সর্বনিম্ন পক্ষপাত আছে তাই অন্য যে কোনও কিছুতে পক্ষপাতিত্ব বেশি থাকবে।
প্লিজ

@ এমএল_প্রো ওএলএস-এর শূন্য পক্ষপাত রয়েছে, এবং সমস্ত পক্ষপাতহীন অনুমানকারীগুলির মধ্যে এরতমতমতমতম প্রকরণ রয়েছে। এটি একটি উপপাদ্য । সুতরাং আপনি অন্য কোনও বাছাই করলে তারতম্য বাড়বে। আপনি যদি নিয়মিত করেন তবে আপনি পক্ষপাতিত্ব চালু করেন।
গুমেও

ধন্যবাদ! আপনার প্রতিক্রিয়া আমাকে কৌতূহলী করে তুলেছিল। আমি তৈরি এই নতুন প্রশ্নের উত্তর দিতে পারেন? stats.stackexchange.com/questions/294926/…
জর্জফফ TheRF

2

রিজ রিগ্রেশন

L2 = (y-xβ) ^ 2 + λ∑βi ^ 2

এই সমীকরণটি কেবলমাত্র একটির জন্য সমাধান করবে now আপাতত এবং পরবর্তীকালে আপনি এটিকে সাধারণীকরণ করতে পারেন:

সুতরাং, (y-xβ) ^ 2 + λβ ^ 2 এটি আমাদের one এর সমীকরণ β

আমাদের লক্ষ্য উপরের সমীকরণটি হ্রাস করা, এটি করতে সক্ষম হতে এটি এটিকে শূন্যের সাথে সমান করবে এবং ডেরিভেটিভসকে কব্জি করবে β

Y ^ 2- 2xyβ + x ^ 2 β ^ 2 + λβ ^ 2 = 0 ------- (আব) ^ 2 সম্প্রসারণ ব্যবহার

আংশিক ডেরিভেটিভস কব্জি

-2xy + + 2x ^ 2β + + 2βλ = 0

2β (x ^ 2 + λ) = 2 অক্সি

β = 2 অক্সি / 2 (এক্স ^ 2 + λ)

পরিশেষে

β = xy / (x ^ 2 + λ)

আপনি যদি ডিনোমিনেটরটি পর্যবেক্ষণ করেন তবে এটি কখনই শূন্য হবে না, যেহেতু আমরা some (যেমন হাইপার প্যারামিটার) এর কিছু মান যুক্ত করছি। এবং সুতরাং β এর মান যতটা সম্ভব কম হবে তবে শূন্য হবে না।

লাসো রিগ্রেশন:

L1 = (y-xβ) ^ 2 + λ∑ | β |

এই সমীকরণটি কেবলমাত্র একটির জন্য সমাধান করবে now আপাতত এবং পরবর্তীকালে আপনি এটি আরও সাধারণ করতে পারেন β:

সুতরাং, (y-xβ) ^ 2 + λβ এটি আমাদের একের সমীকরণ β, এখানে আমি ve এর মান + বিবেচনা করেছি β

আমাদের লক্ষ্য উপরের সমীকরণটি হ্রাস করা, এটি করতে সক্ষম হতে এটি এটিকে শূন্যের সাথে সমান করবে এবং ডেরিভেটিভসকে কব্জি করবে β

Y ^ 2- 2xyβ + x ^ 2 β ^ 2 + λβ = 0 ------- ব্যবহার (আব) ^ 2 সম্প্রসারণ

আংশিক ডেরিভেটিভস কব্জি

-2xy + + 2x ^ 2β + + λ = 0

2x ^ 2β + λ = 2 অক্সি

2x ^ 2β = 2xy-λ

পরিশেষে

β = (2 অক্সি-λ) / (2 এক্স ^ 2)

আপনি যদি অঙ্কটি পর্যবেক্ষণ করেন তবে এটি শূন্য হয়ে যাবে, যেহেতু আমরা λ (যেমন হাইপার প্যারামিটার) এর কিছু মান বিয়োগ করছি। এবং তাই β এর মান শূন্য হিসাবে সেট করা হবে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.