এটি ভিন্নতা সম্পর্কিত
ওএলএস যা সরবরাহ করে তাকে সেরা লিনিয়ার নিরপেক্ষ আনুষাঙ্গিক (ব্লু) বলা হয় । এর অর্থ হ'ল আপনি যদি অন্য কোনও পক্ষপাতহীন প্রাক্কলনকারী গ্রহণ করেন তবে এটি ওএলএসের সমাধানের চেয়ে বেশি বৈকল্পিক হতে বাধ্য। তাহলে পৃথিবীতে কেন আমরা এর বাইরে অন্য কিছু বিবেচনা করব?
এখন নিয়মিতকরণের কৌশল, যেমন লাসো বা রিজ, তারতম্য হ্রাস করার চেষ্টা করার জন্য কিছুটা পক্ষপাতিত্ব যুক্ত করা উচিত। কারণ আপনি যখন আপনার ভবিষ্যদ্বাণী ত্রুটি অনুমান, এটি একটি হল তিনটি বিষয় সমন্বয় :
E[(y−f^(x))2]=Bias[f^(x))]2+Var[f^(x))]+σ2
শেষ অংশটি অপরিশোধনযোগ্য ত্রুটি, সুতরাং এর উপর আমাদের কোনও নিয়ন্ত্রণ নেই। ওএলএস দ্রবণটি ব্যবহার করে পক্ষপাতের শব্দটি শূন্য। তবে এটি হতে পারে যে দ্বিতীয় টার্মটি বড়। এটি একটি ভাল ধারণা হতে পারে, (
যদি আমরা ভাল পূর্বাভাস চাই ), কিছু পক্ষপাতিত্ব যুক্ত করতে এবং আশা করি বৈচিত্রটি হ্রাস করতে পারে।
তাই কি এই হল ? এটি আপনার মডেলের পরামিতিগুলির জন্য অনুমানগুলিতে প্রবর্তিত বৈকল্পিকতা। লিনিয়ার মডেলটির y = X β + ϵ ফর্ম রয়েছে
,Var[f^(x))]
OLS ঔজ্জ্বল্যের প্রেক্ষাপটে সমাধান আমরা কম সমস্যা সমাধানের প্রাপ্ত
ARG মিনিট বিটা | | y - এক্স β | | 2
এই সমাধান প্রদান করে
β OLS ঔজ্জ্বল্যের প্রেক্ষাপটে = ( এক্স টি এক্স ) - 1 এক্স টি Y
শৈলশিরা রিগ্রেশন জন্য কম সমস্যা অনুরূপ:
ARG মিনিট β | | y - এক্স β | |
y=Xβ+ϵ,ϵ∼N(0,σ2I)
argminβ||y−Xβ||2
β^OLS=(XTX)−1XTy
এখন সমাধান হয়ে
β রিজ = ( এক্স টি এক্স + + λ আমি ) - 1 এক্স টি Y
সুতরাং আমরা এই যোগ করা হয়
λ আমি (শৈলশিরা বলা হয়) ম্যাট্রিক্স যে আমরা বিপরীতমুখী তির্যক উপর। এটি ম্যাট্রিক্স
এক্স টি এক্স- এর উপর প্রভাব ফেলে এটি ম্যাট্রিক্সেরনির্ধারককে শূন্য থেকে দূরে"
টেনে" ফেলে। সুতরাং আপনি যখন এটি উল্টান, আপনি বিশাল ইগেনভ্যালু পাবেন না। তবে এটি আরেকটি আকর্ষণীয় সত্যের দিকে নিয়ে যায়, যথা প্যারামিটারের প্রাক্কলনগুলির অনুমানগুলি কম হয়ে যায়।
argminβ||y−Xβ||2+λ||β||2λ>0
β^Ridge=(XTX+λI)−1XTy
λIXTX
আমি নিশ্চিত নই যে আমি যদি আরও পরিষ্কার উত্তর দিতে পারি তবে এটি। মডেলটির পরামিতিগুলির জন্য covariance ম্যাট্রিক্স এবং সেই covariance ম্যাট্রিক্সের মানগুলির বিশালতা হ'ল এটি কীভাবে ফুটে উঠেছে।
আমি উদাহরণ হিসাবে রিজ রিগ্রেশন নিয়েছিলাম, কারণ এটি চিকিত্সা করা অনেক সহজ। লাসো অনেক বেশি শক্ত এবং এখনও এই বিষয়ে সক্রিয় চলমান গবেষণা চলছে ।
এই স্লাইডগুলি আরও কিছু তথ্য সরবরাহ করে এবং এই ব্লগে কিছু প্রাসঙ্গিক তথ্যও রয়েছে।
সম্পাদনা: আমি কী বলতে চাই যে রিজ যুক্ত করে নির্ধারকটি শূন্য থেকে দূরে " টানা " হয়?
XTX
det(XTX−tI)=0
tdet(XTX+λI−tI)=0
det(XTX−(t−λ)I)=0
(t−λ)titi+λλ
এটি চিত্রিত করার জন্য এখানে কিছু আর কোড রয়েছে:
# Create random matrix
A <- matrix(sample(10,9,T),nrow=3,ncol=3)
# Make a symmetric matrix
B <- A+t(A)
# Calculate eigenvalues
eigen(B)
# Calculate eigenvalues of B with ridge
eigen(B+3*diag(3))
যা ফলাফল দেয়:
> eigen(B)
$values
[1] 37.368634 6.952718 -8.321352
> eigen(B+3*diag(3))
$values
[1] 40.368634 9.952718 -5.321352
সুতরাং সমস্ত ইউজনুয়ালুগুলি ঠিক 3 দ্বারা স্থানান্তরিত হবে।
জার্গগোরিয়ান সার্কেল উপপাদ্যটি ব্যবহার করে আপনি সাধারণভাবে এটি প্রমাণ করতে পারেন । ইগেনভ্যালুগুলি ধারণ করে এমন বৃত্তগুলির কেন্দ্রগুলি হ'ল তির্যক উপাদান। ইতিবাচক আসল বিমানের সমস্ত চেনাশোনা তৈরি করতে আপনি সর্বদা তির্যক উপাদানটিতে "পর্যাপ্ত" যুক্ত করতে পারেন। ফলাফলটি আরও সাধারণ এবং এর জন্য প্রয়োজন হয় না।