রিগ্রেশনে রিজ নিয়মিতকরণের ব্যাখ্যা


25

ন্যূনতম স্কোয়ার্স প্রসঙ্গে রিজ পেনাল্টি সম্পর্কে আমার বেশ কয়েকটি প্রশ্ন রয়েছে:

βridge=(λID+XX)1Xy

1) অভিব্যক্তিটি সূচিত করে যে এক্স এর কোভারিয়েন্স ম্যাট্রিক্সটি একটি তির্যক ম্যাট্রিক্সের দিকে সঙ্কুচিত হয়েছে, যার অর্থ (প্রক্রিয়াটির আগে ভেরিয়েবলগুলি মানক হিসাবে ধরে নেওয়া হয়) ইনপুট ভেরিয়েবলগুলির মধ্যে পারস্পরিক সম্পর্ক হ্রাস পাবে। এই ব্যাখ্যাটি কি সঠিক?

2) এটি যদি সঙ্কুচিতকরণ অ্যাপ্লিকেশন হয় তবে কেন এটি এর লাইনে তৈরি করা হয় না (λID+(1λ)XX), ধরে নেওয়া আমরা কোনওভাবেই লাম্বদাটিকে একটি সাধারণকরণের সাথে [0,1] পরিসীমাতে সীমাবদ্ধ রাখতে পারি can

3) কীসের জন্য হতে পারে - λযাতে এটি [0,1] এর মতো একটি স্ট্যান্ডার্ড রেঞ্জের মধ্যে সীমাবদ্ধ থাকতে পারে।

4) তির্যক একটি ধ্রুবক যুক্ত সমস্ত ইগন্যালিউজ প্রভাবিত করবে। কেবলমাত্র একক বা নিকটতম মানগুলির উপরে আক্রমণ করা ভাল? এটি কি এক্সে পিসিএ প্রয়োগ এবং রিগ্রেশন হওয়ার আগে শীর্ষ-এন মূল উপাদানগুলি ধরে রাখার সমতুল্য বা এর আলাদা নাম রয়েছে (যেহেতু এটি ক্রস কোভেরিয়েন্স গণনাটি পরিবর্তন করে না)?

5) আমরা কি ক্রস কোভেরিয়েন্সকে নিয়মিত করতে পারি, বা এর কোনও ব্যবহার থাকতে পারে, যার অর্থ

βridge=(λID+XX)1(γXy)

যেখানে একটি ছোট γ ক্রস কোভেরিয়েন্সকে কমিয়ে দেবে। একথাও ঠিক যে এই পরিধেয় সব β সমানভাবে গুলি, কিন্তু সম্ভবত কঠিন / নরম থ্রেশহোল্ডিং সহভেদাংক মান উপর নির্ভর করে মত একটি দ্রুত উপায় নেই।


আইরিজ রিজ পেনাল্টিটি এমন একটি বিধিনিষেধ থেকে আসে যা এমএসই উদ্দেশ্যমূলক ফাংশনে ল্যাঞ্জ্রেঞ্জ গুণক দ্বারা লাসো একই তবে | β | পরিবর্তে. আমি আমার ফোনে রয়েছি তাই এই মুহুর্তে আমি সহজেই একটি ডেরিভিশন পোস্ট করতে পারি না। তবে এগুলি দুর্দান্ত প্রশ্নগুলিβ2T|β|
শ্যাডটলকার

উত্তর:


19

ভাল প্রশ্ন!

  1. হ্যাঁ, এটি ঠিক সঠিক। বহু পূর্বাভাসকারীরা যখন একে অপরের সাথে সম্পর্কযুক্ত তখন দেখা দেয় যে বহুবিধ লাইন সমস্যাটি মোকাবেলা করার এক সম্ভাব্য উপায় হিসাবে আপনি রিজ পেনাল্টিটি দেখতে পাচ্ছেন । রিজ পেনাল্টির ভূমিকা কার্যকরভাবে এই পারস্পরিক সম্পর্ককে কমিয়ে দেয়।

  2. আমি মনে করি এটি আংশিক traditionতিহ্য, আংশিক সত্য যে আপনার প্রথম সমীকরণে বর্ণিত রিজ রিগ্রেশন সূত্রটি নিম্নলিখিত ব্যয় ফাংশন থেকে অনুসরণ করে: তাহলে λ = 0 , দ্বিতীয় মেয়াদে বাদ যাবে না, এবং প্রথম মেয়াদে ( "পুনর্গঠন ত্রুটি") জন্য আদর্শ OLS ঔজ্জ্বল্যের প্রেক্ষাপটে সূত্রে বিশালাকার কমানোর β । দ্বিতীয় পদটি রাখা β এর সূত্রের দিকে নিয়ে যায় β

    L=yXβ2+λβ2.
    λ=0ββridge। এই ব্যয় ফাংশনটি মোকাবেলার জন্য গাণিতিকভাবে খুব সুবিধাজনক এবং এটি "নন-নরমালাইজড" ল্যাম্বডাকে প্রাধান্য দেওয়ার অন্যতম কারণ হতে পারে।
  3. স্বাভাবিক একটি সম্ভাব্য উপায় মোট ভ্যারিয়েন্স দ্বারা এটি স্কেল হয় T ( এক্সএক্স ) , অর্থাত্ ব্যবহার করতে λ টি R ( এক্সএক্স ) পরিবর্তে λ । এটি অগত্যা λ কে [ 0 , 1 ] এ সীমাবদ্ধ রাখবে না , তবে এটি "মাত্রাবিহীন" করবে এবং সম্ভবত অনুকূল opλtr(XX)λtr(XX)λλ[0,1]λ কম তারপর হচ্ছে সব ব্যবহারিক ক্ষেত্রে (বিশেষ দ্রষ্টব্য: এই মাত্র একটি অনুমান করা হয়!)।1

  4. "কেবলমাত্র ছোট ছোট ইগেনাল্যুগুলি আক্রমণ করা" এর পৃথক নাম রয়েছে এবং এটিকে প্রধান উপাদানগুলির রিগ্রেশন বলা হয়। পিসিআর এবং রিজ রিগ্রেশনগুলির সংযোগটি হ'ল পিসিআর-তে আপনি একটি নির্দিষ্ট সংখ্যার পরে কার্যকরভাবে একটি "পদক্ষেপ পেনাল্টি" রেখেছেন, যেখানে রিজ রিগ্রেশন একটি "নরম দণ্ড" প্রয়োগ করে, সমস্ত ইগনাল্যুগুলিকে দণ্ডিত করে, ছোটগুলি আরও বেশি দণ্ডিত হয়। এটি ইস্টিমেন্টস স্ট্যাটিস্টিকাল লার্নিংয়ে হস্টি এট আল দ্বারা খুব সুন্দরভাবে ব্যাখ্যা করা হয়েছে । (অবাধে অনলাইনে উপলভ্য), বিভাগ 3.4.1। রিজ রিগ্রেশন এবং পিসিএ রিগ্রেশন এর মধ্যে সম্পর্কের ক্ষেত্রেও আমার উত্তর দেখুন ।

  5. আমি কখনই এটি সম্পন্ন করে দেখিনি, তবে মনে রাখবেন যে আপনি আকারে একটি ব্যয় ফাংশন বিবেচনা করতে পারেন এটি আপনার সঙ্কুচিত β শুন্যতে না, কিন্তু অন্য কিছু পূর্ব নির্ধারিত মান বিটা 0 । যদি কেউ গণিতে কাজ করে তবে আপনি β = ( এক্সএক্স + λ আই ) - 1 ( Xy + ) প্রদত্ত অনুকূল β এ পৌঁছে যাবেন

    L=yXβ2+λββ02.
    ββ0β যা সম্ভবত "ক্রস-কোভারিয়েন্স নিয়মিতকরণ" হিসাবে দেখা যেতে পারে?
    β=(XX+λI)1(Xy+λβ0),

1
কেন আপনি যোগ ব্যাখ্যা গেল করার এক্স ' এক্স মানে যে কোভ্যারিয়েন্স ম্যাট্রিক্স এক্স একটি তির্যক ম্যাট্রিক্স দিকে সঙ্কুচিত করা হয়? আমি মনে করি এটি একটি সম্পূর্ণ রৈখিক বীজগণিত প্রশ্ন bra λIDXXX
হাইজেনবার্গ

3
@Heisenberg, ভাল, কোভ্যারিয়েন্স ম্যাট্রিক্স হয় এক্স (আপ থেকে 1 / এন স্কেলিং ফ্যাক্টর)। কম্পিউটিং β এই সহভেদাংক ম্যাট্রিক্স ইনভার্টারিং প্রয়োজন। রিজ রিগ্রেশন-এ, আমরা পরিবর্তে এক্স এক্স + λ আমি বিপরীত করি , যাতে কেউ এক্স - এক্স + λ I কে কোভারিয়েন্স ম্যাট্রিক্সের নিয়মিত অনুমান হিসাবে দেখতে পারে । এখন মেয়াদ λ আমি সঙ্গে একটি তির্যক ম্যাট্রিক্স হয় λ তির্যক উপর। ভাবুন যে λ খুব বড়; তারপরে যোগফলটি তির্যক শব্দ by দ্বারা আধিপত্য হয় λXXX1/NβXX+λIXX+λIλIλλλIএবং নিয়মিত সহভেদাংক আরো এবং আরো তির্যক যেমন হয়ে তাই বৃদ্ধি। λ
অ্যামিবা


10

৪. প্রশ্নে আরও একটি মন্তব্য প্রকৃতপক্ষে, রিজ রিগ্রেশনটি এক্স টি এক্স এর ছোট ছোট ইগ্যালভ্যালুগুলির সাথে কার্যকরভাবে মোকাবেলা করেXTX যখন বেশিরভাগ বৃহত্তর ইগন্যালুয়েসগুলি একা রেখে যায়।

এটি দেখতে এক্স এর একবাক্যমূল্যের পচন রচনার জন্য রিজ রিগ্রেশন অনুমানকারীকে প্রকাশ করুনX ,

X=i=1nσiuiviT

যেখানে ভেক্টর পারস্পরিক লম্ব এবং V আমি ভেক্টর এছাড়াও পারস্পরিক লম্ব হয়। এখানে এক্স টি এক্স এর ইগেনভ্যালুগুলি হ'ল σ 2 i , i = 1 , 2 , , nuiviXTXσi2i=1,2,,n

তারপরে আপনি এটি প্রদর্শন করতে পারেন

βridge=i=1nσi2σi2+λ1σi(uiTy)vi.

এখন, "ফিল্টার কারণের" বিবেচনা । যদি λ = 0 হয় , তবে ফিল্টার উপাদানগুলি 1 হয় এবং আমরা প্রচলিত সর্বনিম্ন স্কোয়ার সমাধান পাই get তাহলে λ > 0 এবং σ 2 আমি » λ , তারপর ফিল্টার ফ্যাক্টর মূলত 1. যদি σ 2 আমি « λσi2/(σi2+λ)λ=0λ>0σi2λσi2λ , তারপর এই ফ্যাক্টর মূলত হল 0. এভাবে পদ ছোট eigenvalues সংশ্লিষ্ট কার্যকরভাবে ঝরে যখন ঐ সংশ্লিষ্ট বৃহত্তর ইগন্যাল্যগুলি বজায় রাখা হয়।

তুলনায়, মূল উপাদানগুলির রিগ্রেশন কেবল এই সূত্রে 1 (বৃহত্তর ইগেনভ্যালুগুলির জন্য) বা 0 (যে ছোট ছোট ইগেনালুগুলি বাদ পড়েছে) এর কারণগুলি ব্যবহার করে।


1
আমি আমার উত্তরে সংক্ষেপে উল্লেখ করেছি ঠিক এটি, তবে এটি গাণিতিকভাবে বিশদভাবে এবং প্রদর্শন করাতে খুব সুন্দর, +1।
অ্যামিবা বলেছেন

5

XX

λx+y=κ(αx+(1α)y),
α=λ1+λ and κ=1+λ. If 0λ<+, it immediately follows that 0<α1.

The technique you describe as "attack[ing] only the singular or near singular values" is also known as Singular Spectrum Analysis (for the purpose of linear regression) (see Eq. 19), if by "attacking", you mean "removing". The cross-covariance is unchanged.

Removing low singular values is also done by Principal Component Regression. In PCR, a PCA is performed on X and a linear regression is applied on a selection of the obtained components. The difference with SSA is that it has an impact on the cross-covariance.


Thank you. In PCR covariance with y is calculated after the reduction of dimension is performed, no? Is that the difference between PCR and SSA? Your gamma (not mine), how do you select that so alpha will be [0,1] bounded?
Cagdas Ozgenc

1
Sorry about this confusing γ, I'm replacing it by a κ.
Vincent Guillemot

I think you are correct about the difference between SSA and PCR, we should write it down to be sure, though.
Vincent Guillemot
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.