কীভাবে রিজ রিগ্রেশন সলিউশন পাবেন?


40

রিজ রিগ্রেশনটির জন্য সমাধানটির ব্যয় নিয়ে আমার কিছু সমস্যা রয়েছে।

আমি নিয়মিতকরণ শব্দটি ছাড়াই রিগ্রেশন সমাধানটি জানি:

β=(XTX)1XTy.

তবে ব্যয় কার্যক্রমে L2 শব্দটি করার পরে সমাধান কীভাবে আসেλβ22

β=(XTX+λI)1XTy.

উত্তর:


23

জরিমানা যুক্ত করে ক্ষতি ফাংশনটি সংশোধন করা যথেষ্ট suff ম্যাট্রিক্সের ভাষায়, প্রাথমিক চতুর্ভুজ ক্ষতির ক্রিয়াটি (ওয়াই - এক্স \ বিটা) {{টি} (ওয়াইএক্স \ বিটা) + \ ল্যাম্বদা a বিটা ^ টি \ বিটা হয়ে যায়। \ বিটার

(YXβ)T(YXβ)+λβTβ.
প্রতি শ্রদ্ধা নিরঞ্জনটি এক্স সমান X {টি} ওয়াই = \ বাম দিকে (এক্স ^ {টি \ এক্স + \ লাম্বদা আই \ ডান) \ বিটা যা রিজ অনুমানের দিকে নিয়ে যায়।β
XTY=(XTX+λI)β

1
λβTβλIβ
Come

4
@ ব্যবহারকারী 34790 এটি না এটি 2 \ ল্যাম্বদা \ বিটার সমান 2λβ। তবে 2 অন্যান্য শর্তাদিতে একই 2 টি সহ বাতিল করে। অবশ্যই, I ফ্যাক্টরটি "নিয়মিত" বীজগণিতের 1 এর ফ্যাক্টরের মতো, আপনি কোনও কিছু পরিবর্তন না করে আপনি যে কোনও জায়গায় এটি পছন্দ করতে পারেন multip
বিল

4
@bill: এখান আপনার যা দরকার সঠিক মাত্রা একটি ম্যাট্রিক্স পেতে তাই যোগে কাজ করে : শুধু একটি স্কেলার হলএক্স টি এক্স λIXTXλ
হেনরি

47

আসুন আমরা যা জানি তার উপর ভিত্তি করে চলুন, যা হ'ল যখনই মডেলের ম্যাট্রিক্স , তখন রেসপন্স ভেক্টরটি , এবং প্যারামিটার ভেক্টরটি হ'ল , উদ্দেশ্য ফাংশনএক্স এন ওয়াই পি βn×pXnypβ

f(β)=(yXβ)(yXβ)

(যা অবশিষ্টাংশের বর্গের যোগফল) হ্রাস করা হয় যখন সাধারণ সমীকরণগুলি সমাধান করেβ

(XX)β=Xy.

রিজ রিগ্রেশন উদ্দেশ্য পদক্ষেপে আরও একটি পদ যুক্ত করে (সাধারণত সমস্ত ভেরিয়েবলগুলিকে একটি সাধারণ পাদদেশে রাখার জন্য মানক করার পরে), ছোট করতে বলে

(yXβ)(yXβ)+λββ

কিছু অ-নেতিবাচক ধ্রুবক জন্য । এটি অবশিষ্টাংশের বর্গের যোগফল এবং তাদের সহগের গুণাগুলির যোগফলের একাধিক (এটি স্পষ্ট করে তোলে যে এটির সর্বনিম্ন সর্বনিম্ন রয়েছে)। কারণ , এর একটি ধনাত্মক বর্গমূল ।λ 0 ν 2 = λ λλλ0ν2=λ

ম্যাট্রিক্স সাথে সারিগুলির সাথে সংযুক্ত সার্বিক বিবেচনা করুন বারের সাথে পরিচয় ম্যাট্রিক্স :ν পি × পি আইXνp×pI

X=(XνI)

যখন ভেক্টর একভাবে সঙ্গে বাড়ানো হয় থেকে শেষে শূন্য , উদ্দেশ্য ফাংশনে ম্যাট্রিক্স পণ্য যোগ ফর্মের অতিরিক্ত শর্তাদি মূল উদ্দেশ্য। অতএবp y p ( 0 - ν β i ) 2 = λ β 2 iypyp(0νβi)2=λβi2

(yXβ)(yXβ)=(yXβ)(yXβ)+λββ.

বাম হাতের অভিব্যক্তিটির রূপ থেকে এটি অবিলম্বে যে সাধারণ সমীকরণগুলি

(XX)β=Xy.

যেহেতু আমরা এর শেষের সাথে শূন্যগুলি সংযুক্ত করেছি , ডান হাতের অংশটি সমান । বাম দিকে আসল । অতএব নতুন সাধারণ সমীকরণগুলি সরল করেX y ν 2 I = λ I X XyXyν2I=λIXX

(XX+λI)β=Xy.

ধারণাটিগতভাবে অর্থনৈতিক হওয়ার পাশাপাশি - এই ফলাফলটি অর্জনের জন্য কোনও নতুন কারসাজির প্রয়োজন নেই - এটি গণনার দিক থেকেও অর্থনৈতিক: সাধারণ ন্যূনতম স্কোয়ারগুলি করার জন্য আপনার সফ্টওয়্যার কোনও পরিবর্তন ছাড়াই রিজ রিগ্রেশনও করবে। (এটা তবুও, ব্যবহার এই কাজের জন্য ডিজাইন করা সফ্টওয়্যার বড় সমস্যার মধ্যে সহায়ক হতে পারে, কারণ এটি বিশেষ কাঠামো কাজে লাগান হবে একটি ঘন ব্যবধানযুক্ত ব্যবধান জন্য দক্ষতার ফলাফল প্রাপ্ত করার জন্য , অন্বেষণ কিভাবে উত্তর আলাদা আপনি সক্রিয় সাথে ।)Xλλ

জিনিসগুলির দিকে নজর রাখার এই পদ্ধতিটির আর একটি সৌন্দর্য হ'ল এটি কীভাবে আমাদেরকে রিজ রিগ্রেশন বুঝতে সাহায্য করতে পারে। আমরা সত্যিই বুঝতে রিগ্রেশন চান, তখন তা প্রায় সবসময় জ্যামিতিক মনে করতে সাহায্য করে: এর কলাম গঠন মাত্রা একটি বাস্তব ভেক্টর স্থান ভেক্টর । থেকে সাথে সংযুক্ত করে , সেগুলি ভেক্টর থেকে ভেক্টরগুলিতে দীর্ঘায়িত করে আমরা including কে একটি বৃহত্তর জায়গাতে এমবেড করছি including সহ "কাল্পনিক", পারস্পরিক orthogonal দিকনির্দেশ। প্রথম কলামXpnνIXnn+pRnRn+ppXআকারের একটি ছোট কাল্পনিক উপাদান given , যার ফলে এটি দীর্ঘ করা হয় এবং এটিকে মূল কলামগুলির দ্বারা উত্পন্ন স্থানের বাইরে নিয়ে যায় । দ্বিতীয়, তৃতীয়, ..., কলাম একভাবে lengthened এবং একই পরিমাণ দ্বারা মূল স্থান থেকে স্থানান্তরিত করা হয় - কিন্তু সব বিভিন্ন নতুন নির্দেশাবলী মধ্যে। ফলস্বরূপ, আসল কলামগুলিতে উপস্থিত কোনও প্রকার তাত্ক্ষণিকভাবে সমাধান করা হবে। তদুপরি, বৃহত্তর becomes হয়ে ওঠে, এই নতুন ভেক্টরগুলি পৃথক পৃথক নিকটবর্তী হয়νppthννpকাল্পনিক দিকনির্দেশ: এগুলি আরও বেশি সংখ্যক orthonormal হয়ে যায়। ফলস্বরূপ, সাধারণ সমীকরণগুলির সমাধান অবিলম্বে সম্ভব হয়ে উঠবে এবং এটি থেকে বৃদ্ধি এটি দ্রুত সংখ্যাগতভাবে স্থিতিশীল হয়ে উঠবে ।ν0

প্রক্রিয়াটির এই বিবরণটি রিজ রিগ্রেশনকে পরিচালনা করার জন্য তৈরি করা সমস্যাগুলির সমাধানের জন্য কিছু অভিনব এবং সৃজনশীল পদ্ধতির পরামর্শ দেয় । উদাহরণস্বরূপ, রিগ্রেশন ডায়াগনস্টিকস সম্পর্কিত তাদের 1980 বইয়ের বেলসলে, কুহ এবং ওয়েলস্কের বর্ণিত বিভাজন পচন যেমন কোনও উপায়ে ব্যবহার করে আপনি এর প্রায় কলিনারি কলামগুলির উপগোষ্ঠী সনাক্ত করতে সক্ষম হবেন যেখানে প্রতিটি উপগোষ্ঠী রয়েছে অন্য যে কোনও দিকে প্রায় অর্থেগোনাল। আপনার কেবলমাত্র (এবং জিরো থেকে ) সারি সংখ্যক সারি প্রয়োজন কারণ একটি গ্রুপের প্রতিটি উপাদানকে তার ভাইবোনদের থেকে দূরে সরিয়ে দেওয়ার জন্য একটি নতুন "কল্পিত" মাত্রা উত্সর্গ করে: আপনার কাল্পনিক প্রয়োজন নেই এটি করার জন্য মাত্রা।XXyp


2
বইটির শেষ লেখক ওয়েলশ নয়, ওয়েলশ।
মার্ক এল স্টোন

1
ওহ, এটি আমার মনকে ফুটিয়ে তুলেছে। যখন লিনিয়ার মডেলগুলির বাইরে, যেমন গ্ল্যামের সাধারণীকরণ হয় তখন কী ঘটে যায় সে সম্পর্কে কোনও আলোচনা আছে? পেনাল্টিটি রিজ রিগ্রেশন এর সমতুল্য হওয়া উচিত নয় ... তবে এই ব্যাখ্যাটি বোঝায় যে এটি এখনও সম্ভাব্য দরকারী অনুমানকারী হবে!
ক্লিফ এবি

2
@ ক্লিফ এটি একটি খুব আকর্ষণীয় পরামর্শ। যেহেতু, জিএলএম অনুমানগুলি উপর আরও জটিল উপায়ে নির্ভর করে এবং তাদের অনুমানকারীরা সাধারণত ওএলএসের জন্য যেখানে (টু থাকে তেমন আকারে আকারে ফ্যাক্টর করা যায় না এবং ), পেনাল্টি ফাংশন চাপানো এবং কলামগুলিকে সংশোধন করার মধ্যে একটি কার্যকর সম্পর্ক স্থাপন করা কঠিন হতে পারে । বিশেষত, এটি অস্পষ্ট নয় যে এই কাজটি করার জন্য এর মানগুলি কীভাবে বাড়ানো দরকার। β = ( এক্স ) ( Y ) ( এক্স ) = ( এক্স ' এক্স ) - 1 এক্স '( Y ) = Y এক্স YX
β^=g(X)h(y)
g(X)=(XX)1Xh(y)=yXy
whuber

1
হ্যাঁ, জরিমানাটি কী তা প্রতিষ্ঠিত করার চেষ্টা করার জন্য কিছুটা চিন্তা করতে হবে তবে আমি সে সম্পর্কে তেমন উদ্বিগ্ন নই। কী ব্যবহার করবেন তা ধারণা সাধারণত সহজ হয় না ... কেবলমাত্র লজিস্টিক রিগ্রেশন ক্ষেত্রে, যেখানে আমরা দুটি ' যোগ করতে পারি ; 0 এর একটি এবং 1 এর একটি। এই বৃদ্ধি তারপর "+2 দ্বিপদ মূল্নির্ধারক" এর একটি সাধারণ সংস্করণ হতে হবে (এই মূল্নির্ধারক আমি যেসব blanking করছি, যা মূলত হয় যখন আপনি আনুমানিক হিসাব করা হয় জন্য আরও সঠিক নাম অবর গড় হিসাবে ব্যবহার করে একটি দ্বিপদ বিন্যাস থেকে একটি অভিন্ন পূর্বে সঙ্গে অনুমান )। y p পিy ypp
ক্লিফ এবি

@ মার্ক সংশোধন করার জন্য আপনাকে ধন্যবাদ। আপনি বলতে পারবেন আমি স্মৃতি থেকে যাচ্ছিলাম ... :-)।
শুক্র

20

ডেরাইভেশন ম্যাট্রিক্স ক্যালকুলাস অন্তর্ভুক্ত, যা বেশ ক্লান্তিকর হতে পারে। আমরা নিম্নলিখিত সমস্যাটি সমাধান করতে চাই:

minβ(YβTX)T(YβTX)+λβTβ

এখন নোট করুন যে এবং একসাথে আমরা প্রথম অর্ডার শর্তে পৌঁছে যাই বিচ্ছিন্ন সমাধান দেয়:

(YβTX)T(YβTX)β=2XT(YβTX)
λβTββ=2λβ.
XTY=XTXβ+λβ.
β
β=(XTX+λI)1XTY.

9

আমি সম্প্রতি পি-স্প্লিন্সের প্রসঙ্গে একই প্রশ্নে হোঁচট খেয়েছি এবং ধারণাটি একই হওয়ায় আমি রিজ প্রাক্কলনকারীর উত্স সম্পর্কে আরও বিস্তারিত উত্তর দিতে চাই।

আমরা একটি শাস্তিযুক্ত মাপদণ্ডের ফাংশন দিয়ে শুরু করি যা গত সমষ্টিতে শাস্তি দেওয়ার শর্ত দ্বারা ক্লাসিক ওএলএস-মাপদণ্ড কার্য থেকে পৃথক:

CriterionRidge=i=1n(yixiTβ)2+λj=1pβj2

কোথায়

  • p= মডেলটিতে ব্যবহৃত পরিসংখ্যানের পরিমাণ
  • xiTβ= আপনার স্ট্যান্ডার্ড লিনিয়ার ভবিষ্যদ্বাণী
  • প্রথম সমষ্টিটি এমএসই (প্রকৃত মান থেকে পূর্বাভাসের স্কোয়ার ডাইভার্জেনশন )কে সম্মান করে যা আমরা যথারীতি হ্রাস করতে চাই
  • দ্বিতীয় যোগসূত্রটি সহগের উপর আমরা যে শাস্তি প্রয়োগ করি তা উপস্থাপন করে। এখানে আমরা রিজ-প্রসঙ্গে রয়েছি যা একটি ইউক্যালিডিয়ান দূরত্ব পরিমাপকে বোঝায় এবং তাই শাস্তিমূলক মেয়াদে 2 ডিগ্রি। লাসো-পেনালাইজেশনের ক্ষেত্রে আমরা 1 ডিগ্রি প্রয়োগ করব এবং একেবারে পৃথক অনুমানকারী আনব।

আমরা ম্যাট্রিক্স-স্বরলিপিতে এই মানদণ্ডটি আবার লিখতে পারি এবং এটি আরও ভেঙে দিতে পারি:

CriterionRidge=(yXβ)T(yXβ)+λβTβ

=yTyβTXTyyTXβ+βTxTXβ+λβTβ

=yTyβTXTyβTXTy+βTXTXβ+βTλIβ পরিচয় ম্যাট্রিক্স হওয়ার সাথেI

=yTy2βTXTy+βT(XTX+λI)β

এখন আমরা সেই অনুসন্ধান করি যা আমাদের মানদণ্ডকে হ্রাস করে। অন্যদের মধ্যে আমরা ম্যাট্রিক্স রুল ব্যবহার করি যা আমরা পারি এখানে হিসাবে প্রয়োগ করুন : βxTAxx=(A+AT)x=A symmetric2Ax(XTX+λI)Rn×n

CriterionRidgeβ=2XTy+2(XTX+λI)β=!0

(XTX+λI)β=XTy

et voilàβ^=(XTX+λI)1XTy


@ জাহান, আপনি কীভাবে can হয়ে গেল তা ব্যাখ্যা করতে পারেন ? আমি মনে করি আপনি ঠিক এটিতে ট্রান্সপোজ প্রয়োগ করেছেন। তবে, আপনি সমস্ত সমীকরণে প্রয়োগ না করে কেবল একটি পদে ট্রান্সপোজ প্রয়োগ করতে পারবেন না। আমি এখানে কি মিস করছি?
yTXβ
βTXTy
থিয়েটিস্ট

1
@ থিয়েটিস্ট একটি ট্রান্সপোজড স্কেলার একই স্কেলার ala
কনস্টান্টিন

2

প্রদত্ত উত্তরে কয়েকটি গুরুত্বপূর্ণ বিষয় অনুপস্থিত রয়েছে।

  1. জন্য সমাধানটি প্রথম-ক্রমের প্রয়োজনীয় শর্ত থেকে উদ্ভূত হয়েছে: যা । তবে এটি কি যথেষ্ট? এটি হল, কেবলমাত্র কঠোরভাবে উত্তল হলে সমাধানটি বিশ্বব্যাপী সর্বনিম্ন is এটি সত্য বলে দেখানো যেতে পারে।βfridge(β,λ)β=0β=(XTX+λI)1XTYfridge(β,λ)

  2. সমস্যাটি দেখার আরেকটি উপায় হ'ল এবং সীমাবদ্ধ । ওএলএস এর অর্থ দাঁড়ায় সাধারণ স্বল্প স্কোয়ার। এই দৃষ্টিকোণ থেকে উদ্দেশ্য ফাংশনের গ্লোবাল মিনিমা খুঁজে পেতে ব্যবহৃত ফাংশন উত্তল ক্রিয়াকলাপের সাথে জড়িত ।fridge(β,λ)fOLS(β)=(YβTX)T(YβTX)||β||22tfridge(β,λ)fOLS(β)||β||22

এই পয়েন্টগুলির একটি ভাল ব্যাখ্যা এবং এই সূক্ষ্ম বক্তৃতা নোটগুলিতে পাওয়া যাবে: http://math.bu.edu/people/cgineste/classes/ma575/p/w14_1.pdfβ

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.