রিজ রিগ্রেশনতে "ম্যাট্রিক্স ইনভার্সনের সংখ্যার স্থিতিশীলতা" এবং ওভারফিট হ্রাসে এর ভূমিকার জন্য লুসিড ব্যাখ্যা

আমি বুঝতে পারি যে আমরা কমপক্ষে স্কোয়ার রিগ্রেশন সমস্যায় নিয়মিতকরণ নিয়োগ করতে পারি

w^{*} = \underset{w}{argmin} [(y - X w)^{T} (y - X w) + λ ‖ w ‖^{2}]

$\boldsymbol{w}^* = \operatorname*{argmin}_w \left[ (\mathbf y-\mathbf{Xw})^T(\boldsymbol{y}-\mathbf{Xw}) + \lambda\|\boldsymbol{w}\|^2 \right]$

এবং এই সমস্যাটির একটি বদ্ধ-ফর্ম সমাধান রয়েছে যেমন:

\hat{w} = (X^{T} X + λ I)^{- 1} X^{T} y .

$\hat{\boldsymbol{w}} = (\boldsymbol{X}^T\boldsymbol{X}+\lambda\boldsymbol{I})^{-1}\boldsymbol{X}^T\boldsymbol{y}.$

আমরা দেখতে পাই যে ২ য় সমীকরণে নিয়মিতকরণ কেবল the এর তির্যকে $\lambda$ করছে যা ম্যাট্রিক্স বিপরীতে সংখ্যার স্থায়িত্ব উন্নত করার জন্য করা হয়। $\boldsymbol{X}^T\boldsymbol{X}$

সংখ্যার স্থায়িত্ব সম্পর্কে আমার বর্তমান 'অপরিশোধিত' বোঝাটি হ'ল কোনও ফাংশন যদি আরও 'সংখ্যাসূচকভাবে স্থিতিশীল' হয়ে যায় তবে এর আউটপুটটি এর ইনপুটগুলির আওয়াজ দ্বারা কম উল্লেখযোগ্যভাবে প্রভাবিত হবে। ওভারফিটিংয়ের সমস্যাটি কীভাবে এড়ানো / হ্রাস করে তার বৃহত্তর চিত্রের সাথে উন্নত সংখ্যার স্থায়িত্বের এই ধারণাটি সম্পর্কে আমার অসুবিধা হচ্ছে।

আমি উইকিপিডিয়া এবং কয়েকটি অন্যান্য ওয়েবসাইট দেখার চেষ্টা করেছি , তবে কেন এটি এমন তা ব্যাখ্যা করার ক্ষেত্রে তারা গভীরভাবে যায় না।

— শিক্ষানবিস
সূত্র

রিজ রিগ্রেশন মনে আসে। লিঙ্ক

— EngrStudent

আপনি বীজগণিতের তুলনায় (বেশিরভাগ বর্ণনামূলক / স্বজ্ঞাত) আলোচনায় কিছু মান খুঁজে পেতে পারেন কেন তির্যকটিতে একটি ধ্রুবক যুক্ত করে রিজ প্রাক্কলনটি ওএলএসের চেয়ে ভাল হয়ে যায়?

— গ্লেন_বি -রিনস্টেট মনিকা

উত্তর:

রৈখিক মডেল , শূন্য এবং সাথে সম্পূর্ণ কলাম র‌্যাঙ্কযুক্ত অসচ্ছিন্ন ত্রুটিগুলি ধরে নিয়ে , সর্বনিম্ন স্কোয়ারের অনুমানকারী প্যারামিটারের জন্য একটি নিরপেক্ষ অনুমানক । তবে এই অনুমানকারীটির উচ্চতর বৈকল্পিকতা থাকতে পারে। উদাহরণস্বরূপ, এর দুটি কলাম যখন খুব বেশি সংযুক্ত থাকে। $Y=X\beta + \epsilon$ $X$ $(X^TX)^{-1}X^TY$ $\beta$ $X$

শাস্তি প্যারামিটার তোলে একটি পক্ষপাতদুষ্ট মূল্নির্ধারক , কিন্তু এটা তার ভ্যারিয়েন্স হ্রাস পায়। এছাড়াও, এর অবর প্রত্যাশা একটি সঙ্গে একটি Bayesian রিগ্রেশনে উপর পূর্বে । সেই অর্থে, আমরা বিশ্লেষণে কিছু তথ্য অন্তর্ভুক্ত করি যা বলে যে উপাদানগুলি শূন্য থেকে খুব বেশি দূরে হওয়া উচিত নয়। আবার এটি আমাদের পক্ষপাতিত্বমূলক বিন্দুর অনুমানের দিকে নিয়ে যায় তবে অনুমানের বৈচিত্রকে হ্রাস করে। $\lambda$ $\hat{w}$ $\beta$ $\hat{w}$ $\beta$ $N(0,\frac{1}{\lambda}I)$ $\beta$ $\beta$ $\beta$

এমন এক সেটিংয়ে যেখানে উচ্চ মাত্রিক, , সর্বনিম্ন স্কোয়ারগুলি ফিট করে ডেটা প্রায় পুরোপুরি মেলে। পক্ষপাতহীন হলেও, এই অনুমানটি ডেটাতে ওঠানামার জন্য অত্যন্ত সংবেদনশীল হবে কারণ এই জাতীয় উচ্চ মাত্রায় উচ্চ লিভারেজ সহ অনেকগুলি পয়েন্ট থাকবে। এই জাতীয় পরিস্থিতিতে some এর কয়েকটি উপাদানগুলির চিহ্ন একটি একক পর্যবেক্ষণ দ্বারা নির্ধারণ করা যেতে পারে। জরিমানার শর্তে এই অনুমানগুলিকে শূন্যের দিকে সঙ্কুচিত করার প্রভাব রয়েছে, যা ভেরিয়েন্স হ্রাস করে অনুমানের এমএসই হ্রাস করতে পারে। $X$ $N \approx p$ $\hat{\beta}$

সম্পাদনা: আমার প্রাথমিক প্রতিক্রিয়ায় আমি একটি প্রাসঙ্গিক কাগজে একটি লিঙ্ক সরবরাহ করেছি এবং তাড়াহুড়োয় আমি এটি সরিয়ে দিয়েছি। এটি এখানে: http://www.jarad.me/stat615/papers/Ridge_Regression_in_Practice.pdf

— HStamper
সূত্র

এর বর্তমান ফর্মে এটি আসলে একটি মন্তব্য বেশি; আপনি কি মনে করেন যে আপনি এটির কোনও উত্তরের উত্তর দিতে পারেন?

— সিলভারফিশ

পি এর নীচে। 5 ডান / পি এর শীর্ষ চিত্র 3 এর সাথে সম্পর্কিত 6 টি বামে এই পোস্টে জিজ্ঞাসিত প্রশ্নের মূল আলোচনা রয়েছে।

— মার্ক এল স্টোন

এটি সমস্ত সঠিক, তবে আমি নিশ্চিত নই যে এটি অপের প্রশ্নের জবাব দিয়েছে।

— অ্যামিবা

অ্যামিবা, উপরের আমার মন্তব্যটি দেখুন, যা সেই লিঙ্কটিকে বোঝায় যা পরবর্তীতে এরিক মিটম্যানের উত্তর, জারাড.মে / স্ট্যাট 15১15 / পেপারস / রিজ_রেগশন_ইন_প্যাক্টিস.পিডিএফ থেকে সম্পাদিত হয়েছে ।

— মার্ক এল স্টোন

সংখ্যার স্থিতিশীলতা এবং ওভারফিটিং কিছু অর্থে সম্পর্কিত তবে বিভিন্ন ইস্যুতে।

ক্লাসিক ওএলএস সমস্যা:

ক্লাসিক সর্বনিম্ন স্কোয়ার সমস্যা বিবেচনা করুন:

minimize (over b) (y - X b)^{T} (y - X b)

$\operatorname*{minimize}(\text{over $\mathbf{b}$}) \quad(\mathbf y-X\mathbf{b})^T(\boldsymbol{y}-X\mathbf{b})$

সমাধানটি ক্লাসিক । একটি ধারণাটি হ'ল বিপুল সংখ্যক আইন দ্বারা: $\hat{\mathbf{b}} = (X'X)^{-1}(X'\mathbf{y})$

lim_{n \to \infty} \frac{1}{n} X^{'} X \to E [x x^{'}] lim_{n \to \infty} \frac{1}{n} X^{'} y \to E [x y]

$\lim_{n \rightarrow \infty} \frac{1}{n} X'X \rightarrow \mathrm{E}[\mathbf{x}\mathbf{x}'] \quad \quad \quad \lim_{n \rightarrow \infty} \frac{1}{n} X'\mathbf{y} \rightarrow \mathrm{E}[\mathbf{x}y]$

সুতরাং ওএলএস অনুমান th এছাড়াও । (লিনিয়ার বীজগণিতের শর্তাবলী এ, র্যান্ডম ভেরিয়েবল এর লিনিয়ার স্প্যানের উপর র্যান্ডম ভেরিয়েবল এর রৈখিক প্রক্ষেপণ )) $\hat{\mathbf{b}}$ $\mathrm{E}[\mathbf{x}\mathbf{x}']^{-1}\mathrm{E}[\mathbf{x}y]$ $y$ $x_1, x_2, \ldots, x_k$

সমস্যা?

যান্ত্রিকভাবে, কী ভুল হতে পারে? সম্ভাব্য সমস্যাগুলি কী কী?

ছোট নমুনাগুলির জন্য, আমাদের sample এবং নমুনা অনুমানগুলি দরিদ্র be $\mathrm{E}[\mathbf{x}\mathbf{x}']$ $\mathrm{E}[\mathbf{x}y]$
যদি এর কলামগুলি কলিনারি হয় (হয় সহজাত কলিনারিটি বা ছোট নমুনার আকারের কারণে), সমস্যার সমাধানটির ধারাবাহিকতা থাকবে! সমাধানটি অনন্য হতে পারে না।
- এটি ঘটে যদি র‌্যাঙ্কের ঘাটতি থাকে। $\mathrm{E}[\mathbf{x}\mathbf{x}']$
- এটি যদি ঘটে থাকে তবে সমস্যার সংখ্যার তুলনায় ক্ষুদ্র নমুনার আকারের কারণে যদি র‍্যাঙ্কের ঘাটতি রয়েছে। $X'X$

সমস্যা (1) অনুমান হিসাবে fit over over হিসাবে ওভারফিট করতে পারে যে অন্তর্নিহিত জনগোষ্ঠীর মধ্যে নেই এমন নমুনার মধ্যে নিদর্শনগুলি প্রতিবিম্বিত করা শুরু করে। অনুমানটি এবং patterns তে নিদর্শনগুলি প্রতিফলিত করতে পারে যা আসলে এবং $\hat{\mathbf{b}}$ $\frac{1}{n}X'X$ $\frac{1}{n}X'\mathbf{y}$ $\mathrm{E}[\mathbf{x}\mathbf{x}']$ $\mathrm{E}[\mathbf{x}y]$

সমস্যা (২) এর অর্থ কোনও সমাধান অনন্য নয়। কল্পনা করুন আমরা পৃথক জুতোর দাম অনুমান করার চেষ্টা করছি তবে জুতাগুলির জোড়া সর্বদা একসাথে বিক্রি হয়। এটি একটি অসুস্থ সমস্যা, তবে ধরা যাক আমরা যাইহোক এটি করছি। আমরা বিশ্বাস করতে পারি যে বাম জুতার দামের সাথে ডান জুতোর দাম 50 সমান , তবে আমরা কীভাবে আলাদা আলাদা মূল্য নিয়ে আসতে পারি? জুতার দাম বামে কী সেট করা এবং ডান জুতার দাম ঠিক আছে? কীভাবে আমরা সমস্ত সম্ভাবনা থেকে বেছে নিতে পারি? $p_l = 45$ $p_r = 5$

জরিমানা উপস্থাপন করা হচ্ছে : $L_2$

এখন বিবেচনা করুন:

minimize (over b) (y - X b)^{T} (y - X b) + λ ‖ b ‖^{2}

$\operatorname*{minimize}(\text{over }\mathbf{b})\quad (\mathbf y-X\mathbf{b})^T(\boldsymbol{y}-X\mathbf{b}) + \lambda\|\boldsymbol{b}\|^2$

এটি আমাদের উভয় প্রকারের সমস্যায় সহায়তা করতে পারে। শাস্তি আমাদের অনুমান পাহাড় জমে শূন্য দিকে। যে সহগ মান উপর বন্টন চারপাশে কেন্দ্রীভূত হয় কার্যকরভাবে একটি Bayesian পূর্বে যেমন এই ফাংশন । এটি ওভারফিটিংয়ে সহায়তা করে। আমাদের অনুমানটি ডেটা এবং আমাদের প্রাথমিক বিশ্বাস উভয়কেই প্রতিফলিত করবে যে zero শূন্যের কাছাকাছি। $L_2$ $\mathbf{b}$ $\mathbf{0}$ $\mathbf{b}$

$L_2$ সমস্যাগুলির একটি অনন্য সমাধান নিয়মিতকরণও সর্বদা আমাদের। আমরা বাম এবং ডান জুতা মূল্যের জানেন তাহলে সমষ্টি হয় , সমাধান যে ছোট আদর্শ পছন্দ করে নিন করা হয় । $\$50$ $L_2$ $p_l = p_r = 25$

এই যাদু কি? না। নিয়মিতকরণ ডেটা যুক্ত করার মতো নয় যা আসলে আমাদের প্রশ্নের উত্তর দেওয়ার অনুমতি দেয়। কিছুটা ক্ষেত্রে নিয়মিতকরণ এই দৃষ্টিভঙ্গি গ্রহণ করে যে আপনার যদি ডেটার অভাব হয় তবে টির কাছাকাছি অনুমানগুলি চয়ন করুন । $L_2$ $0$

— ম্যাথু গন
সূত্র

রিজ রিগ্রেশনতে "ম্যাট্রিক্স ইনভার্সনের সংখ্যার স্থিতিশীলতা" এবং ওভারফিট হ্রাসে এর ভূমিকার জন্য লুসিড ব্যাখ্যা

ক্লাসিক ওএলএস সমস্যা:

সমস্যা?

জরিমানা উপস্থাপন করা হচ্ছে :L2L2L_2

জরিমানা উপস্থাপন করা হচ্ছে : $L_2$