একাধিক লিনিয়ার রিগ্রেশন জন্য ন্যূনতম বর্গাকার অনুমানকারী কীভাবে পাওয়া যায়?

30

রৈখিক রিগ্রেশনের ক্ষেত্রে সহজ সালে $y=\beta_0+\beta_1x$ , আপনি অন্তত বর্গ মূল্নির্ধারক আহরণ করতে $\hat\beta_1=\frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sum(x_i-\bar x)^2}$ যেমন আপনাকে জানতে হবে হবে নাঅনুমান করার জন্য $\hat\beta_0$ $\hat\beta_1$

ধরুন আমি $y=\beta_1x_1+\beta_2x_2$ , কিভাবে আমি আহরণ না আনুমানিক হিসাব ছাড়া ? নাকি এটা সম্ভব নয়? $\hat\beta_1$ $\hat\beta_2$

— সাবের সিএন
সূত্র

1

আপনি ভেরিয়েবলগুলির মধ্যে একটি বাদ দিতে পারেন এবং অন্যটির স্বতন্ত্র থাকলেও তার নিরপেক্ষ অনুমান সংগ্রহ করতে পারেন।

— ডেভিড 25272

51

ম্যাট্রিক্স স্বরলিপি মধ্যে প্রাপ্ত

থেকে শুরু করা $y= Xb +\epsilon$ , যা সত্যই ঠিক তেমন

$\begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{N} \end{bmatrix} = \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1K} \\ x_{21} & x_{22} & \cdots & x_{2K} \\ \vdots & \ddots & \ddots & \vdots \\ x_{N1} & x_{N2} & \cdots & x_{NK} \end{bmatrix} * \begin{bmatrix} b_{1} \\ b_{2} \\ \vdots \\ b_{K} \end{bmatrix} + \begin{bmatrix} \epsilon_{1} \\ \epsilon_{2} \\ \vdots \\ \epsilon_{N} \end{bmatrix}$

এটা সব minimzing আসে নিচে : $e'e$

$\epsilon'\epsilon = \begin{bmatrix} e_{1} & e_{2} & \cdots & e_{N} \\ \end{bmatrix} \begin{bmatrix} e_{1} \\ e_{2} \\ \vdots \\ e_{N} \end{bmatrix} = \sum_{i=1}^{N}e_{i}^{2}$

কমানোর তাই আমাদের দেয়: $e'e'$

$min_{b}$ $e'e = (y-Xb)'(y-Xb)$

$min_{b}$ $e'e = y'y - 2b'X'y + b'X'Xb$

$\frac{\partial(e'e)}{\partial b} = -2X'y + 2X'Xb \stackrel{!}{=} 0$

$X'Xb=X'y$

$b=(X'X)^{-1}X'y$

একটি সর্বশেষ গাণিতিক জিনিস, ন্যূনতম জন্য দ্বিতীয় ক্রমের শর্তের জন্য ম্যাট্রিক্স ইতিবাচক সুনির্দিষ্ট। এর পূর্ণ পদ রয়েছে এমন ক্ষেত্রে এই প্রয়োজনীয়তা পূরণ করা হবে । $X'X$ $X$

বৃহত্তর অধিদফতরের সমস্ত পদক্ষেপের গর্তে যে সঠিক সংজ্ঞাটি পাওয়া যায় সেটিকে http://economictheoryblog.com/2015/02/19/ols_estimator/ এর অধীনে পাওয়া যাবে

— আন্ড্রেস দিবাসি
সূত্র

3

এই ব্যয়টি হ'ল আমি যা অনুসন্ধান করছিলাম। কোন স্কিপড স্টেপস নেই। আশ্চর্যজনক যে একই রকম পাওয়া কতটা কঠিন।

— জাভাদবা

1

ম্যাট্রিক্স সমীকরণে, দ্বিতীয়টি *হওয়া উচিত নয় +? এছাড়াও, মাত্রাগুলি মিলানোর জন্য

পরিবর্তে

হওয়া উচিত নয় ?

b_{K}

$b_K$

b_{N}

$b_N$

— অ্যালেক্সিস ওলসন

আলেক্সিস ওলসন, আপনি ঠিক বলেছেন! আমি আমার উত্তর সম্পাদনা করেছি।

— Andreas Dibiasi

13

অন্যের অনুমান না করেই একাধিক রিগ্রেশনে কেবলমাত্র একটি গুণফলের অনুমান করা সম্ভব।

অন্যান্য ভেরিয়েবল থেকে এর প্রভাবগুলি সরিয়ে এবং তারপরে অবশিষ্টাংশের বিরুদ্ধে এর অবশিষ্টাংশগুলি পুনরায় চাপিয়ে এর অনুমানটি পাওয়া যায় । এটি ব্যাখ্যা করা এবং চিত্রিত করা হয় যে অন্য ভেরিয়েবলগুলির জন্য একটি ঠিক কীভাবে নিয়ন্ত্রণ করে? এবং (ক) রিগ্রেশন সহগকে কীভাবে স্বাভাবিক করা যায়? । এই পদ্ধতির সৌন্দর্যটি হ'ল এর জন্য কোনও ক্যালকুলাসের প্রয়োজন নেই, লিনিয়ার বীজগণিতের প্রয়োজন নেই, কেবল দ্বি-মাত্রিক জ্যামিতি ব্যবহার করে দৃশ্যমান করা যেতে পারে, সংখ্যাগতভাবে স্থিতিশীল এবং একাধিক প্রতিরোধের কেবলমাত্র একটি মৌলিক ধারণাটি কাজে লাগান: তা বের করার (বা "নিয়ন্ত্রণের জন্য") ) একটি একক চলকের প্রভাব। $\beta_1$ $x_2$ $y$ $x_1$

বর্তমান ক্ষেত্রে তিনটি সাধারণ রিগ্রেশন পদক্ষেপ ব্যবহার করে একাধিক রিগ্রেশন করা যেতে পারে:

রেজিস্ট্রেশন করুন (ধ্রুবক শব্দ ছাড়া!)। হইয়া হতে দিন । অনুমানটি হ'ল $y$ $x_2$ $y = \alpha_{y,2}x_2 + \delta$ সুতরাং অবশিষ্টাংশগুলি জ্যামিতিক,কি বাম হয়তার অভিক্ষেপ পর সম্মুখেরবিয়োগ করা হয়।
$α_{y, 2} = \frac{\sum_{i} y_{i} x_{2 i}}{\sum_{i} x_{2 i}^{2}} .$ $\alpha_{y,2} = \frac{\sum_i y_i x_{2i}}{\sum_i x_{2i}^2}.$ $δ = y - α_{y, 2} x_{2} .$ $\delta = y - \alpha_{y,2}x_2.$ $\delta$ $y$ $x_2$
রেজিস্ট্রেশন করুন (একটি ধ্রুবক শব্দ ব্যতীত)। হইয়া হতে দিন । অনুমানটি $x_1$ $x_2$ $x_1 = \alpha_{1,2}x_2 + \gamma$ অবশিষ্টাংশগুলিজ্যামিতিক,কি বাম হয়এর অভিক্ষেপ পর সম্মুখেরবিয়োগ করা হয়।
$α_{1, 2} = \frac{\sum_{i} x_{1 i} x_{2 i}}{\sum_{i} x_{2 i}^{2}} .$ $\alpha_{1,2} = \frac{\sum_i x_{1i} x_{2i}}{\sum_i x_{2i}^2}.$ $γ = x_{1} - α_{1, 2} x_{2} .$ $\gamma = x_1 - \alpha_{1,2}x_2.$ $\gamma$ $x_1$ $x_2$
প্রত্যাবর্তন উপর (ছাড়া একটি ধ্রুবক শব্দ)। অনুমান $\delta$ $\gamma$ মাপসই করা হবে। এর উপাদান(যা প্রতিনিধিত্ব করেসঙ্গেমধ্যে বাইরে নিয়ে যাওয়া)দিক (যা প্রতিনিধিত্ব করেসঙ্গেবাইরে নিয়ে যাওয়া)।
${\hat{β}}_{1} = \frac{\sum_{i} δ_{i} γ_{i}}{\sum_{i} γ_{i}^{2}} .$ $\hat\beta_1 = \frac{\sum_i \delta_i \gamma_i}{\sum_i \gamma_i^2}.$ $\delta = \hat\beta_1 \gamma + \varepsilon$ $\hat\beta_1$ $\delta$ $y$ $x_2$ $\gamma$ $x_1$ $x_2$

লক্ষ্য করুন যে অনুমান করা হয়নি। $\beta_2$ এটা সহজেই কি এতদূর (ঠিক যেমন হয়েছে সেগুলোও থেকে উদ্ধার করা সম্ভব সাধারণ রিগ্রেশন ক্ষেত্রে সহজে ঢাল হিসাব থেকে প্রাপ্ত হয় )। এর bivariate রিগ্রেশন জন্য অবশিষ্টাংশ হয় উপর এবং । $\hat\beta_0$ $\hat\beta_1$ $\varepsilon$ $y$ $x_1$ $x_2$

সাধারণ রিগ্রেশন সহ সমান্তরাল শক্তিশালী: পদক্ষেপ (1) এবং (2) হ'ল সাধারন সূত্রে মাধ্যমকে বিয়োগ করে আনার। যদি আপনি কে এর ভেক্টর হতে দেন তবে আপনি প্রকৃত সূত্রটি পুনরুদ্ধার করতে পারেন। $x_2$

$\hat\beta_1$ $y$ $x_1$ $y$

— whuber
সূত্র

1

গ্রেট উত্তর, এখানে একটি সাধারণ উপপাদ্য en.wikipedia.org/wiki/...

— JohnK

4

$\beta$ $\beta$ $Y_i$ $X_{ki}$

$(\beta_0, \beta_1, ...,\beta_k)$

Y_{i} = β_{0} + β_{1} X_{1 i} + . . . + β_{k} X_{k i} + ϵ_{i}

$Y_i = \beta_0+\beta_1X_{1i}+...+\beta_kX_{ki}+\epsilon_i$

$\epsilon_i \overset{iid}{\sim} N(0,\sigma^2)$ $i=1,...,n$ $\mathbf{X}$ $n\times k$ $n$ $k^{th}$ $X_k$ . You can find many explanations and derivations here of the formula used to calculate the estimated coefficients $\boldsymbol{\hat{\beta}}=(\hat{\beta}_0, \hat{\beta}_1, ..., \hat{\beta}_k)$ , which is

\hat{β} = (X^{'} X)^{- 1} X^{'} Y

$\boldsymbol{\hat{\beta}}=(\mathbf{X}^\prime \mathbf{X})^{-1}\mathbf{X}^\prime \mathbf{Y}$

assuming that the inverse $(\mathbf{X}^\prime \mathbf{X})^{-1}$ exists. The estimated coefficients are functions of the data, not of the other estimated coefficients.

— caburke
সূত্র

I have a follow up question, on the simple regression case, you make

y_{i} = β_{0} + β_{1} \bar{x} + β_{1} (x_{i} - \bar{x}) + e_{i}

$y_i=\beta_0+\beta_1\bar x+\beta_1(x_i-\bar x)+e_i$ then

X

$X$ becomes a matrix of

(1, . . ., 1)

$(1,...,1)$ and

(x_{1} - \bar{x}, . . ., x_{n} - \bar{x})

$(x_1-\bar x,...,x_n-\bar x)$ , then follow through the

\hat{β} = (X^{'} X)^{(} - 1) X^{'} Y

$\hat\beta=(X'X)^(-1)X'Y$ . How should I rewrite the equation in my case?

— Saber CN

And 1 more question, does this apply to cases where

x_{1}

$x_1$ and

x_{2}

$x_2$ are not linear, but the model is still linear? For example the decay curve

y = β_{1} e^{x_{1} t} + β_{2} e^{x_{2} t}

$y=\beta_1 e^{x_1t}+\beta_2 e^{x_2t}$ , can I substitute the exponential with

x_{1}^{'}

$x_1'$ and

x_{2}^{'}

$x_2'$ so it becomes my original question?

— Saber CN

In your first comment, you can center the variable (subtract its mean from it) and use that is your independent variable. Search for "standardized regression". The formula you wrote in terms of matrices is not correct. For your second question, yes you may do that, a linear model is one that is linear in

β

$\beta$ , so as long as

y

$y$ equal to a linear combination of

β

$\beta$ 's you are fine.

— caburke

2

(+1). But shouldn't it be "

n \times k

$n \times k$ matrix" instead of

k \times n

$k \times n$ ?

— miura

3

One small minor note on theory vs. practice. Mathematically $\beta_0, \beta_1, \beta_2 ... \beta_n$ can be estimated with the following formula:

\hat{β} = (X^{'} X)^{- 1} X^{'} Y

$\hat{\beta} = (X'X)^{-1} X'Y$

where $X$ is the original input data and $Y$ is the variable that we want to estimate. This follows from minimizing the error. I will proove this before making a small practical point.

Let $e_i$ be the error the linear regression makes at point $i$ . Then:

e_{i} = y_{i} - \hat{y_{i}}

$e_i = y_i - \hat{y_i}$

The total squared error we make is now:

\sum_{i = 1}^{n} e_{i}^{2} = \sum_{i = 1}^{n} (y_{i} - \hat{y_{i}})^{2}

$\sum_{i=1}^n e_i^2 = \sum_{i=1}^n (y_i - \hat{y_i})^2$

Because we have a linear model we know that:

\hat{y_{i}} = β_{0} + β_{1} x_{1, i} + β_{2} x_{2, i} + . . . + β_{n} x_{n, i}

$\hat{y_i} = \beta_0 + \beta_1 x_{1,i} + \beta_2 x_{2,i} + ... + \beta_n x_{n,i}$

Which can be rewritten in matrix notation as:

\hat{Y} = X β

$\hat{Y} = X\beta$

We know that

\sum_{i = 1}^{n} e_{i}^{2} = E^{'} E

$\sum_{i=1}^n e_i^2 = E'E$

We want to minimize the total square error, such that the following expression should be as small as possible

E^{'} E = (Y - \hat{Y})^{'} (Y - \hat{Y})

$E'E = (Y-\hat{Y})' (Y-\hat{Y})$

This is equal to:

E^{'} E = (Y - X β)^{'} (Y - X β)

$E'E = (Y-X\beta)' (Y-X\beta)$

The rewriting might seem confusing but it follows from linear algebra. Notice that the matrices behave similar to variables when we are multiplying them in some regards.

We want to find the values of $\beta$ such that this expression is as small as possible. We will need to differentiate and set the derivative equal to zero. We use the chain rule here.

\frac{d E^{'} E}{d β} = - 2 X^{'} Y + 2 X^{'} X β = 0

$\frac{dE'E}{d\beta} = - 2 X'Y + 2 X'X\beta = 0$

This gives:

X^{'} X β = X^{'} Y

$X'X\beta = X'Y$

Such that finally:

β = (X^{'} X)^{- 1} X^{'} Y

$\beta = (X'X)^{-1} X'Y$

So mathematically we seem to have found a solution. There is one problem though, and that is that $(X'X)^{-1}$ is very hard to calculate if the matrix $X$ is very very large. This might give numerical accuracy issues. Another way to find the optimal values for $\beta$ in this situation is to use a gradient descent type of method. The function that we want to optimize is unbounded and convex so we would also use a gradient method in practice if need be.

— Vincent Warmerdam
সূত্র

except that you don't actually need to compute

(X^{'} X)^{- 1}

$(X'X)^{-1}$ ...

— user603

বৈধ বিন্দু. একটিও গ্রাম স্কমিট প্রক্রিয়াটি ব্যবহার করতে পারে তবে আমি কেবল মন্তব্য করতে চেয়েছিলাম যে সর্বোত্তম মানগুলি খুঁজে পেতে

β

$\beta$ জড়তার কারণে ভেক্টরটি সংখ্যাগতভাবেও করা যেতে পারে।

— ভিনসেন্ট ওয়ারমারডাম

2

এলআর-এর জ্যামিতিক ব্যাখ্যার মাধ্যমে একটি সাধারণ বিকাশ করা যেতে পারে।

লিনিয়ার রিগ্রেশন এর প্রক্ষেপণ হিসাবে ব্যাখ্যা করা যেতে পারে $Y$ কলাম স্পেসে $X$ । সুতরাং, ত্রুটি, $\hat{\epsilon}$ এর কলাম স্পেসে অরথোগোনাল $X$ ।

সুতরাং, এর মধ্যে অভ্যন্তরীণ পণ্য $X'$ এবং ত্রুটি অবশ্যই 0 হওয়া উচিত,

$<X', y-X\hat{\beta}> = 0$

$X'y - X'X\hat{\beta} = 0$

$X'y = X'X\hat{\beta}$

যা বোঝায় যে,

$(X'X)^{-1}X'y = \hat{\beta}$ ।

এখন একই কাজটি করা যেতে পারে:

(1) প্রজেক্টিং $Y$ সম্মুখের দিকে $X_2$ (ত্রুটি $\delta = Y-X_2 \hat{D}$ ), $\hat{D} = (X_2'X_2)^{-1}X_2'y$ ,

(2) প্রজেক্টিং $X_1$ সম্মুখের দিকে $X_2$ (ত্রুটি $\gamma = X_1 - X_2 \hat{G}$ ), $\hat{G} = (X_1'X_1)^{-1}X_1X_2$ ,

এবং পরিশেষে,

(3) প্রজেক্টিং $\delta$ সম্মুখের দিকে $\gamma$ , $\hat{\beta}_1$

— Dnaiel
সূত্র