প্রথমত, আমাদের R
যখন বুঝতে হবে যে কোনও মডেলটিতে কোনও ইন্টারসেপ্ট অন্তর্ভুক্ত করা হয়নি তখন সফ্টওয়্যারটি কী করছে। মনে করে দেখুন যে স্বাভাবিক গণনার
একটি পথিমধ্যে উপস্থিত যখন
আর 2 = Σ আমি ( Y আমি - ˉ Y ) 2আর2
প্রথম সাম্যতাটিকেবলমাত্রমডেলটিতে ইন্টারসেপ্ট অন্তর্ভুক্তির কারণেই ঘটেযদিওএটি সম্ভবত এটি লেখার দুটি উপায়েই বেশি জনপ্রিয়। দ্বিতীয়সমতা আসলে আরও সাধারণ ব্যাখ্যা প্রদান করে! এই বিষয়টিএই সম্পর্কিত প্রশ্নেরওঠিকানা।
আর2= ∑আমি( y)^আমি- y¯)2Σআমি( y)আমি- y¯)2= 1 - ∑আমি( y)আমি- y^আমি)2Σআমি( y)আমি- y¯)2।
তবে, মডেলটিতে কোনও বাধা না থাকলে কী ঘটে?
R
আর20= ∑আমিY^2আমিΣআমিY2আমি= 1 - ∑আমি( y)আমি- y^আমি)2ΣআমিY2আমি।
আর2আর20
আর2আর20
তবে, তারা কীভাবে আলাদা এবং কখন?
আসুন কিছু রৈখিক বীজগণিতের জন্য একটি সংক্ষিপ্ত দিকনির্দেশ নেওয়া যাক এবং কী চলছে তা আমরা খুঁজে বের করতে পারি কিনা তা দেখুন। প্রথম সব, এর মডেল থেকে লাগানো মান কল দিন সঙ্গে পথিমধ্যে এবং লাগানো মান বিনা বাধা ছাড়াই মডেল থেকে । ~ YY^Y~
আমরা এবং এর এক্সপ্রেশনগুলি নতুন হিসাবে আবার
এবং
যথাক্রমে ।আর2আর20
আর2= 1 - ∥ y - y^∥22∥ y - y¯1 ∥22,
আর20= 1 - ∥ y - y~∥22∥ y ∥22,
এখন থেকে, , তারপরে যদি এবং কেবল যদি
∥ y ∥22= ∥ y - y¯1 ∥22+ এন y¯2আর20> আর2
∥ y - y~∥22∥ y - y^∥22< 1 + y¯21এন∥ y - y¯1 ∥22।
বাম-হাতের দিকটি একের চেয়ে বেশি, যেহেতু সাথে সম্পর্কিত মডেলটি মধ্যে । ডানদিকে দ্বিতীয় শব্দটি হ'ল একটি বিরতি-কেবল মডেলটির গড় বর্গ ত্রুটি দ্বারা বিভক্ত প্রতিক্রিয়াগুলির স্কোয়ার-গড়। সুতরাং, অন্যান্য প্রকরণের তুলনায় প্রতিক্রিয়ার গড় যত বড় হবে, আমাদের তত বেশি "স্ল্যাক" হবে এবং প্রভাব এর বৃহত্তর সম্ভাবনা ।Y~Y^আর20আর2
লক্ষ্য করুন যে সমস্ত মডেল নির্ভর স্টাফগুলি বাম দিকে রয়েছে এবং মডেলবিহীন নির্ভর স্টাফগুলি ডানদিকে রয়েছে।
ঠিক আছে, তাহলে আমরা কীভাবে বাম দিকের অনুপাতটিকে ছোট করব?
স্মরণ করুন যে
এবং যেখানে এবং এবং সাথে প্রজেকশন ম্যাট্রিক রয়েছে যেমন ।Y~= পি0YY^= পি1Yপি0পি1এস0এস1এস0। এস1
সুতরাং, অনুপাতটি একের কাছাকাছি হওয়ার জন্য, আমাদের খুব বেশি জন্য - এবং প্রয়োজন
। এখন এবং কিনা কেবলমাত্র ভিন্ন , একটি ভিত্তি ভেক্টর বা না তাই তার মানে তাদের
ভাল একটি subspace ইতিমধ্যে খুব পাসে এই ব্যবস্থার সবচেয়ে গুরত্বপূর্ণ হতে ছিল ।এস0এস1এস0এস11এস01
সংক্ষেপে, এর অর্থ আমাদের ভবিষ্যদ্বাণীকারীর কাছে আরও শক্তিশালী গড় অফসেট ছিল এবং এর অর্থ অফসেটটি ভবিষ্যদ্বাণীটির পরিবর্তনের উপর নির্ভর করতে পারে।
একটি উদাহরণ
এখানে আমরা মডেলটিতে স্পষ্টভাবে একটি বাধা দিয়ে একটি উদাহরণ উত্পন্ন করার চেষ্টা করি যা প্রশ্নের ক্ষেত্রে মামলার কাছাকাছি আচরণ করে। নীচে R
প্রদর্শন করার জন্য কয়েকটি সাধারণ কোড দেওয়া আছে।
set.seed(.Random.seed[1])
n <- 220
a <- 0.5
b <- 0.5
se <- 0.25
# Make sure x has a strong mean offset
x <- rnorm(n)/3 + a
y <- a + b*x + se*rnorm(x)
int.lm <- lm(y~x)
noint.lm <- lm(y~x+0) # Intercept be gone!
# For comparison to summary(.) output
rsq.int <- cor(y,x)^2
rsq.noint <- 1-mean((y-noint.lm$fit)^2) / mean(y^2)
এটি নিম্নলিখিত আউটপুট দেয়। আমরা বাধা দিয়ে মডেল দিয়ে শুরু ।
# Include an intercept!
> summary(int.lm)
Call:
lm(formula = y ~ x)
Residuals:
Min 1Q Median 3Q Max
-0.656010 -0.161556 -0.005112 0.178008 0.621790
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.48521 0.02990 16.23 <2e-16 ***
x 0.54239 0.04929 11.00 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.2467 on 218 degrees of freedom
Multiple R-squared: 0.3571, Adjusted R-squared: 0.3541
F-statistic: 121.1 on 1 and 218 DF, p-value: < 2.2e-16
তারপরে, যখন আমরা ইন্টারসেপটি বাদ দিই তখন কী ঘটে তা দেখুন ।
# No intercept!
> summary(noint.lm)
Call:
lm(formula = y ~ x + 0)
Residuals:
Min 1Q Median 3Q Max
-0.62108 -0.08006 0.16295 0.38258 1.02485
Coefficients:
Estimate Std. Error t value Pr(>|t|)
x 1.20712 0.04066 29.69 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.3658 on 219 degrees of freedom
Multiple R-squared: 0.801, Adjusted R-squared: 0.8001
F-statistic: 881.5 on 1 and 219 DF, p-value: < 2.2e-16
নীচে লাল রঙে মডেল-সাথে-বাধা এবং নীল রঙে মডেল-বিনা বাধাদির সাথে ডেটাগুলির একটি প্লট রয়েছে।