একেবারেই না. সহগের প্রস্থতা ভেরিয়েবলগুলির জন্য নির্বাচিত স্কেলগুলির উপর সরাসরি নির্ভর করে, যা কিছুটা নির্বিচারে মডেলিংয়ের সিদ্ধান্ত।
এটি দেখতে, একটি আইরিস এর পাপড়ি প্রস্থের (সেন্টিমিটারে) এর পাপড়ি দৈর্ঘ্যের (সেন্টিমিটারে) পূর্বাভাস দিচ্ছে একটি লিনিয়ার রিগ্রেশন মডেল বিবেচনা করুন:
summary(lm(Petal.Width~Petal.Length, data=iris))
# Call:
# lm(formula = Petal.Width ~ Petal.Length, data = iris)
#
# Residuals:
# Min 1Q Median 3Q Max
# -0.56515 -0.12358 -0.01898 0.13288 0.64272
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) -0.363076 0.039762 -9.131 4.7e-16 ***
# Petal.Length 0.415755 0.009582 43.387 < 2e-16 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 0.2065 on 148 degrees of freedom
# Multiple R-squared: 0.9271, Adjusted R-squared: 0.9266
# F-statistic: 1882 on 1 and 148 DF, p-value: < 2.2e-16
আমাদের মডেল 0.9266 এর সমন্বিত আর ^ 2 মান অর্জন করে এবং পেটাল.লাইনথ ভেরিয়েবলের 0.415755 সহগের মান নির্ধারণ করে।
তবে, পেটাল সংজ্ঞা দেওয়ার পছন্দটি সেন্টিমিটারে দৈর্ঘ্যটি বেশ স্বেচ্ছাচারী ছিল এবং আমরা পরিবর্তে মিটারগুলিতে ভেরিয়েবলটি সংজ্ঞায়িত করতে পারতাম:
iris$Petal.Length.Meters <- iris$Petal.Length / 100
summary(lm(Petal.Width~Petal.Length.Meters, data=iris))
# Call:
# lm(formula = Petal.Width ~ Petal.Length.Meters, data = iris)
#
# Residuals:
# Min 1Q Median 3Q Max
# -0.56515 -0.12358 -0.01898 0.13288 0.64272
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) -0.36308 0.03976 -9.131 4.7e-16 ***
# Petal.Length.Meters 41.57554 0.95824 43.387 < 2e-16 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 0.2065 on 148 degrees of freedom
# Multiple R-squared: 0.9271, Adjusted R-squared: 0.9266
# F-statistic: 1882 on 1 and 148 DF, p-value: < 2.2e-16
অবশ্যই এটি কোনওভাবেই লাগানো মডেলকে প্রভাবিত করে না - আমরা কেবল পেটাল.লেন্থ.মিটারকে (৪১.৫75৫৫৪) পেটাল-লেংথ (০.৪১75৫৫৫) এর চেয়ে 100x বৃহত্তর সহগকে অর্পণ করেছি। মডেলের অন্যান্য সমস্ত বৈশিষ্ট্য (সমন্বিত আর। 2, টি-পরিসংখ্যান, পি-মানগুলি ইত্যাদি) অভিন্ন।
সাধারণত নিয়মিত রৈখিক মডেলগুলির ফিটিংগুলি যখন প্রথমে নির্বাচিত স্কেলগুলির উপর ভিত্তি করে অন্যের তুলনায় কিছু ভেরিয়েবলের পক্ষে এড়াতে প্রথমে পরিবর্তনগুলি (উদাহরণস্বরূপ, 0 এবং ইউনিট বৈকল্পিক হওয়া মানে) স্বাভাবিক করবে।
নরমালাইজড ডেটা ধরে নিচ্ছি
এমনকি যদি আপনি সমস্ত ভেরিয়েবলকে সাধারণ করে তোলেন তবে উচ্চতর সহগের সাথে ভেরিয়েবলগুলি এখনও ভবিষ্যদ্বাণীতে কার্যকর হতে পারে না কারণ স্বাধীন ভেরিয়েবলগুলি খুব কমই সেট করা থাকে (কম ভেরিয়েন্স থাকে)। উদাহরণস্বরূপ, নির্ভরশীল ভেরিয়েবল জেড এবং স্বাধীন ভেরিয়েবল এক্স এবং ওয়াই বাইনারি মান গ্রহণ করে একটি ডেটাসেট বিবেচনা করুন
set.seed(144)
dat <- data.frame(X=rep(c(0, 1), each=50000),
Y=rep(c(0, 1), c(1000, 99000)))
dat$Z <- dat$X + 2*dat$Y + rnorm(100000)
নির্মাণের মাধ্যমে, ওয়াইয়ের জন্য সহগ এক্স এর গুণফলের চেয়ে দ্বিগুণ বড় হয় যখন উভয়ই লিনিয়ার রিগ্রেশন মাধ্যমে জেড পূর্বাভাস দেওয়ার জন্য ব্যবহৃত হয়:
summary(lm(Z~X+Y, data=dat))
# Call:
# lm(formula = Z ~ X + Y, data = dat)
#
# Residuals:
# Min 1Q Median 3Q Max
# -4.4991 -0.6749 -0.0056 0.6723 4.7342
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) -0.094793 0.031598 -3.00 0.0027 **
# X 0.999435 0.006352 157.35 <2e-16 ***
# Y 2.099410 0.031919 65.77 <2e-16 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 0.9992 on 99997 degrees of freedom
# Multiple R-squared: 0.2394, Adjusted R-squared: 0.2394
# F-statistic: 1.574e+04 on 2 and 99997 DF, p-value: < 2.2e-16
তবুও, এক্স এর তুলনায় জেডের মধ্যে ভিন্নতার আরও ব্যাখ্যা দেয় (এক্সের সাথে জেড এর পূর্বাভাসকারী লিনিয়ার রিগ্রেশন মডেলটি আর ^ 2 এর মান 0.2065 রয়েছে, তবে লাইনারি রিগ্রেশন মডেলটি জেড এর সাথে ভবিষ্যদ্বাণী করে আর R 2 মান 0.0511 রয়েছে):
summary(lm(Z~X, data=dat))
# Call:
# lm(formula = Z ~ X, data = dat)
#
# Residuals:
# Min 1Q Median 3Q Max
# -5.2587 -0.6759 0.0038 0.6842 4.7342
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) 1.962629 0.004564 430.0 <2e-16 ***
# X 1.041424 0.006455 161.3 <2e-16 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 1.021 on 99998 degrees of freedom
# Multiple R-squared: 0.2065, Adjusted R-squared: 0.2065
# F-statistic: 2.603e+04 on 1 and 99998 DF, p-value: < 2.2e-16
বনাম:
summary(lm(Z~Y, data=dat))
# Call:
# lm(formula = Z ~ Y, data = dat)
#
# Residuals:
# Min 1Q Median 3Q Max
# -5.0038 -0.7638 -0.0007 0.7610 5.2288
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) -0.09479 0.03529 -2.686 0.00724 **
# Y 2.60418 0.03547 73.416 < 2e-16 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 1.116 on 99998 degrees of freedom
# Multiple R-squared: 0.05114, Adjusted R-squared: 0.05113
# F-statistic: 5390 on 1 and 99998 DF, p-value: < 2.2e-16
মাল্টি-কোলাইনারিটির কেস
তৃতীয় ক্ষেত্রে যেখানে বৃহত্তর সহগের মানগুলি প্রতারণা করে তা ভেরিয়েবলের মধ্যে উল্লেখযোগ্য মাল্টি-কোলাইনারিটির ক্ষেত্রে হতে পারে। উদাহরণস্বরূপ, এমন একটি ডেটাসেট বিবেচনা করুন যেখানে এক্স এবং ওয়াই অত্যন্ত সংযুক্ত রয়েছে তবে ডাব্লু অন্য দুটির সাথে খুব বেশি সম্পর্কযুক্ত নয়; আমরা জেড পূর্বাভাস দেওয়ার চেষ্টা করছি:
set.seed(144)
dat <- data.frame(W=rnorm(100000),
X=rnorm(100000))
dat$Y <- dat$X + rnorm(100000, 0, 0.001)
dat$Z <- 2*dat$W+10*dat$X-11*dat$Y + rnorm(100000)
cor(dat)
# W X Y Z
# W 1.000000e+00 5.191809e-05 5.200434e-05 0.8161636
# X 5.191809e-05 1.000000e+00 9.999995e-01 -0.4079183
# Y 5.200434e-05 9.999995e-01 1.000000e+00 -0.4079246
# Z 8.161636e-01 -4.079183e-01 -4.079246e-01 1.0000000
এই ভেরিয়েবলগুলি প্রায় একই গড় (0) এবং বৈকল্পিক (~ 1) থাকে এবং লিনিয়ার রিগ্রেশন এক্স (প্রায় 15) এবং Y (মোটামুটি -16) এর তুলনায় অনেক উচ্চতর সহগ মান (নিখরচায় মান) নির্ধারণ করে মোটামুটি 2):
summary(lm(Z~W+X+Y, data=dat))
# Call:
# lm(formula = Z ~ W + X + Y, data = dat)
#
# Residuals:
# Min 1Q Median 3Q Max
# -4.1886 -0.6760 0.0026 0.6679 4.2232
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) 1.831e-04 3.170e-03 0.058 0.954
# W 2.001e+00 3.172e-03 630.811 < 2e-16 ***
# X 1.509e+01 3.177e+00 4.748 2.05e-06 ***
# Y -1.609e+01 3.177e+00 -5.063 4.13e-07 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 1.002 on 99996 degrees of freedom
# Multiple R-squared: 0.8326, Adjusted R-squared: 0.8326
# F-statistic: 1.658e+05 on 3 and 99996 DF, p-value: < 2.2e-16
তবুও, ডাব্লু মডেলের তিনটি ভেরিয়েবলের মধ্যে সর্বাধিক গুরুত্বপূর্ণ: আপনি যদি ডাব্লুটিকে সম্পূর্ণ মডেল থেকে সরিয়ে ফেলেন, আর ^ 2 টি 0.833 থেকে 0.166 এ নেমে যায়, আপনি যদি এক্স বা ওয়াই ড্রপ করেন তবে কার্যত অপরিবর্তনীয়।