আমি ভাবছি যে লিনিয়ার মডেলটিতে আংশিক এবং সহগগুলির মধ্যে সঠিক সম্পর্কটি কী এবং কারণগুলির গুরুত্ব এবং প্রভাব চিত্রিত করার জন্য আমার কেবল একটি বা উভয় ব্যবহার করা উচিত।
আমি যতদূর জানি, summary
সহগের অনুমানের সাথে, এবং anova
প্রতিটি ফ্যাক্টরের জন্য স্কোয়ারের যোগফলের সাথে - বর্গাকার যোগফলের যোগফলের যোগফলের দ্বারা বিভক্ত একটি ফ্যাক্টরের বর্গের যোগফলের অনুপাত আংশিক ( নিম্নলিখিত কোডটি রয়েছে R
)।
library(car)
mod<-lm(education~income+young+urban,data=Anscombe)
summary(mod)
Call:
lm(formula = education ~ income + young + urban, data = Anscombe)
Residuals:
Min 1Q Median 3Q Max
-60.240 -15.738 -1.156 15.883 51.380
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.868e+02 6.492e+01 -4.418 5.82e-05 ***
income 8.065e-02 9.299e-03 8.674 2.56e-11 ***
young 8.173e-01 1.598e-01 5.115 5.69e-06 ***
urban -1.058e-01 3.428e-02 -3.086 0.00339 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 26.69 on 47 degrees of freedom
Multiple R-squared: 0.6896, Adjusted R-squared: 0.6698
F-statistic: 34.81 on 3 and 47 DF, p-value: 5.337e-12
anova(mod)
Analysis of Variance Table
Response: education
Df Sum Sq Mean Sq F value Pr(>F)
income 1 48087 48087 67.4869 1.219e-10 ***
young 1 19537 19537 27.4192 3.767e-06 ***
urban 1 6787 6787 9.5255 0.003393 **
Residuals 47 33489 713
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
'তরুণ' (0.8) এবং 'শহুরে' (-0.1, পূর্বের প্রায় 1/8, উপেক্ষা করে '-') এর সহগের আকারের বর্ণিত বর্ণটি ('তরুণ' ~ 19500 এবং 'শহুরে' মেলে না ~ 6790, অর্থাৎ প্রায় 1/3)।
সুতরাং আমি ভেবেছিলাম আমার ডেটা স্কেল করা দরকার কারণ আমি ধরে নিয়েছিলাম যে কোনও ফ্যাক্টরের পরিসর যদি অন্য ফ্যাক্টরের সীমার চেয়ে আরও বিস্তৃত হয় তবে তাদের সহগের তুলনা করা শক্ত হবে:
Anscombe.sc<-data.frame(scale(Anscombe))
mod<-lm(education~income+young+urban,data=Anscombe.sc)
summary(mod)
Call:
lm(formula = education ~ income + young + urban, data = Anscombe.sc)
Residuals:
Min 1Q Median 3Q Max
-1.29675 -0.33879 -0.02489 0.34191 1.10602
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.084e-16 8.046e-02 0.000 1.00000
income 9.723e-01 1.121e-01 8.674 2.56e-11 ***
young 4.216e-01 8.242e-02 5.115 5.69e-06 ***
urban -3.447e-01 1.117e-01 -3.086 0.00339 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.5746 on 47 degrees of freedom
Multiple R-squared: 0.6896, Adjusted R-squared: 0.6698
F-statistic: 34.81 on 3 and 47 DF, p-value: 5.337e-12
anova(mod)
Analysis of Variance Table
Response: education
Df Sum Sq Mean Sq F value Pr(>F)
income 1 22.2830 22.2830 67.4869 1.219e-10 ***
young 1 9.0533 9.0533 27.4192 3.767e-06 ***
urban 1 3.1451 3.1451 9.5255 0.003393 **
Residuals 47 15.5186 0.3302
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
তবে এটি আসলে কোনও পার্থক্য করে না, আংশিক এবং সহগের আকার (এটি এখন মানক সহগ ) এখনও মেলে না:
22.3/(22.3+9.1+3.1+15.5)
# income: partial R2 0.446, Coeff 0.97
9.1/(22.3+9.1+3.1+15.5)
# young: partial R2 0.182, Coeff 0.42
3.1/(22.3+9.1+3.1+15.5)
# urban: partial R2 0.062, Coeff -0.34
তাহলে কি এটা বলা উচিত যে 'যুবক' 'আরবান' এর চেয়ে তিনগুণ তারতম্য ব্যাখ্যা করে কারণ 'যুবকদের' জন্য আংশিক 'নগর ' এর চেয়ে তিনগুণ বেশি? 'যুবক' এর সহগ কেন 'শহুরে' (চিহ্নটিকে উপেক্ষা করে) এর চেয়ে তিন গুণ নয়?
আমি মনে করি এই প্রশ্নের উত্তরটি পরে আমার প্রাথমিক প্রশ্নের উত্তরও আমাকে বলবে: আমি কি কারণগুলির অপেক্ষাকৃত গুরুত্ব চিত্রিত করতে আংশিক বা সহগ ব্যবহার করব? (প্রভাবের দিকটিকে উপেক্ষা করা - সাইন - আপাতত))
সম্পাদনা:
আংশিক এটা-স্কোয়ারটি আমি আংশিক বলেছিলাম তার অন্য নাম হিসাবে উপস্থিত হয় । এটাস্ক {হেপলটস} একটি কার্যকর ফাংশন যা অনুরূপ ফলাফল দেয়:
etasq(mod)
Partial eta^2
income 0.6154918
young 0.3576083
urban 0.1685162
Residuals NA