আমি ব্যবহার করে মডেল নির্বাচন করতে চাই regsubsets()
। আমার কাছে অলিম্পিয়াডটেন (ডেটা আপলোড করা হয়েছে: http://www.sendspace.com/file/8e27d0 ) নামে একটি ডেটাফ্রেম রয়েছে । আমি প্রথমে এই ডেটাফ্রেমটি সংযুক্ত করি এবং তারপরে বিশ্লেষণ শুরু করি, আমার কোডটি হ'ল:
attach(olympiadaten)
library(leaps)
a<-regsubsets(Gesamt ~ CommunistSocialist + CountrySize + GNI + Lifeexp +
Schoolyears + ExpMilitary + Mortality +
PopPoverty + PopTotal + ExpEdu + ExpHealth, data=olympiadaten, nbest=2)
summary(a)
plot(a,scale="adjr2")
summary(lm(Gesamt~ExpHealth))
প্লটের স্ক্রিনশট:
সমস্যাটি হ'ল, আমি আবার "ম্যানুয়ালি" সেরা মডেলটি ফিট করতে চাই এবং এটি একবার দেখতে চাই, তবে অ্যাডজাস্টেড আর স্কোয়ারের মানটি কি রেজিউসেটস আউটপুটের মতো নয়? এটি অন্যান্য মডেলের ক্ষেত্রেও হয়, উদাহরণস্বরূপ যখন আমি গ্রাফিকের মধ্যে সবচেয়ে সাধারণ মডেলটি করি:
summary(lm(Gesamt~ExpHealth))
গ্রাফিকটি বলছে, এটির প্রায় 0.14 এর সমন্বিত আর স্কোয়ার হওয়া উচিত, তবে যখন আমি আউটপুটটি দেখি তখন আমি একটি মান 0.06435 পাই।
এখানে ফলাফল summary(lm(Gesamt~ExpHealth))
:
Call:
lm(formula = Gesamt ~ ExpHealth)
Residuals:
Min 1Q Median 3Q Max
-18.686 -9.856 -4.496 1.434 81.980
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -3.0681 6.1683 -0.497 0.6203
ExpHealth 1.9903 0.7805 2.550 0.0127 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 18.71 on 79 degrees of freedom
(4 observations deleted due to missingness)
Multiple R-squared: 0.07605, Adjusted R-squared: 0.06435
F-statistic: 6.502 on 1 and 79 DF, p-value: 0.01271
আমি জানি না আমি কী ভুল করে থাকতে পারি, কোনও সাহায্যের প্রশংসা হবে।
এবং সর্বশেষে তবে কম নয়, আরও কিছু প্রশ্ন:
- এআইসি এবং অ্যাডওয়্যারের মাধ্যমে মডেল নির্বাচন করার মধ্যে পার্থক্য কী। বর্গাকার?
- উভয়ই ফিট ফিট করে এবং ভেরিয়েবলের সংখ্যা সনাক্ত করে, তাই এআইসি দ্বারা নির্বাচিত সেরা মডেলটি সর্বোচ্চ অ্যাডজাস্ট সহ মডেলও নয়। বর্গাকার?
- আমার যখন 12 ভেরিয়েবল রয়েছে, এর অর্থ, মডেলগুলির সম্ভাবনা রয়েছে, তাই না?
- সুতরাং
regsubsets()
কমান্ডটি কি প্রতিটি মডেল গণনা করে এবংnbest=2
প্রতিটি আকারের সেরা দুটি ( ) দেখায় ? - যদি তা হয় তবে আমি কী সত্যিই 'সেরা' মডেলটি পাই?
- এবং আমি যখন পিছনের দিকের নির্বাচনটি এআইসি করি (সমস্ত ভেরিয়েবলগুলি রয়েছে এমন মডেল দিয়ে শুরু করে), তখন কি এটি একই মডেলের সাথে শেষ হয় যা
regsubsets()
বলে যে সবচেয়ে ভাল?