আমি বুঝতে পারি যে এখানে এখানে আগে বেশ কয়েকটি বার এই বিষয়টি উঠে এসেছে , তবে আমি এখনও নিশ্চিত না যে আমার রিগ্রেশন আউটপুটকে কীভাবে ব্যাখ্যা করা যায়।
আমার কাছে খুব সহজ একটি ডেটাসেট রয়েছে, যার সাথে x মানগুলির একটি কলাম এবং y মানগুলির একটি কলাম রয়েছে , যা স্থান ( লোকেশন ) অনুসারে দুটি গ্রুপে বিভক্ত । পয়েন্টগুলি দেখতে এটির মতো
একজন সহকর্মী অনুমান করেছেন যে আমাদের ব্যবহার করে প্রতিটি গ্রুপের জন্য পৃথক সরল রৈখিক নিয়ন্ত্রণগুলিকে ফিট করা উচিত y ~ x * C(loc)
। আউটপুট নীচে প্রদর্শিত হয়।
OLS Regression Results
==============================================================================
Dep. Variable: y R-squared: 0.873
Model: OLS Adj. R-squared: 0.866
Method: Least Squares F-statistic: 139.2
Date: Mon, 13 Jun 2016 Prob (F-statistic): 3.05e-27
Time: 14:18:50 Log-Likelihood: -27.981
No. Observations: 65 AIC: 63.96
Df Residuals: 61 BIC: 72.66
Df Model: 3
Covariance Type: nonrobust
=================================================================================
coef std err t P>|t| [95.0% Conf. Int.]
---------------------------------------------------------------------------------
Intercept 3.8000 1.784 2.129 0.037 0.232 7.368
C(loc)[T.N] -0.4921 1.948 -0.253 0.801 -4.388 3.404
x -0.6466 0.230 -2.807 0.007 -1.107 -0.186
x:C(loc)[T.N] 0.2719 0.257 1.057 0.295 -0.242 0.786
==============================================================================
Omnibus: 22.788 Durbin-Watson: 2.552
Prob(Omnibus): 0.000 Jarque-Bera (JB): 121.307
Skew: 0.629 Prob(JB): 4.56e-27
Kurtosis: 9.573 Cond. No. 467.
==============================================================================
সহগের জন্য পি-মানগুলির দিকে তাকিয়ে অবস্থানের জন্য ডামি ভেরিয়েবল এবং ইন্টারঅ্যাকশন শব্দটি শূন্যের থেকে উল্লেখযোগ্যভাবে আলাদা নয়, সেক্ষেত্রে আমার রিগ্রেশন মডেলটি মূলত উপরের প্লটটিতে কেবল লাল রেখায় হ্রাস পায়। আমার কাছে এটি পরামর্শ দেয় যে দুটি গ্রুপের জন্য আলাদা লাইন লাগানো ভুল হতে পারে এবং আরও ভাল মডেলটি পুরো ডেটাসেটের জন্য একক রিগ্রেশন লাইন হতে পারে, নীচে দেখানো হয়েছে।
OLS Regression Results
==============================================================================
Dep. Variable: y R-squared: 0.593
Model: OLS Adj. R-squared: 0.587
Method: Least Squares F-statistic: 91.93
Date: Mon, 13 Jun 2016 Prob (F-statistic): 6.29e-14
Time: 14:24:50 Log-Likelihood: -65.687
No. Observations: 65 AIC: 135.4
Df Residuals: 63 BIC: 139.7
Df Model: 1
Covariance Type: nonrobust
==============================================================================
coef std err t P>|t| [95.0% Conf. Int.]
------------------------------------------------------------------------------
Intercept 8.9278 0.935 9.550 0.000 7.060 10.796
x -1.2446 0.130 -9.588 0.000 -1.504 -0.985
==============================================================================
Omnibus: 0.112 Durbin-Watson: 1.151
Prob(Omnibus): 0.945 Jarque-Bera (JB): 0.006
Skew: 0.018 Prob(JB): 0.997
Kurtosis: 2.972 Cond. No. 81.9
==============================================================================
এটি আমার কাছে দৃশ্যমানভাবে ঠিক আছে এবং সমস্ত সহগের জন্য পি-মানগুলি এখন তাৎপর্যপূর্ণ। তবে দ্বিতীয় মডেলের জন্য এআইসি প্রথমটির চেয়ে অনেক বেশি।
আমি বুঝতে পারি যে মডেল নির্বাচনটি কেবলমাত্র পি-মান বা কেবল এআইসির চেয়ে বেশি , তবে আমি কী করব তা নিশ্চিত নই। দয়া করে এই আউটপুটটি ব্যাখ্যা করার এবং উপযুক্ত মডেলটি বেছে নেওয়ার বিষয়ে কেউ কি কোনও ব্যবহারিক পরামর্শ দিতে পারেন ?
আমার চোখে, একক রিগ্রেশন লাইনটি ঠিক দেখাচ্ছে (যদিও আমি বুঝতে পারি যে এগুলির কোনওটিই বিশেষভাবে ভাল নয়) তবে মনে হয় পৃথক মডেল (?) লাগানোর জন্য কমপক্ষে কিছুটা ন্যায়সঙ্গততা রয়েছে।
ধন্যবাদ!
মন্তব্যের জবাবে সম্পাদিত
@ ক্যাগডাস ওজজেঙ্ক
পাইথনের স্ট্যাটাস মডেলগুলি এবং নিম্নলিখিত কোডগুলি ব্যবহার করে দুটি লাইনের মডেলটি লাগানো হয়েছিল
reg = sm.ols(formula='y ~ x * C(loc)', data=df).fit()
যেহেতু আমি এটি বুঝতে পারি, এটি মূলত এর মতো মডেলের জন্য কেবল শর্টহ্যান্ড
যা উপরের প্লটটিতে নীল রেখা। এই মডেলের জন্য এআইসি স্ট্যাটাসমডেলের সংক্ষিপ্তসারে স্বয়ংক্রিয়ভাবে প্রতিবেদন করা হয়। এক লাইনের মডেলের জন্য আমি কেবল ব্যবহার করেছি
reg = ols(formula='y ~ x', data=df).fit()
আমি মনে করি এটি ঠিক আছে?
@ user2864849
সম্পাদনা 2
কেবল সম্পূর্ণতার জন্য, এখানে @ প্ল্যাটফর্মের পরামর্শ অনুসারে অবশিষ্ট প্লটগুলি দেওয়া আছে। দ্বি-লাইনের মডেলটি সত্যই এই দৃষ্টিকোণ থেকে অনেক বেশি ভাল দেখায়।
দ্বি-লাইন মডেল
এক-লাইন মডেল
সবাইকে ধন্যবাদ!