সাধারণ লিনিয়ার রিগ্রেশন, পি-মান এবং এআইসি


13

আমি বুঝতে পারি যে এখানে এখানে আগে বেশ কয়েকটি বার এই বিষয়টি উঠে এসেছে , তবে আমি এখনও নিশ্চিত না যে আমার রিগ্রেশন আউটপুটকে কীভাবে ব্যাখ্যা করা যায়।

আমার কাছে খুব সহজ একটি ডেটাসেট রয়েছে, যার সাথে x মানগুলির একটি কলাম এবং y মানগুলির একটি কলাম রয়েছে , যা স্থান ( লোকেশন ) অনুসারে দুটি গ্রুপে বিভক্ত । পয়েন্টগুলি দেখতে এটির মতো

এখানে চিত্র বর্ণনা লিখুন

একজন সহকর্মী অনুমান করেছেন যে আমাদের ব্যবহার করে প্রতিটি গ্রুপের জন্য পৃথক সরল রৈখিক নিয়ন্ত্রণগুলিকে ফিট করা উচিত y ~ x * C(loc)। আউটপুট নীচে প্রদর্শিত হয়।

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.873
Model:                            OLS   Adj. R-squared:                  0.866
Method:                 Least Squares   F-statistic:                     139.2
Date:                Mon, 13 Jun 2016   Prob (F-statistic):           3.05e-27
Time:                        14:18:50   Log-Likelihood:                -27.981
No. Observations:                  65   AIC:                             63.96
Df Residuals:                      61   BIC:                             72.66
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
=================================================================================
                    coef    std err          t      P>|t|      [95.0% Conf. Int.]
---------------------------------------------------------------------------------
Intercept         3.8000      1.784      2.129      0.037         0.232     7.368
C(loc)[T.N]      -0.4921      1.948     -0.253      0.801        -4.388     3.404
x                -0.6466      0.230     -2.807      0.007        -1.107    -0.186
x:C(loc)[T.N]     0.2719      0.257      1.057      0.295        -0.242     0.786
==============================================================================
Omnibus:                       22.788   Durbin-Watson:                   2.552
Prob(Omnibus):                  0.000   Jarque-Bera (JB):              121.307
Skew:                           0.629   Prob(JB):                     4.56e-27
Kurtosis:                       9.573   Cond. No.                         467.
==============================================================================

এখানে চিত্র বর্ণনা লিখুন

সহগের জন্য পি-মানগুলির দিকে তাকিয়ে অবস্থানের জন্য ডামি ভেরিয়েবল এবং ইন্টারঅ্যাকশন শব্দটি শূন্যের থেকে উল্লেখযোগ্যভাবে আলাদা নয়, সেক্ষেত্রে আমার রিগ্রেশন মডেলটি মূলত উপরের প্লটটিতে কেবল লাল রেখায় হ্রাস পায়। আমার কাছে এটি পরামর্শ দেয় যে দুটি গ্রুপের জন্য আলাদা লাইন লাগানো ভুল হতে পারে এবং আরও ভাল মডেলটি পুরো ডেটাসেটের জন্য একক রিগ্রেশন লাইন হতে পারে, নীচে দেখানো হয়েছে।

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.593
Model:                            OLS   Adj. R-squared:                  0.587
Method:                 Least Squares   F-statistic:                     91.93
Date:                Mon, 13 Jun 2016   Prob (F-statistic):           6.29e-14
Time:                        14:24:50   Log-Likelihood:                -65.687
No. Observations:                  65   AIC:                             135.4
Df Residuals:                      63   BIC:                             139.7
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [95.0% Conf. Int.]
------------------------------------------------------------------------------
Intercept      8.9278      0.935      9.550      0.000         7.060    10.796
x             -1.2446      0.130     -9.588      0.000        -1.504    -0.985
==============================================================================
Omnibus:                        0.112   Durbin-Watson:                   1.151
Prob(Omnibus):                  0.945   Jarque-Bera (JB):                0.006
Skew:                           0.018   Prob(JB):                        0.997
Kurtosis:                       2.972   Cond. No.                         81.9
==============================================================================

এখানে চিত্র বর্ণনা লিখুন

এটি আমার কাছে দৃশ্যমানভাবে ঠিক আছে এবং সমস্ত সহগের জন্য পি-মানগুলি এখন তাৎপর্যপূর্ণ। তবে দ্বিতীয় মডেলের জন্য এআইসি প্রথমটির চেয়ে অনেক বেশি।

আমি বুঝতে পারি যে মডেল নির্বাচনটি কেবলমাত্র পি-মান বা কেবল এআইসির চেয়ে বেশি , তবে আমি কী করব তা নিশ্চিত নই। দয়া করে এই আউটপুটটি ব্যাখ্যা করার এবং উপযুক্ত মডেলটি বেছে নেওয়ার বিষয়ে কেউ কি কোনও ব্যবহারিক পরামর্শ দিতে পারেন ?

আমার চোখে, একক রিগ্রেশন লাইনটি ঠিক দেখাচ্ছে (যদিও আমি বুঝতে পারি যে এগুলির কোনওটিই বিশেষভাবে ভাল নয়) তবে মনে হয় পৃথক মডেল (?) লাগানোর জন্য কমপক্ষে কিছুটা ন্যায়সঙ্গততা রয়েছে।

ধন্যবাদ!

মন্তব্যের জবাবে সম্পাদিত

@ ক্যাগডাস ওজজেঙ্ক

পাইথনের স্ট্যাটাস মডেলগুলি এবং নিম্নলিখিত কোডগুলি ব্যবহার করে দুটি লাইনের মডেলটি লাগানো হয়েছিল

reg = sm.ols(formula='y ~ x * C(loc)', data=df).fit()

যেহেতু আমি এটি বুঝতে পারি, এটি মূলত এর মতো মডেলের জন্য কেবল শর্টহ্যান্ড

y=β0+β1x+β2l+β3xl

lloc=Dl=0

y=β0+β1x

loc=Nl=1

y=(β0+β2)+(β1+β3)x

যা উপরের প্লটটিতে নীল রেখা। এই মডেলের জন্য এআইসি স্ট্যাটাসমডেলের সংক্ষিপ্তসারে স্বয়ংক্রিয়ভাবে প্রতিবেদন করা হয়। এক লাইনের মডেলের জন্য আমি কেবল ব্যবহার করেছি

reg = ols(formula='y ~ x', data=df).fit()

আমি মনে করি এটি ঠিক আছে?

@ user2864849

loc=D

সম্পাদনা 2

কেবল সম্পূর্ণতার জন্য, এখানে @ প্ল্যাটফর্মের পরামর্শ অনুসারে অবশিষ্ট প্লটগুলি দেওয়া আছে। দ্বি-লাইনের মডেলটি সত্যই এই দৃষ্টিকোণ থেকে অনেক বেশি ভাল দেখায়।

দ্বি-লাইন মডেল

এখানে চিত্র বর্ণনা লিখুন

এক-লাইন মডেল

এখানে চিত্র বর্ণনা লিখুন

সবাইকে ধন্যবাদ!


3
কেন একক প্রতিরোধের রেখাটি আপনার চেয়ে ভাল দেখাচ্ছে তা বোঝানোর জন্য যত্নশীল? আমার কাছে আমি দুটি ক্লাস্টার দেখতে পাচ্ছি যা লিনিয়ারে পৃথকযোগ্য এবং এন বিভাগের খুব কম বৈকল্পিক রয়েছে। আপনি কি মনে করেন যে ওভারল্যাপিং আত্মবিশ্বাস ব্যান্ডের কারণে প্রথমটি খারাপ?
মার্সেনাউ

6
x

3
R2

3
@ স্টুডেন্টটি উভয় মডেলই সমস্ত ডেটা পয়েন্ট ব্যবহার করে। সাধারণ মডেলটিতে স্বতন্ত্র ভেরিয়েবল কম ব্যবহার করা হয়। একটি ডেটা পয়েন্ট হ'ল পুরো টিপল।
ক্যাগডাস ওজজেঙ্ক

5
আপনি যদি মডেল নির্বাচনের জন্য কোনও হাইপোথিসিস-টেস্ট ভিত্তিক পদ্ধতি গ্রহণ করতে চান তবে আপনার অবশ্যই ধরে নেওয়া উচিত নয় কারণ দুটি ভবিষ্যদ্বাণীকারী প্রতিটিই তুচ্ছ হিসাবে মডেল থেকে উভয়ই অপসারণের সামান্য আমদানি হবে। যৌথ তাৎপর্যের জন্য এফ-পরীক্ষা উপযুক্ত হবে।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

উত্তর:


1

আপনি কি মিথস্ক্রিয়া ছাড়াই উভয় ভবিষ্যদ্বাণীকে ব্যবহার করার চেষ্টা করেছিলেন? সুতরাং এটি হবে:

y ~ x + লোকেশন

প্রথম মডেলটিতে এআইসি আরও ভাল হতে পারে কারণ অবস্থানটি গুরুত্বপূর্ণ। তবে মিথস্ক্রিয়াটি গুরুত্বপূর্ণ নয়, যার কারণে পি-মানগুলি তাত্পর্যপূর্ণ নয়। আপনি তখন এটি লকের জন্য নিয়ন্ত্রণের পরে এক্স এর প্রভাব হিসাবে ব্যাখ্যা করবেন।


1

আমি মনে করি আপনি পি-ভ্যালু এবং এআইসির মানগুলি কেবল কোনও মডেলের কার্যকারিতা নির্ধারণ করতে পারে এই ধারণাকে চ্যালেঞ্জ করার জন্য আপনি ভাল করেছেন। আপনি এখানে ভাগ করে নেওয়ার জন্য বেছে নিয়েছেন বলে আমিও আনন্দিত।

যেমন আপনি প্রদর্শিত হয়েছে, আপনি বিভিন্ন শর্তাদি এবং সম্ভবত তাদের মিথস্ক্রিয়া বিবেচনা করার সাথে সাথে বিভিন্ন বাণিজ্য-অফ রয়েছে s সুতরাং একটি প্রশ্ন মাথায় রাখা মডেলটির উদ্দেশ্য । আপনি প্রভাব নির্ধারণ কমিশন থাকেন অবস্থান উপর y, তাহলে আপনি অবস্থান মডেল কিভাবে দুর্বল P-মান নির্বিশেষে রাখা উচিত নয়। একটি নাল ফলাফল নিজেই সেই ক্ষেত্রে গুরুত্বপূর্ণ তথ্য।

প্রথম নজরে, এটি স্পষ্ট মনে হয় Dঅবস্থানটি বৃহত্তর বোঝায় y। তবে কেবলমাত্র একটি সংকীর্ণ পরিসর রয়েছে xযার জন্য আপনার অবস্থানের জন্য Dএবং Nমান উভয়ই রয়েছে । এই ছোট ব্যবধানের জন্য আপনার মডেল সহগকে পুনরায় জেনারেট করার ফলে সম্ভবত আরও বড় স্ট্যান্ডার্ড ত্রুটি পাওয়া যাবে।

তবে সম্ভবত আপনি ভবিষ্যদ্বাণী করার পক্ষে তার সক্ষমতা ছাড়িয়ে অবস্থানের বিষয়ে চিন্তা করবেন না y। আপনার সবেমাত্র এটি ঘটেছিল এমন ডেটা এবং আপনার প্লটটিতে রঙিন কোডিং একটি আকর্ষণীয় নিদর্শন প্রকাশ করেছিল। এক্ষেত্রে আপনি আপনার পছন্দসই গুণফলের ব্যাখ্যার চেয়ে মডেলের ভবিষ্যদ্বাণী সম্পর্কে আরও আগ্রহী হতে পারেন । আমার সন্দেহ হয় এআইসির মানগুলি এই ক্ষেত্রে আরও কার্যকর। আমি এখনও এআইসির সাথে পরিচিত নই; তবে আমি সন্দেহ করি এটি মিশ্র শব্দটিকে দণ্ডিত করতে পারে কারণ কেবলমাত্র একটি ছোট পরিসর রয়েছে যেখানে আপনি স্থির জন্য অবস্থান পরিবর্তন করতে পারেন । ইতিমধ্যে যে অবস্থানটি ব্যাখ্যা করে না এমন খুব কম অবস্থান রয়েছে ।xx


0

আপনাকে অবশ্যই দুটি গ্রুপকে আলাদাভাবে রিপোর্ট করতে হবে (বা সম্ভবত মাল্টি-লেভেল মডেলিং বিবেচনা করুন)। গ্রুপগুলিকে একত্রিত করার জন্য পর্যবেক্ষণের স্বাধীনতা (এবং বেশিরভাগ অন্যান্য অনুমানমূলক পরিসংখ্যান সম্পর্কিত), স্বতন্ত্রতার লঙ্ঘন হয়। বা এটিকে অন্য উপায়ে বলতে গেলে, গ্রুপিং ভেরিয়েবল (অবস্থান) একটি গোপন ভেরিয়েবল যা আপনার বিশ্লেষণে বিবেচনায় না নেওয়া হয়।

চূড়ান্ত ক্ষেত্রে, একটি গ্রুপিং ভেরিয়েবল উপেক্ষা করে সিম্পসনের প্যারাডক্স হতে পারে। এই প্যারাডক্সে, আপনার উভয় ক্ষেত্রে দুটি গ্রুপ থাকতে পারে যার মধ্যে একটি ইতিবাচক সম্পর্ক রয়েছে তবে আপনি যদি তাদের সাথে একত্রিত হন তবে আপনার একটি (মিথ্যা, ভুল) নেতিবাচক সম্পর্ক রয়েছে। (বা অবশ্যই, বিপরীতে।) দেখুন http://www.theregister.co.uk/2014/05/28/theorums_3_simpson/

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.