আর এর lm () আউটপুট এর ব্যাখ্যা


234

আর-এর সহায়তা পৃষ্ঠাগুলি ধরে নিয়েছে যে আমি জানি যে এই সংখ্যাগুলির অর্থ কী, তবে আমি তা করি না। আমি এখানে প্রতিটি সংখ্যা সত্যিই স্বজ্ঞাতভাবে বোঝার চেষ্টা করছি। আমি কেবল আউটপুট পোস্ট করব এবং আমি কী জানতে পেরে মন্তব্য করব। ভুল (হতে পারে) থাকতে পারে, আমি যা অনুমান করি ঠিক তাই লিখব। মূলত আমি জানতে চাই যে সহগের টি-মান বলতে কী বোঝায় এবং কেন তারা অবশিষ্ট মান ত্রুটি মুদ্রণ করে।

Call:
lm(formula = iris$Sepal.Width ~ iris$Petal.Width)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.09907 -0.23626 -0.01064  0.23345  1.17532 

এটি অবশিষ্টাংশের একটি 5-পয়েন্ট-সংক্ষিপ্তসার (তাদের গড়টি সর্বদা 0, ডান?) কোনও বড় বিদেশী আছে কিনা তাড়াতাড়ি দেখতে নম্বরগুলি ব্যবহার করা যেতে পারে (আমি এখানে অনুমান করছি)। এছাড়াও অবশিষ্টাংশগুলি সাধারণত বিতরণ করা থেকে দূরে থাকলে (তারা সাধারণত বিতরণ করা উচিত) আপনি এখানে এটি ইতিমধ্যে দেখতে পারবেন।

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)       3.30843    0.06210  53.278  < 2e-16 ***
iris$Petal.Width -0.20936    0.04374  -4.786 4.07e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

সর্বনিম্ন স্কোয়ার রিগ্রেশন দ্বারা গণনা করা অনুমান করে। এছাড়াও, মান ত্রুটি । আমি এটি কীভাবে গণনা করা হয় তা জানতে চাই। টি-মান এবং সংশ্লিষ্ট পি-মানটি কোথা থেকে এসেছে তা আমার কোনও ধারণা নেই। আমি জানি স্বাভাবিক বিতরণ করা উচিত, তবে টি-মানটি কীভাবে গণনা করা হয়?βi^σβiβ^

Residual standard error: 0.407 on 148 degrees of freedom

1npϵTϵআমি অনুমান করি। ।, তবে আমরা কেন এটি গণনা করব এবং এটি আমাদের কী বলে?

Multiple R-squared: 0.134,  Adjusted R-squared: 0.1282 

R2=sy^2sy2 , যা । পয়েন্টগুলি যদি একটি সরলরেখায় থাকে তবে অনুপাতটি 1 এর কাছাকাছি এবং 0 এগুলি এলোমেলো হলে। সমন্বিত আর-স্কোয়ারটি কী?i=1n(yi^y¯)2i=1n(yiy¯)2

F-statistic: 22.91 on 1 and 148 DF,  p-value: 4.073e-06 

পূর্বের মত কেবল একক s এর জন্য নয়, পুরো মডেলের জন্য F এবং p । এফ মান । এটি যত বড় হয়, ততই সম্ভাবনা কম থাকে যে এর কোনও প্রভাব নেই।βisy^2ϵiβ


অবশিষ্টাংশগুলি এত স্বাভাবিকভাবে স্বাভাবিক থেকে বিচ্যুত হয় না, আপনি কেন এমনটা ভাবেন?
নিকো

@নিকো: আমার মনে হয় @ অ্যালেক্সেক্স হার্ড্ট অনুমানমূলকভাবে কথা বলছিলেন। অর্থাত একবার পারে পাঁচটি সংখ্যা সারসংক্ষেপ ব্যবহার করেন অবশিষ্টাংশ স্বাভাবিক থেকে বিচ্যুত হয়েছে দেখতে
গেভিন সিম্পসন

@ গ্যাভিন সিম্পসন: আপনি ঠিক বলেছেন, আমি বাক্যটি ভুলভাবে পড়েছি। আমার পূর্ববর্তী মন্তব্য উপেক্ষা করুন।
নিকো

9
মাইনর কুইবল: আপনি কেবল 5 টি কোয়ান্টাইলের উপর ভিত্তি করে স্বাভাবিকতা বা অ-স্বাভাবিকতা সম্পর্কে কিছু বলতে পারবেন না। যে সংক্ষিপ্তসারটির ভিত্তিতে আপনি যা বলতে পারবেন তা হ'ল অনুমানিত অবশিষ্টাংশগুলি প্রায় শূন্যের কাছাকাছি প্রতিসম হয় কিনা। আপনি আনুমানিক অবশিষ্টাংশের স্ট্যান্ডার্ড ত্রুটি দ্বারা প্রতিবেদনিত কোয়ান্টাইলগুলি বিভক্ত করতে পারেন এবং এই মানগুলিকে এন এর সাথে সম্পর্কিত কোয়ান্টাইলগুলির সাথে তুলনা করতে পারেন (0,1), তবে কিউকিউ-প্লটের দিকে তাকানো সম্ভবত আরও অর্থবোধ করে।
কল্পনা

5
মডেল: এক নোট এখানে নয় , বরং এটা । নীচের উত্তরে সঠিকভাবে বর্ণনা করা হয়েছে, তবে এটি স্পষ্টভাবে উল্লেখ করে না যে এটি প্রশ্নে ভ্রান্তচক্রিত হয়েছে, সুতরাং কেউ হয়তো এই তাত্পর্যটি লক্ষ্য করবেন না। FSSmodel/SSerrorMSmodel/MSerrorF
গাং

উত্তর:


202

পাঁচ দফা সংক্ষিপ্তসার

হ্যাঁ, ধারণাটি হ'ল বিতরণটির দ্রুত সংক্ষিপ্তসার দেওয়া। এটি গড় সম্পর্কে মোটামুটি প্রতিসাম্যপূর্ণ হওয়া উচিত, মাঝারিটি 0 টির কাছাকাছি হওয়া উচিত, 1Q এবং 3Q মানগুলি আদর্শভাবে মোটামুটি একই মানের হতে হবে।

সহগ এবংβi^s

মডেলের প্রতিটি সহগ একটি গাউসিয়ান (সাধারণ) এলোমেলো পরিবর্তনশীল। যে দৈব চলক বিতরণের গড় হিসেব, এবং মান ত্রুটি যে বিতরণের ভ্যারিয়েন্সের বর্গমূল। এটা অনুমানে অনিশ্চয়তা একটি পরিমাপ ।βi^βi^

এগুলি কীভাবে উইকিপিডিয়ায় গণনা করা হয় (গাণিতিক সূত্রগুলি ভাল ব্যবহার করা হয়) তা দেখতে পারেন । নোট করুন যে কোনও স্ব-সম্মানজনক পরিসংখ্যান প্রোগ্রাম গণনা করার জন্য স্ট্যান্ডার্ড গাণিতিক সমীকরণগুলি ব্যবহার করবে না কারণ কম্পিউটারে সেগুলি করার ফলে গণনাগুলিতে নির্ভুলতার বড় ক্ষতি হতে পারে canβi^

t স্ট্যাটিস্টিকস

পরিসংখ্যান অনুমান ( ) তাদের মান ত্রুটি দ্বারা বিভক্ত ( ), যেমন। ধরে নিলাম আপনার কিউ এর মতো একই মডেল রয়েছে :tβi^σi^ti=βi^σi^mod

> mod <- lm(Sepal.Width ~ Petal.Width, data = iris)

এরপরে টিস্যুতে আর রিপোর্টগুলি হিসাবে গণনা করা হয়:t

> tstats <- coef(mod) / sqrt(diag(vcov(mod)))
(Intercept) Petal.Width 
  53.277950   -4.786461 

কোথায় coef(mod)হয় , এবং মডেল পরামিতি কোভ্যারিয়েন্স ম্যাট্রিক্স তির্যক উপাদান, যা পরামিতি মান ত্রুটি হয় বর্গমূল দেয় ( )।βi^sqrt(diag(vcov(mod)))σi^

পি-মান হ'ল একটি অর্জন করার সম্ভাবনা যত বড় বা পরিলক্ষিত পরম টি মান নাল হাইপোথিসিস (যদি চেয়ে বড় ) সত্য ছিল, যেখানে হয় । এগুলি ( উপরে থেকে ব্যবহার করে ) হিসাবে গণনা করা হয় :|t|H0H0βi=0tstats

> 2 * pt(abs(tstats), df = df.residual(mod), lower.tail = FALSE)
 (Intercept)  Petal.Width 
1.835999e-98 4.073229e-06

সুতরাং আমরা মডেলের স্বাধীনতার ডিগ্রী বাকী ডিগ্রির সমান স্বাধীনতার ডিগ্রি সহ একটি বিতরণ থেকে - মান অর্জনের উপরের লেজের সম্ভাব্যতাটি গণনা করি । এটি পর্যবেক্ষণকৃত এর পরম মানের চেয়ে বেশি মানের মান অর্জনের সম্ভাব্যতা উপস্থাপন করে । এটি 2 দ্বারা গুণিত হয়, কারণ অবশ্যই নেতিবাচক দিকেও বড় হতে পারে।ttttt

অবশিষ্ট স্ট্যান্ডার্ড ত্রুটি

অবশিষ্ট অবধি ত্রুটি প্যারামিটার একটি অনুমান । সাধারণ ন্যূনতম স্কোয়ারগুলিতে অনুমানটি হ'ল অবশিষ্টাংশগুলি পৃথকভাবে গড় 0 এবং স্ট্যান্ডার্ড বিচ্যুতি সহ গাউসীয় (সাধারণ) বন্টন দ্বারা পৃথকভাবে বর্ণনা করা হয় । ধ্রুবক ভ্যারিয়েন্স ধৃষ্টতা সম্পর্কিত; প্রতিটি অবশিষ্টাংশের একই বৈকল্পিকতা রয়েছে এবং সেই বৈকল্পিকটি । সমান ।σσσσ2

সমন্বিতR2

সমন্বিত এরূপে গণনা করা হয়:R2

1(1R2)n1np1

স্থায়ী হিসাবে একই জিনিস , কিন্তু (অর্থাত পরামিতি সংখ্যা) মডেল জটিলতা জন্য স্থায়ী। একটি নির্দিষ্ট প্যারামিটার সহ একটি মডেল দেওয়া হয়েছে, একটি নির্দিষ্ট , আমরা যদি এই মডেলটিতে অন্য একটি প্যারামিটার যুক্ত করি তবে নতুন মডেলের বৃদ্ধি করতে হবে, এমনকি যুক্ত পরামিতির কোনও পরিসংখ্যানীয় শক্তি না থাকলেও । অ্যাডজাস্ট করা এতে মডেলের পরামিতিগুলির সংখ্যা অন্তর্ভুক্ত করে forR2R2R2R2R2

F স্ট্যাটাস্টিক

দুই ভেরিয়ানস (অনুপাত ), ভ্যারিয়েন্স মডেল মাপদণ্ডগুলি (প্রত্যাবৃত্তি, SSR বর্গের সমষ্টি) এবং অবশিষ্ট বা অব্যাখ্যাত ভ্যারিয়েন্স (ত্রুটি বর্গের সমষ্টি, SSE) দ্বারা ব্যাখ্যা। আপনি যদি মডেলের জন্য আনোভা টেবিলটি পেয়ে থাকেন তবে আপনি এটি আরও ভাল দেখতে পাবেন :FSSR/SSEanova()

> anova(mod)
Analysis of Variance Table

Response: Sepal.Width
             Df  Sum Sq Mean Sq F value    Pr(>F)    
Petal.Width   1  3.7945  3.7945   22.91 4.073e-06 ***
Residuals   148 24.5124  0.1656                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

গুলি ANOVA আউটপুট এবং একই আউটপুট। কলাম দুই ভেরিয়ানস রয়েছে । আমরা 1 এবং 148 ডিগ্রির স্বাধীনতার ডিস্ট্রিবিউশন থেকে কোনও ডিস্ট্রিবিউশন থেকে কোনও কার্যকারিতার নাল অনুমানের অধীনে অর্জনের সম্ভাবনা গণনা করতে পারি । আনোভা সারণীর চূড়ান্ত কলামে এটিই জানা গেছে। একক, অবিচ্ছিন্ন ভবিষ্যদ্বাণীকারীর সাধারণ ক্ষেত্রে (আপনার উদাহরণ অনুসারে), , যে কারণে পি-মানগুলি একই। এই সমতুল্যতা কেবল এই সাধারণ ক্ষেত্রে ধারণ করে।Fsummary(mod)Mean Sq3.7945/0.1656=22.91FFF=tPetal.Width2


5
@ গ্যাভিন (+1) দুর্দান্ত চিত্র সহ দুর্দান্ত প্রতিক্রিয়া!
chl

2
সুন্দর কাজ. টি মানগুলি গণনা করার ক্ষেত্রে আপনি একটি বিষয় স্পষ্ট করে বলতে পারেন: স্কয়ার্ট (ডায়াগ (vcov (মোড))) অনুমানের এসই উত্পাদন করে। এগুলি একই এসইগুলি যা মডেলের সারাংশে আউটপুট হয়। আরও সহজ এবং পরিষ্কার করে বলা যায় যে টি = প্রাক্কলন / নির্মান timate এই অর্থে এটি অন্য কোনও টি মানের চেয়ে আলাদা নয়।
ব্রেট

2
(+1) এটি দুর্দান্ত। কেবলমাত্র আমি যুক্ত করব মানটি জন্য এর সমান (যার কারণে পি মানগুলি একই)। এটি - অবশ্যই - একাধিক ব্যাখ্যামূলক ভেরিয়েবলের সাথে সত্য নয়। Ft2

2
@Jay; ধন্যবাদ। আমি যে সমতুল্য উল্লেখ সম্পর্কে ভেবেছি। এটি খুব বিস্তারিত ছিল কিনা তা নিশ্চিত ছিল না? আমি একটি mo এ কিছু বিজ্ঞাপন করব।
গ্যাভিন সিম্পসন

2
"গণনা করার জন্য মানক গাণিতিক সমীকরণ ব্যবহার করবেন না" তারা কী ব্যবহার করবে?
স্মৃতিচেস

0

রোনেন ইস্রায়েল এবং অ্যাড্রিয়েন রস (এ কিউআর) এই বিষয়ে একটি খুব সুন্দর কাগজ লিখেছিলেন: ফ্যাক্টর এক্সপোজারগুলি পরিমাপ: ব্যবহার এবং আপত্তি

সংক্ষিপ্ত বিবরণে (দেখুন: পৃষ্ঠা 8),

  • সাধারণত, উচ্চতর the আরও ভাল মডেলটি পোর্টফোলিওর রিটার্ন ব্যাখ্যা করে।R2
  • টি-স্ট্যাটিস্টিক যখন দু'জনের চেয়ে বেশি হয়, আমরা 95% আত্মবিশ্বাসের সাথে বলতে পারি (বা আমরা 5% সুযোগ ভুল করছি) বিটা অনুমানটি পরিসংখ্যানগতভাবে শূন্যের চেয়ে আলাদা। অন্য কথায়, আমরা বলতে পারি যে একটি পোর্টফোলিওর কোনও ফ্যাক্টরের সাথে তাৎপর্যপূর্ণ এক্সপোজার থাকে।

আর এর lm()সারাংশ পি-মান গণনা করে Pr(>|t|)। পি-মানটি যত ছোট হবে তত তাত বেশি তাত্পর্যপূর্ণ। পি-মান = 0.05 একটি যুক্তিসঙ্গত প্রান্তিক স্তর।


6
এই গবেষণাপত্রে যে ধরণের ভুল তথ্য রয়েছে তার উদাহরণ দিয়ে বলা হয়েছে, "যখন টি-স্ট্যাটিস্টিক দুটি থেকে বেশি হয়, আমরা বলতে পারি (সাথে ... একটি 5% সুযোগ আমরা ভুল করছি) যে বিটা অনুমানটি পরিসংখ্যানগতভাবে শূন্য থেকে পৃথক" [পি তে । 11], stats.stackexchange.com/questions/311763 এবং stats.stackexchange.com/questions/26450 এ আলোচনা করা হয় ।
whuber
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.