আমাকে এই ধারণাটিতে কিছুটা রঙ লাগাতে দিন যে বিভাগগুলি ( ডামি কোডেড ) রেজিস্ট্রার সহ ওএলএস আনোভা - র কারণগুলির সমতুল্য । উভয় ক্ষেত্রেই স্তর রয়েছে (বা আনোভার ক্ষেত্রে গ্রুপগুলি )।
ওএলএস-এর রিগ্রেশন-এ রেজিস্ট্রারগুলিতে নিয়মিত পরিবর্তনশীল হওয়া সর্বাধিক স্বাভাবিক। এগুলি যুক্তিসঙ্গতভাবে শ্রেণিবদ্ধ ভেরিয়েবল এবং নির্ভরশীল ভেরিয়েবল (ডিসি) এর মধ্যে ফিট মডেলের সম্পর্কের পরিবর্তন করে। তবে সমান্তরাল অপরিবর্তনীয় করে তোলার মতো নয়।
mtcars
ডেটা সেটের ভিত্তিতে আমরা প্রথমে lm(mpg ~ wt + as.factor(cyl), data = mtcars)
ধারাবাহিক পরিবর্তনশীল wt
(ওজন) দ্বারা নির্ধারিত opeাল হিসাবে মডেলটি কল্পনা করতে পারি এবং শ্রেণিবদ্ধ ভেরিয়েবলের প্রভাব cylinder
(চার, ছয় বা আটটি সিলিন্ডার) প্রবর্তনকারী বিভিন্ন ইন্টারসেপ্টগুলি । এটি এই শেষ অংশটি যা একমুখী আনোভা এর সাথে সমান্তরাল রূপ দেয়।
আসুন এটি গ্রাফিকভাবে ডান থেকে সাব প্লটটিতে দেখুন (বামদিকে তিনটি উপ-প্লটগুলি তত্ক্ষণাত আলোচিত আনোভা মডেলের সাথে পার্শ্ব-পার্শ্বে তুলনা করার জন্য অন্তর্ভুক্ত করা হয়েছে):
প্রতিটি সিলিন্ডার ইঞ্জিন রঙিন কোডেড, এবং বিভিন্ন ইন্টারসেপ্ট এবং ডেটা মেঘের সাথে লাগানো লাইনের মধ্যবর্তী দূরত্বটি একটি এএনওওএ -র মধ্যে গ্রুপের পরিবর্তনের সমতুল্য। লক্ষ করুন যে, একটি ক্রমাগত পরিবর্তনশীল (সঙ্গে OLS ঔজ্জ্বল্যের প্রেক্ষাপটে মডেল বিবৃতি weight
) না গাণিতিকভাবে ANOVA বিভিন্ন মধ্যে-গ্রুপ উপায়ে মান হিসাবে একই, এর প্রভাব কারণে weight
এবং বিভিন্ন মডেল ম্যাট্রিক্স (নিচে দেখুন): গড় mpg
জন্য 4-সিলিন্ডার কার, উদাহরণস্বরূপ, হয় mean(mtcars$mpg[mtcars$cyl==4]) #[1] 26.66364
, যেহেতু OLS ঔজ্জ্বল্যের প্রেক্ষাপটে "বেসলাইন" অন্তর্বর্তী মধ্যস্থ্যতাকারীরা (কনভেনশন দ্বারা অনুধ্যায়ী cyl==4
(সর্বনিম্ন দ ক্রম সর্বোচ্চ সংখ্যাসমূহ করার)) লক্ষণীয়ভাবে আলাদা: summary(fit)$coef[1] #[1] 33.99079
। লাইনগুলির Theাল অবিচ্ছিন্ন পরিবর্তনশীলটির জন্য সহগ weight
।
আপনি যদি weight
মানসিকভাবে এই রেখাগুলি সোজা করে এবং অনুভূমিক লাইনে ফিরে এসে এর প্রভাবকে দমন করার চেষ্টা করেন , তবে আপনি aov(mtcars$mpg ~ as.factor(mtcars$cyl))
বামদিকে তিনটি সাব-প্লটের মডেলের আনোভা প্লটটি শেষ করবেন । রেজিস্টার weight
এখন বাইরে, তবে পয়েন্টগুলি থেকে বিভিন্ন ইন্টারসেপ্টের সম্পর্ক মোটামুটিভাবে সংরক্ষণ করা হয়েছে - আমরা কেবল ঘড়ির কাঁটার বিপরীতে ঘুরছি এবং প্রতিটি ভিন্ন স্তরের জন্য পূর্ববর্তী ওভারল্যাপিং প্লটগুলি ছড়িয়ে দিচ্ছি (আবার কেবলমাত্র "দেখার জন্য ভিজ্যুয়াল ডিভাইস হিসাবে" সংযোগ; গাণিতিক সাম্য হিসাবে নয়, যেহেতু আমরা দুটি ভিন্ন মডেলের তুলনা করছি!)।
ফ্যাক্টরের প্রতিটি স্তর cylinder
পৃথক, এবং উল্লম্ব লাইনগুলি অবশিষ্টাংশ বা গোষ্ঠীর ত্রুটির প্রতিনিধিত্ব করে: মেঘের প্রতিটি বিন্দু থেকে দূরত্ব এবং প্রতিটি স্তরের গড় (রঙ-কোডেড অনুভূমিক রেখা)। রঙের গ্রেডিয়েন্টটি আমাদের একটি মডেলকে বৈধতা দেওয়ার ক্ষেত্রে কতটা তাত্পর্যপূর্ণ তা ইঙ্গিত দেয়: যত বেশি ক্লাস্টার করা ডেটা পয়েন্টগুলি তাদের গ্রুপের চারপাশে থাকে, ততই আনোভা মডেল পরিসংখ্যানগতভাবে তাত্পর্যপূর্ণ হয়ে উঠবে। সমস্ত প্লটে ডলারের অনুভূমিক কালো রেখাটি সমস্ত কারণগুলির জন্য গড়। এক্সিসের সংখ্যাগুলি প্রতিটি স্তরের মধ্যে প্রতিটি পয়েন্টের জন্য কেবল স্থানধারক সংখ্যা / শনাক্তকারী এবং বাক্সপ্লটগুলিতে প্লটিং প্রদর্শনের জন্য পৃথক পৃথক পয়েন্টের জন্য অনুভূমিক রেখার সাথে পৃথক পয়েন্ট পৃথক করা ছাড়া আর কোনও উদ্দেশ্য থাকে না।20x
এবং এই উল্লম্ব বিভাগগুলির যোগফলের মাধ্যমে আমরা ম্যানুয়ালি অবশিষ্টাংশগুলি গণনা করতে পারি:
mu_mpg <- mean(mtcars$mpg) # Mean mpg in dataset
TSS <- sum((mtcars$mpg - mu_mpg)^2) # Total sum of squares
SumSq=sum((mtcars[mtcars$cyl==4,"mpg"]-mean(mtcars[mtcars$cyl=="4","mpg"]))^2)+
sum((mtcars[mtcars$cyl==6,"mpg"] - mean(mtcars[mtcars$cyl=="6","mpg"]))^2)+
sum((mtcars[mtcars$cyl==8,"mpg"] - mean(mtcars[mtcars$cyl=="8","mpg"]))^2)
ফলাফল: SumSq = 301.2626
এবং TSS - SumSq = 824.7846
। তুলনা করা:
Call:
aov(formula = mtcars$mpg ~ as.factor(mtcars$cyl))
Terms:
as.factor(mtcars$cyl) Residuals
Sum of Squares 824.7846 301.2626
Deg. of Freedom 2 29
ঠিক cylinder
রেজিস্ট্রার হিসাবে শ্রেণীবদ্ধ সঙ্গে একটি আনোভা লিনিয়ার মডেলের সাথে পরীক্ষার ঠিক একই ফলাফল :
fit <- lm(mpg ~ as.factor(cyl), data = mtcars)
summary(fit)
anova(fit)
Analysis of Variance Table
Response: mpg
Df Sum Sq Mean Sq F value Pr(>F)
as.factor(cyl) 2 824.78 412.39 39.697 4.979e-09 ***
Residuals 29 301.26 10.39
আমরা যা দেখতে পাই তা হ'ল অবশিষ্টাংশগুলি - মডেলের দ্বারা ব্যাখ্যা না করা মোট বৈকল্পিকের অংশটি - পাশাপাশি বৈকল্পিকটি হ'ল আপনি টাইপের কোনও ওএলএস lm(DV ~ factors)
, বা একটি এনওওভা ( aov(DV ~ factors)
): যখন আমরা স্ট্রিপ করি তখন ধারাবাহিক পরিবর্তনশীলগুলির মডেল আমরা একটি অভিন্ন সিস্টেমের সাথে শেষ করি। একইভাবে, যখন আমরা বিশ্বব্যাপী বা সর্বজনীন আনোভা (স্তরের স্তরের নয়) হিসাবে মডেলগুলি মূল্যায়ন করি তখন আমরা স্বাভাবিকভাবে একই পি-মান পাই F-statistic: 39.7 on 2 and 29 DF, p-value: 4.979e-09
।
এর অর্থ এই নয় যে স্বতন্ত্র স্তরের পরীক্ষার ফলে অভিন্ন পি-মান পাওয়া যাবে। ওএলএসের ক্ষেত্রে, আমরা অনুরোধ করতে summary(fit)
এবং পেতে পারি:
lm(formula = mpg ~ as.factor(cyl), data = mtcars)
Estimate Std. Error t value Pr(>|t|)
(Intercept) 26.6636 0.9718 27.437 < 2e-16 ***
as.factor(cyl)6 -6.9208 1.5583 -4.441 0.000119 ***
as.factor(cyl)8 -11.5636 1.2986 -8.905 8.57e-10 ***
আনোভাতে এটি সম্ভব নয়, এটি একটি সর্বজনীন পরীক্ষার বেশি। এই ধরণের মান মূল্যায়নগুলি পেতে আমাদের একটি টুকি হুস্টিক তাৎপর্যপূর্ণ পার্থক্য পরীক্ষা চালানো দরকার, যা একাধিক জোড়া সংক্রান্ত তুলনা (সুতরাং, " ") ফলস্বরূপ টাইপ 1 ত্রুটির সম্ভাবনা হ্রাস করার চেষ্টা করবে , যার ফলস্বরূপ সম্পূর্ণ ভিন্ন আউটপুট:pp adjusted
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = mtcars$mpg ~ as.factor(mtcars$cyl))
$`as.factor(mtcars$cyl)`
diff lwr upr p adj
6-4 -6.920779 -10.769350 -3.0722086 0.0003424
8-4 -11.563636 -14.770779 -8.3564942 0.0000000
8-6 -4.642857 -8.327583 -0.9581313 0.0112287
পরিশেষে, হুডের নিচে ইঞ্জিনে উঁকি দেওয়া ছাড়া আর কিছুই আশ্বাস দেয় না, যা মডেল ম্যাট্রিকেস ছাড়া আর কিছুই নয় এবং কলামের জায়গার মধ্যে থাকা অনুমানগুলি। আনোভার ক্ষেত্রে এগুলি আসলে বেশ সহজ:
⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢y1y2y3⋮⋮⋮.yn⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢11⋮00⋮.0000⋮11⋮.0000⋮00⋮.11⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎡⎣⎢μ1μ2μ3⎤⎦⎥+⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢ε1ε2ε3⋮⋮⋮.εn⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥(1)
এই একমুখী তিনটি স্তর (যেমন সঙ্গে ANOVA মডেল ম্যাট্রিক্স হবে cyl 4
, cyl 6
, cyl 8
), সংক্ষিপ্ত , যেখানে প্রতিটি স্তরের বা গোষ্ঠী এ গড়: যখন পর্যবেক্ষণ জন্য ত্রুটি বা অবশিষ্ট গোষ্ঠী বা স্তরের যোগ করা হয়, আমরা প্রকৃত ডিভি প্রাপ্ত পর্যবেক্ষণ।yij=μi+ϵijμijiyij
অন্যদিকে, ওএলএস রিগ্রেশনটির মডেল ম্যাট্রিক্স হ'ল:
⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢y1y2y3y4⋮yn⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢1111⋮1x12x22x32x42⋮xn2x13x23x33x43⋮xn3⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎡⎣⎢β0β1β2⎤⎦⎥+⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢ε1ε2ε3ε4⋮εn⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥
এটি একক বিরতি এবং দুটি ( এবং ) প্রত্যেকটির জন্য একটি ভিন্ন ধ্রুবক ভেরিয়েবল, বলুন এবং ।yi=β0+β1xi1+β2xi2+ϵiβ0β1β2weight
displacement
কৌশলটি এখন দেখতে হবে যে আমরা প্রাথমিক উদাহরণ হিসাবে যেমন কীভাবে বিভিন্ন ইন্টারসেপ্ট তৈরি করতে পারি lm(mpg ~ wt + as.factor(cyl), data = mtcars)
- তাই আসুন দ্বিতীয় opeালু থেকে মুক্তি পেয়ে আসল একক ধারাবাহিক চলকটির কাছে আটকে থাকি weight
(অন্য কথায়, এর কলামগুলির পাশাপাশি একটি একক কলামও থাকে) মডেল ম্যাট্রিক্স; ইন্টারসেপ্ট এবং , )। 'এর কলামটি ডিফল্টরূপে বিরতিতে অনুরূপ correspond আবার, এর মান অ্যানোভা-গোষ্ঠীর অভ্যন্তরের মতো নয় , এমন একটি পর্যবেক্ষণ যা ওএলএস মডেল ম্যাট্রিক্সের (নীচে) the এর প্রথম কলামের সাথে এর কলামের তুলনা করে অবাক হওয়ার মতো নয় shouldβ0weight
β11cyl 4
cyl 4
11আনোভা মডেল ম্যাট্রিক্সে যা কেবলমাত্র 4-সিলিন্ডার সহ উদাহরণ নির্বাচন করে। পথিমধ্যে প্রভাব ব্যাখ্যা করতে কোডিং ডামি মাধ্যমে স্থানান্তরিত করা হবে না এবং নিম্নরূপ:(1),cyl 6
cyl 8
⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢y1y2y3y4y5⋮yn⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢11111⋮1x1x2x3x4x5⋮xn⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥[β0β1]+⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢11100⋮000011⋮1⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥[μ~2μ~3]+⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢ε1ε2ε3ε4ε5⋮εn⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥
এখন যখন তৃতীয় কলামটি আমরা নিয়মিতভাবে দ্বারা ইন্টারসেপ্ট স্থানান্তর করব যে ইঙ্গিত করে যে OLS ঔজ্জ্বল্যের প্রেক্ষাপটে মডেল 4-সিলিন্ডার গাড়ির গ্রুপ গড় অভিন্ন হচ্ছে না, কিন্তু এটা অনুধ্যায়ী "বেসলাইন" অন্তর্বর্তী মধ্যস্থ্যতাকারীরা ক্ষেত্রে হিসাবে, OLS ঔজ্জ্বল্যের প্রেক্ষাপটে মডেল মাত্রা মধ্যে পার্থক্য নয় গাণিতিকভাবে মধ্যে গ্রুপ-গ্রুপ পার্থক্য:1μ~2.⋅~
fit <- lm(mpg ~ wt + as.factor(cyl), data = mtcars)
summary(fit)$coef[3] #[1] -4.255582 (difference between intercepts cyl==4 and cyl==6 in OLS)
fit <- lm(mpg ~ as.factor(cyl), data = mtcars)
summary(fit)$coef[2] #[1] -6.920779 (difference between group mean cyl==4 and cyl==6)
তেমনিভাবে, যখন চতুর্থ কলামটি , তখন একটি স্থির মান বাধা দিতে হবে। ম্যাট্রিক্স সমীকরণ, অতএব, । সুতরাং, এই মডেলটির সাথে আনোভা মডেলের সাথে যাওয়া কেবল অবিচ্ছিন্ন ভেরিয়েবলগুলি থেকে মুক্তি পাওয়ার এবং ওএলএস-এ ডিফল্ট ইন্টারসেপ্ট আনোভাতে প্রথম স্তরের প্রতিফলন বোঝার বিষয়।1μ~3yi=β0+β1xi+μ~i+ϵi