আনোভা কেন লিনিয়ার রিগ্রেশন এর সমতুল্য?


50

আমি পড়েছি যে আনোভা এবং লিনিয়ার রিগ্রেশন একই জিনিস। এটি কীভাবে হতে পারে, এটি বিবেচনা করে যে আনোভা আউটপুটটি কিছু মান এবং কিছু মূল্য রয়েছে যার ভিত্তিতে আপনি সিদ্ধান্ত নিয়েছেন যে যদি নমুনার অর্থ বিভিন্ন নমুনা জুড়ে একই বা আলাদা।Fp

তবে ধরে নিচ্ছেন যে উপায়গুলি সমান নয় (নাল হাইপোথিসিসটি প্রত্যাখ্যান করুন), আনোভা আপনাকে রৈখিক মডেলের সহগগুলির সম্পর্কে কিছুই বলবে না। সুতরাং কিভাবে লিনিয়ার রিগ্রেশন আনোভা হিসাবে একই?

উত্তর:


44

আনোভা এবং লিনিয়ার রিগ্রেশন সমতুল্য যখন দুটি মডেল একই অনুমানের বিরুদ্ধে পরীক্ষা করে এবং অভিন্ন এনকোডিং ব্যবহার করে। মডেলগুলি তাদের মৌলিক লক্ষ্যে পৃথক: আনোভা বেশিরভাগ ক্ষেত্রে ডেটাগুলিতে বিভাগগুলির অর্থের মধ্যে পার্থক্য উপস্থাপন করতে উদ্বিগ্ন থাকে যখন লিনিয়ার রিগ্রেশন বেশিরভাগ ক্ষেত্রে একটি নমুনা গড় প্রতিক্রিয়া এবং একটি সম্পর্কিত অনুমান করার জন্য উদ্বেগ প্রকাশ করে ।σ2

কিছুটা এফরিস্টিক্যালি কেউ এএনওওয়াকে ডামি ভেরিয়েবলের সাথে রিগ্রেশন হিসাবে বর্ণনা করতে পারে। আমরা সহজেই দেখতে পারি যে শ্রেণিবদ্ধ ভেরিয়েবলগুলির সাথে সরল রিগ্রেশনে এটি। একটি শ্রেণিবদ্ধ পরিবর্তনশীল একটি সূচক ম্যাট্রিক্স (কোনও 0/1বিষয় একটি নির্দিষ্ট গ্রুপের অংশ কিনা তা নির্ভর করে একটি ম্যাট্রিক্স) হিসাবে এনকোড হবে এবং তারপরে লিনিয়ার রিগ্রেশন দ্বারা বর্ণিত লিনিয়ার সিস্টেমের সমাধানের জন্য সরাসরি ব্যবহৃত হবে। আসুন 5 টি গ্রুপ সহ একটি উদাহরণ দেখি। যুক্তির পক্ষে আমি ধরে নেব যে গড়ের group1গড় 1 group2সমান, 2 এর সমান 2, ... এবং group5সমান 5 এর গড় (আমি ম্যাটল্যাব ব্যবহার করি তবে ঠিক একই জিনিসটি আর এর সমান)

rng(123);               % Fix the seed
X = randi(5,100,1);     % Generate 100 random integer U[1,5]
Y = X + randn(100,1);   % Generate my response sample
Xcat = categorical(X);  % Treat the integers are categories

% One-way ANOVA
[anovaPval,anovatab,stats] = anova1(Y,Xcat);
% Linear regression
fitObj = fitlm(Xcat,Y);

% Get the group means from the ANOVA
ANOVAgroupMeans = stats.means
% ANOVAgroupMeans =
% 1.0953    1.8421    2.7350    4.2321    5.0517

% Get the beta coefficients from the linear regression
LRbetas = [fitObj.Coefficients.Estimate'] 
% LRbetas =
% 1.0953    0.7468    1.6398    3.1368    3.9565

% Rescale the betas according the intercept
scaledLRbetas = [LRbetas(1) LRbetas(1)+LRbetas(2:5)]
% scaledLRbetas =
% 1.0953    1.8421    2.7350    4.2321    5.0517

% Check if the two results are numerically equivalent
abs(max( scaledLRbetas - ANOVAgroupMeans)) 
% ans =
% 2.6645e-15

যেহেতু এই দৃশ্যে দেখা যাবে ফলাফলগুলি যেখানে একই রকম। মিনিটের সংখ্যাসূচক পার্থক্যটি নকশাকে পুরোপুরি সুষম না করার পাশাপাশি আন্ডারলাইং অনুমান পদ্ধতি হিসাবে দেখা দেয়; আনোভা সংখ্যাগত ত্রুটিগুলি আরও কিছুটা আক্রমণাত্মকভাবে জমে। সেই সম্মানের জন্য আমরা একটি বাধা ফিট করি LRbetas(1); আমরা একটি বিরতি-মুক্ত মডেল ফিট করতে পারি তবে এটি "স্ট্যান্ডার্ড" লিনিয়ার রিগ্রেশন হবে না। (ফলাফলগুলি যদিও এ ক্ষেত্রে আনোভা আরও কাছাকাছি হবে))

-statistic ANOVA ক্ষেত্রে এবং রৈখিক রিগ্রেশনের ক্ষেত্রে (ক উপায়ে অনুপাত) হতে আরো উপরোক্ত উদাহরণে জন্য একই হবে:F

abs( fitObj.anova.F(1) - anovatab{2,5} )
% ans =
% 2.9132e-13 

কারণ কারণগুলি একই অনুমানের পরীক্ষা করে তবে বিভিন্ন শব্দগুলির সাথে: আনোভা গুণগতভাবে পরীক্ষা করে দেখবে যে " অনুপাতটি কোনও গ্রুপিংয়ের ক্ষেত্রে ত্রুটিযুক্ত নয় বলে প্রস্তাব করার জন্য যথেষ্ট উচ্চ " তবে লিনিয়ার রিগ্রেশন গুণগতভাবে পরীক্ষা করবে কিনা " অনুপাত কেবলমাত্র একটি ইন্টারসেপ্টের প্রস্তাব দেওয়ার পক্ষে যথেষ্ট? মডেল সম্ভবত অপর্যাপ্ত "।
(এটি " নাল হাইপোথিসিসের অধীন পর্যবেক্ষণকৃত মানের চেয়ে সমান বা তার চেয়ে বড় মানের দেখার সম্ভাবনা " এর কিছুটা নিখরচায় ব্যাখ্যা এবং এটি কোনও পাঠ্য-পুস্তকের সংজ্ঞা হিসাবে বোঝানো হয়নি)।

" আনোভা বলুন (ইঙ্গিত) সম্পর্কে রৈখিক মডেলের সহগ সম্পর্কে আপনার প্রশ্নের চূড়ান্ত অংশে ফিরে আসছি (মাধ্যমগুলি সমান নয় বলে ধরে নিচ্ছেন)) আমি আশা করি আপনি এখন দেখতে পারেন যে আনোভা আপনার নকশার ক্ষেত্রে যথেষ্ট সরল / যথেষ্ট ভারসাম্যযুক্ত , আপনাকে লিনিয়ার মডেলটি যা বলবে তা সবই বলে দেয়। গোষ্ঠী অর্থের জন্য আত্মবিশ্বাসের ব্যবধানগুলি আপনার জন্য একই রকম হবেβইত্যাদি ইত্যাদি স্পষ্টতই যখন তার রিগ্রেশন মডেলটিতে একাধিক কোভারিয়েট যুক্ত করা শুরু হয়, তখন সাধারণ একমুখী আনোভা এর সরাসরি সমতা হয় না। সেক্ষেত্রে কেউ লিনিয়ার রিগ্রেশন এর গড় প্রতিক্রিয়া গণনা করতে ব্যবহৃত তথ্যকে এমন এক সাথে বাড়িয়ে তোলে যা আনোভা-র জন্য সরাসরি একত্রে উপলভ্য নয়। আমি বিশ্বাস করি যে কেউ আবারও আনোভা পদগুলিতে পুনরায় প্রকাশ করতে পারে তবে এটি বেশিরভাগ ক্ষেত্রে একাডেমিক অনুশীলন।

বিষয়টি নিয়ে একটি আকর্ষণীয় কাগজ হ'ল গেলম্যানের ২০০৫ সালের শিরোনামের কাগজ: বৈকল্পিক বিশ্লেষণ - কেন এটি আগের চেয়ে গুরুত্বপূর্ণ । কিছু গুরুত্বপূর্ণ বিষয় উত্থাপন; আমি কাগজটির পুরোপুরি সমর্থনকারী নই (আমি মনে করি আমি ব্যক্তিগতভাবে ম্যাককুলাচের দৃষ্টিভঙ্গির সাথে অনেক বেশি প্রান্তিককরণ করেছি) তবে এটি গঠনমূলক পাঠযোগ্য হতে পারে।

চূড়ান্ত নোট হিসাবে: যখন আপনার মিশ্র প্রভাবগুলির মডেলগুলি থাকে তখন প্লটটি আরও ঘন হয় । আপনার ডেটা গ্রুপিং সম্পর্কিত কোন উপদ্রব বা আসল তথ্য হিসাবে বিবেচনা করা যেতে পারে সে সম্পর্কে সেখানে আপনার বিভিন্ন ধারণা রয়েছে। এই বিষয়গুলি এই প্রশ্নের ক্ষেত্রের বাইরে কিন্তু আমি মনে করি এগুলি কোনও অনুমোদনের যোগ্য।


6
এই ক্রস যাচাইকৃত পৃষ্ঠায় স্বীকৃত উত্তরটিও গাণিতিক পদ্ধতির মাধ্যমে খুব সুন্দরভাবে আনোভা এবং রিগ্রেশনের মধ্যে সম্পর্ককে দেখায় যা এই উত্তরের ব্যবহারিক পদ্ধতির সুন্দরভাবে পরিপূরক করে।
এডিএম 21

+1 টি। হ্যাঁ, @ মাইকেলহার্ডির উত্তরটি সেই থ্রেডে বেশ ভাল। এটি উল্লেখ করার জন্য ধন্যবাদ!
usεr11852 পুনর্বহাল Monic বলছেন

+1 টি, উপরন্তু, আমি মনে করি এই চিত্র মধ্যে এই উত্তর ANOVA এবং রৈখিক রিগ্রেশনের মধ্যে ফাঁক সেতু সত্যিই সহায়ক
Haitao ডু

আপনি কি সম্মত হবেন যে আনোভা শ্রেণিবদ্ধ ভবিষ্যদ্বাণীগুলির সাথে একটি গাউসিয়ান জিএলএম?
Digio

@ ডিজিও: না, এটি তাদের ব্যবহারের যথাযথতাকে আরও প্রশস্ত করবে; আমি জিএলএমকে ছবি থেকে দূরে রাখব।
usεr11852

55

আমাকে এই ধারণাটিতে কিছুটা রঙ লাগাতে দিন যে বিভাগগুলি ( ডামি কোডেড ) রেজিস্ট্রার সহ ওএলএস আনোভা -কারণগুলির সমতুল্য । উভয় ক্ষেত্রেই স্তর রয়েছে (বা আনোভার ক্ষেত্রে গ্রুপগুলি )।

ওএলএস-এর রিগ্রেশন-এ রেজিস্ট্রারগুলিতে নিয়মিত পরিবর্তনশীল হওয়া সর্বাধিক স্বাভাবিক। এগুলি যুক্তিসঙ্গতভাবে শ্রেণিবদ্ধ ভেরিয়েবল এবং নির্ভরশীল ভেরিয়েবল (ডিসি) এর মধ্যে ফিট মডেলের সম্পর্কের পরিবর্তন করে। তবে সমান্তরাল অপরিবর্তনীয় করে তোলার মতো নয়।

mtcarsডেটা সেটের ভিত্তিতে আমরা প্রথমে lm(mpg ~ wt + as.factor(cyl), data = mtcars)ধারাবাহিক পরিবর্তনশীল wt(ওজন) দ্বারা নির্ধারিত opeাল হিসাবে মডেলটি কল্পনা করতে পারি এবং শ্রেণিবদ্ধ ভেরিয়েবলের প্রভাব cylinder(চার, ছয় বা আটটি সিলিন্ডার) প্রবর্তনকারী বিভিন্ন ইন্টারসেপ্টগুলি । এটি এই শেষ অংশটি যা একমুখী আনোভা এর সাথে সমান্তরাল রূপ দেয়।

আসুন এটি গ্রাফিকভাবে ডান থেকে সাব প্লটটিতে দেখুন (বামদিকে তিনটি উপ-প্লটগুলি তত্ক্ষণাত আলোচিত আনোভা মডেলের সাথে পার্শ্ব-পার্শ্বে তুলনা করার জন্য অন্তর্ভুক্ত করা হয়েছে):

এখানে চিত্র বর্ণনা লিখুন

প্রতিটি সিলিন্ডার ইঞ্জিন রঙিন কোডেড, এবং বিভিন্ন ইন্টারসেপ্ট এবং ডেটা মেঘের সাথে লাগানো লাইনের মধ্যবর্তী দূরত্বটি একটি এএনওওএ -র মধ্যে গ্রুপের পরিবর্তনের সমতুল্য। লক্ষ করুন যে, একটি ক্রমাগত পরিবর্তনশীল (সঙ্গে OLS ঔজ্জ্বল্যের প্রেক্ষাপটে মডেল বিবৃতি weight) না গাণিতিকভাবে ANOVA বিভিন্ন মধ্যে-গ্রুপ উপায়ে মান হিসাবে একই, এর প্রভাব কারণে weightএবং বিভিন্ন মডেল ম্যাট্রিক্স (নিচে দেখুন): গড় mpgজন্য 4-সিলিন্ডার কার, উদাহরণস্বরূপ, হয় mean(mtcars$mpg[mtcars$cyl==4]) #[1] 26.66364, যেহেতু OLS ঔজ্জ্বল্যের প্রেক্ষাপটে "বেসলাইন" অন্তর্বর্তী মধ্যস্থ্যতাকারীরা (কনভেনশন দ্বারা অনুধ্যায়ী cyl==4(সর্বনিম্ন দ ক্রম সর্বোচ্চ সংখ্যাসমূহ করার)) লক্ষণীয়ভাবে আলাদা: summary(fit)$coef[1] #[1] 33.99079। লাইনগুলির Theাল অবিচ্ছিন্ন পরিবর্তনশীলটির জন্য সহগ weight

আপনি যদি weightমানসিকভাবে এই রেখাগুলি সোজা করে এবং অনুভূমিক লাইনে ফিরে এসে এর প্রভাবকে দমন করার চেষ্টা করেন , তবে আপনি aov(mtcars$mpg ~ as.factor(mtcars$cyl))বামদিকে তিনটি সাব-প্লটের মডেলের আনোভা প্লটটি শেষ করবেন । রেজিস্টার weightএখন বাইরে, তবে পয়েন্টগুলি থেকে বিভিন্ন ইন্টারসেপ্টের সম্পর্ক মোটামুটিভাবে সংরক্ষণ করা হয়েছে - আমরা কেবল ঘড়ির কাঁটার বিপরীতে ঘুরছি এবং প্রতিটি ভিন্ন স্তরের জন্য পূর্ববর্তী ওভারল্যাপিং প্লটগুলি ছড়িয়ে দিচ্ছি (আবার কেবলমাত্র "দেখার জন্য ভিজ্যুয়াল ডিভাইস হিসাবে" সংযোগ; গাণিতিক সাম্য হিসাবে নয়, যেহেতু আমরা দুটি ভিন্ন মডেলের তুলনা করছি!)।

ফ্যাক্টরের প্রতিটি স্তর cylinderপৃথক, এবং উল্লম্ব লাইনগুলি অবশিষ্টাংশ বা গোষ্ঠীর ত্রুটির প্রতিনিধিত্ব করে: মেঘের প্রতিটি বিন্দু থেকে দূরত্ব এবং প্রতিটি স্তরের গড় (রঙ-কোডেড অনুভূমিক রেখা)। রঙের গ্রেডিয়েন্টটি আমাদের একটি মডেলকে বৈধতা দেওয়ার ক্ষেত্রে কতটা তাত্পর্যপূর্ণ তা ইঙ্গিত দেয়: যত বেশি ক্লাস্টার করা ডেটা পয়েন্টগুলি তাদের গ্রুপের চারপাশে থাকে, ততই আনোভা মডেল পরিসংখ্যানগতভাবে তাত্পর্যপূর্ণ হয়ে উঠবে। সমস্ত প্লটে ডলারের অনুভূমিক কালো রেখাটি সমস্ত কারণগুলির জন্য গড়। এক্সিসের সংখ্যাগুলি প্রতিটি স্তরের মধ্যে প্রতিটি পয়েন্টের জন্য কেবল স্থানধারক সংখ্যা / শনাক্তকারী এবং বাক্সপ্লটগুলিতে প্লটিং প্রদর্শনের জন্য পৃথক পৃথক পয়েন্টের জন্য অনুভূমিক রেখার সাথে পৃথক পয়েন্ট পৃথক করা ছাড়া আর কোনও উদ্দেশ্য থাকে না।20x

এবং এই উল্লম্ব বিভাগগুলির যোগফলের মাধ্যমে আমরা ম্যানুয়ালি অবশিষ্টাংশগুলি গণনা করতে পারি:

mu_mpg <- mean(mtcars$mpg)                      # Mean mpg in dataset
TSS <- sum((mtcars$mpg - mu_mpg)^2)             # Total sum of squares
SumSq=sum((mtcars[mtcars$cyl==4,"mpg"]-mean(mtcars[mtcars$cyl=="4","mpg"]))^2)+
sum((mtcars[mtcars$cyl==6,"mpg"] - mean(mtcars[mtcars$cyl=="6","mpg"]))^2)+
sum((mtcars[mtcars$cyl==8,"mpg"] - mean(mtcars[mtcars$cyl=="8","mpg"]))^2)

ফলাফল: SumSq = 301.2626এবং TSS - SumSq = 824.7846। তুলনা করা:

Call:
   aov(formula = mtcars$mpg ~ as.factor(mtcars$cyl))

Terms:
                as.factor(mtcars$cyl) Residuals
Sum of Squares               824.7846  301.2626
Deg. of Freedom                     2        29

ঠিক cylinderরেজিস্ট্রার হিসাবে শ্রেণীবদ্ধ সঙ্গে একটি আনোভা লিনিয়ার মডেলের সাথে পরীক্ষার ঠিক একই ফলাফল :

fit <- lm(mpg ~ as.factor(cyl), data = mtcars)
summary(fit)
anova(fit)

Analysis of Variance Table

Response: mpg
               Df Sum Sq Mean Sq F value    Pr(>F)    
as.factor(cyl)  2 824.78  412.39  39.697 4.979e-09 ***
Residuals      29 301.26   10.39 

আমরা যা দেখতে পাই তা হ'ল অবশিষ্টাংশগুলি - মডেলের দ্বারা ব্যাখ্যা না করা মোট বৈকল্পিকের অংশটি - পাশাপাশি বৈকল্পিকটি হ'ল আপনি টাইপের কোনও ওএলএস lm(DV ~ factors), বা একটি এনওওভা ( aov(DV ~ factors)): যখন আমরা স্ট্রিপ করি তখন ধারাবাহিক পরিবর্তনশীলগুলির মডেল আমরা একটি অভিন্ন সিস্টেমের সাথে শেষ করি। একইভাবে, যখন আমরা বিশ্বব্যাপী বা সর্বজনীন আনোভা (স্তরের স্তরের নয়) হিসাবে মডেলগুলি মূল্যায়ন করি তখন আমরা স্বাভাবিকভাবে একই পি-মান পাই F-statistic: 39.7 on 2 and 29 DF, p-value: 4.979e-09

এর অর্থ এই নয় যে স্বতন্ত্র স্তরের পরীক্ষার ফলে অভিন্ন পি-মান পাওয়া যাবে। ওএলএসের ক্ষেত্রে, আমরা অনুরোধ করতে summary(fit)এবং পেতে পারি:

lm(formula = mpg ~ as.factor(cyl), data = mtcars)

                Estimate Std. Error t value                           Pr(>|t|)    
(Intercept)      26.6636     0.9718  27.437                           < 2e-16 ***
as.factor(cyl)6  -6.9208     1.5583  -4.441                           0.000119 ***
as.factor(cyl)8 -11.5636     1.2986  -8.905                           8.57e-10 ***

আনোভাতে এটি সম্ভব নয়, এটি একটি সর্বজনীন পরীক্ষার বেশি। এই ধরণের মান মূল্যায়নগুলি পেতে আমাদের একটি টুকি হুস্টিক তাৎপর্যপূর্ণ পার্থক্য পরীক্ষা চালানো দরকার, যা একাধিক জোড়া সংক্রান্ত তুলনা (সুতরাং, " ") ফলস্বরূপ টাইপ 1 ত্রুটির সম্ভাবনা হ্রাস করার চেষ্টা করবে , যার ফলস্বরূপ সম্পূর্ণ ভিন্ন আউটপুট:pp adjusted

  Tukey multiple comparisons of means
    95% family-wise confidence level

Fit: aov(formula = mtcars$mpg ~ as.factor(mtcars$cyl))

$`as.factor(mtcars$cyl)`
          diff        lwr        upr                                      p adj
6-4  -6.920779 -10.769350 -3.0722086                                    0.0003424
8-4 -11.563636 -14.770779 -8.3564942                                    0.0000000
8-6  -4.642857  -8.327583 -0.9581313                                    0.0112287

পরিশেষে, হুডের নিচে ইঞ্জিনে উঁকি দেওয়া ছাড়া আর কিছুই আশ্বাস দেয় না, যা মডেল ম্যাট্রিকেস ছাড়া আর কিছুই নয় এবং কলামের জায়গার মধ্যে থাকা অনুমানগুলি। আনোভার ক্ষেত্রে এগুলি আসলে বেশ সহজ:

(1)[y1y2y3.yn]=[100100010010...001001][μ1μ2μ3]+[ε1ε2ε3.εn]

এই একমুখী তিনটি স্তর (যেমন সঙ্গে ANOVA মডেল ম্যাট্রিক্স হবে cyl 4, cyl 6, cyl 8), সংক্ষিপ্ত , যেখানে প্রতিটি স্তরের বা গোষ্ঠী এ গড়: যখন পর্যবেক্ষণ জন্য ত্রুটি বা অবশিষ্ট গোষ্ঠী বা স্তরের যোগ করা হয়, আমরা প্রকৃত ডিভি প্রাপ্ত পর্যবেক্ষণ।yij=μi+ϵijμijiyij

অন্যদিকে, ওএলএস রিগ্রেশনটির মডেল ম্যাট্রিক্স হ'ল:

[y1y2y3y4yn]=[1x12x131x22x231x32x331x42x431xn2xn3][β0β1β2]+[ε1ε2ε3ε4εn]

এটি একক বিরতি এবং দুটি ( এবং ) প্রত্যেকটির জন্য একটি ভিন্ন ধ্রুবক ভেরিয়েবল, বলুন এবং ।yi=β0+β1xi1+β2xi2+ϵiβ0β1β2weightdisplacement

কৌশলটি এখন দেখতে হবে যে আমরা প্রাথমিক উদাহরণ হিসাবে যেমন কীভাবে বিভিন্ন ইন্টারসেপ্ট তৈরি করতে পারি lm(mpg ~ wt + as.factor(cyl), data = mtcars)- তাই আসুন দ্বিতীয় opeালু থেকে মুক্তি পেয়ে আসল একক ধারাবাহিক চলকটির কাছে আটকে থাকি weight(অন্য কথায়, এর কলামগুলির পাশাপাশি একটি একক কলামও থাকে) মডেল ম্যাট্রিক্স; ইন্টারসেপ্ট এবং , )। 'এর কলামটি ডিফল্টরূপে বিরতিতে অনুরূপ correspond আবার, এর মান অ্যানোভা-গোষ্ঠীর অভ্যন্তরের মতো নয় , এমন একটি পর্যবেক্ষণ যা ওএলএস মডেল ম্যাট্রিক্সের (নীচে) the এর প্রথম কলামের সাথে এর কলামের তুলনা করে অবাক হওয়ার মতো নয় shouldβ0weightβ11cyl 4cyl 411আনোভা মডেল ম্যাট্রিক্সে যা কেবলমাত্র 4-সিলিন্ডার সহ উদাহরণ নির্বাচন করে। পথিমধ্যে প্রভাব ব্যাখ্যা করতে কোডিং ডামি মাধ্যমে স্থানান্তরিত করা হবে না এবং নিম্নরূপ:(1),cyl 6cyl 8

[y1y2y3y4y5yn]=[1x11x21x31x41x51xn][β0β1]+[101010010101][μ~2μ~3]+[ε1ε2ε3ε4ε5εn]

এখন যখন তৃতীয় কলামটি আমরা নিয়মিতভাবে দ্বারা ইন্টারসেপ্ট স্থানান্তর করব যে ইঙ্গিত করে যে OLS ঔজ্জ্বল্যের প্রেক্ষাপটে মডেল 4-সিলিন্ডার গাড়ির গ্রুপ গড় অভিন্ন হচ্ছে না, কিন্তু এটা অনুধ্যায়ী "বেসলাইন" অন্তর্বর্তী মধ্যস্থ্যতাকারীরা ক্ষেত্রে হিসাবে, OLS ঔজ্জ্বল্যের প্রেক্ষাপটে মডেল মাত্রা মধ্যে পার্থক্য নয় গাণিতিকভাবে মধ্যে গ্রুপ-গ্রুপ পার্থক্য:1μ~2.~

fit <- lm(mpg ~ wt + as.factor(cyl), data = mtcars)
summary(fit)$coef[3] #[1] -4.255582 (difference between intercepts cyl==4 and cyl==6 in OLS)
fit <- lm(mpg ~ as.factor(cyl), data = mtcars)
summary(fit)$coef[2] #[1] -6.920779 (difference between group mean cyl==4 and cyl==6)

তেমনিভাবে, যখন চতুর্থ কলামটি , তখন একটি স্থির মান বাধা দিতে হবে। ম্যাট্রিক্স সমীকরণ, অতএব, । সুতরাং, এই মডেলটির সাথে আনোভা মডেলের সাথে যাওয়া কেবল অবিচ্ছিন্ন ভেরিয়েবলগুলি থেকে মুক্তি পাওয়ার এবং ওএলএস-এ ডিফল্ট ইন্টারসেপ্ট আনোভাতে প্রথম স্তরের প্রতিফলন বোঝার বিষয়।1μ~3yi=β0+β1xi+μ~i+ϵi


6
+1, আমি আপনার গ্রাফিকাল চিত্রটি পছন্দ করি !! প্রকাশের মান!
হাইটাও ডু

@ hxd1011 এটি আপনার খুব সুন্দর। আমি এটিকে সমর্থন করি.
আন্তনি পরল্লদা

6

আন্তোনি পরেল্লদা এবং usεr11852 এর খুব ভাল উত্তর ছিল। কোডিং দৃষ্টিকোণটির সাথে আমি আপনার প্রশ্নের সমাধান করব R

আনোভা আপনাকে রৈখিক মডেলের সহগগুলির সম্পর্কে কিছুই জানায় না। সুতরাং কিভাবে লিনিয়ার রিগ্রেশন আনোভা হিসাবে একই?

প্রকৃতপক্ষে, আমরা একইভাবে ব্যবহার করতে পারি এর aovমধ্যে কাজ Rকরতে পারি lm। এখানে কিছু উদাহরণঃ.

> lm_fit=lm(mpg~as.factor(cyl),mtcars)

> aov_fit=aov(mpg~as.factor(cyl),mtcars)

> coef(lm_fit)
    (Intercept) as.factor(cyl)6 as.factor(cyl)8 
      26.663636       -6.920779      -11.563636 

> coef(aov_fit)
    (Intercept) as.factor(cyl)6 as.factor(cyl)8 
      26.663636       -6.920779      -11.563636 

> all(predict(lm_fit,mtcars)==predict(aov_fit,mtcars))
[1] TRUE

যেমন আপনি দেখতে পাচ্ছেন, আমরা আনোভা মডেল থেকে কেবল সহগ পেতে পারি না, লিনিয়ার মডেলের মতো আমরা এটি পূর্বাভাসের জন্যও ব্যবহার করতে পারি।

আমরা যদি aovফাংশনের জন্য সহায়তা ফাইলটি পরীক্ষা করি তবে এটি বলে

এটি ভারসাম্যহীন বা ভারসাম্যহীন পরীক্ষামূলক ডিজাইনের ক্ষেত্রে রৈখিক মডেলগুলিকে ফিট করার জন্য এলএমকে একটি মোড়ক সরবরাহ করে। এলএম থেকে মূল পার্থক্য হ'ল প্রিন্ট, সংক্ষিপ্তকরণ এবং ঠিক তেমন হ্যান্ডেলগুলি: এটি লিনিয়ার মডেলের পরিবর্তে বৈকল্পিক বিশ্লেষণের প্রচলিত ভাষায় প্রকাশিত হয়।


1

যদি আমরা সমস্ত ডেটা এন্ট্রি নিই এবং সেগুলি একটি একক কলামে ওয়াইতে সজ্জিত করি, বাকি কলামগুলির সাথে সূচক ভেরিয়েবল 1 {ডেথটি মূল আনোভা বিন্যাসে জেথ কলামের উপাদান} তারপরে Y এর সরল রৈখিক রিগ্রেশন গ্রহণ করে অন্যান্য কলামগুলির যে কোনওটি (কলাম বি বলুন), আপনার ANOVA সমস্যার মতো একই ডিএফ, এসএস, এমএস এবং এফ পরীক্ষার পরিসংখ্যানগুলি পাওয়া উচিত।

সুতরাং অ্যানাওয়াকে বাইনারি ভেরিয়েবলের সাথে ডেটা লিখে লিনিয়ার রিগ্রেশন হিসাবে বিবেচনা করা যেতে পারে। আরও মনে রাখবেন যে, রে এর জন্য রিগ্রেশনটির সহগ বলুন, বি তে Y এর একটি রিগ্রেশন গড় হিসাবে সমান হওয়া উচিত। মূল কলের সাথে গণনা করা কলামের বি।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.