একাধিক রিগ্রেশনকে আরতে মাল্টিভায়ারেট করুন


68

আমার 2 টি নির্ভরশীল ভেরিয়েবল (ডিভি) রয়েছে যার প্রতিটি স্কোর 7 টি স্বতন্ত্র ভেরিয়েবল (আইভি) এর সেট দ্বারা প্রভাবিত হতে পারে। ডিভিগুলি অবিচ্ছিন্ন থাকে, যখন আইভিগুলির সেটটিতে অবিচ্ছিন্ন এবং বাইনারি কোডেড ভেরিয়েবলগুলির মিশ্রণ থাকে। (নীচের কোডে অবিচ্ছিন্ন ভেরিয়েবলগুলি ছোট হাতের অক্ষরে বড় হাতের অক্ষরে এবং বাইনারি ভেরিয়েবলগুলিতে লেখা থাকে))

এই ডিভিগুলি কীভাবে আইভিএস ভেরিয়েবল দ্বারা প্রভাবিত হয় তা উন্মোচন করা অধ্যয়নের উদ্দেশ্য। আমি নিম্নলিখিত মাল্টিভারিয়েট একাধিক রিগ্রেশন (এমএমআর) মডেলটি প্রস্তাব করেছি:

my.model <- lm(cbind(A, B) ~ c + d + e + f + g + H + I)

ফলাফলগুলি ব্যাখ্যা করতে আমি দুটি বিবৃতি বলি:

  1. summary(manova(my.model))
  2. Manova(my.model)

উভয় কল থেকে আউটপুট নীচে আটকানো হয় এবং উল্লেখযোগ্যভাবে পৃথক। কেউ দয়া করে ব্যাখ্যা করতে পারেন যে দুজনের মধ্যে কোন বক্তব্যটি এমএমআরের ফলাফলগুলি সঠিকভাবে সংক্ষিপ্ত করতে বেছে নেওয়া উচিত এবং কেন? কোন পরামর্শ ব্যাপকভাবে প্রশংসা হবে।

summary(manova(my.model))বিবৃতি ব্যবহার করে আউটপুট :

> summary(manova(my.model))
           Df   Pillai approx F num Df den Df    Pr(>F)    
c           1 0.105295   5.8255      2     99  0.004057 ** 
d           1 0.085131   4.6061      2     99  0.012225 *  
e           1 0.007886   0.3935      2     99  0.675773    
f           1 0.036121   1.8550      2     99  0.161854    
g           1 0.002103   0.1043      2     99  0.901049    
H           1 0.228766  14.6828      2     99 2.605e-06 ***
I           1 0.011752   0.5887      2     99  0.556999    
Residuals 100                                              
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Manova(my.model)বিবৃতি ব্যবহার করে আউটপুট :

> library(car)
> Manova(my.model)

Type II MANOVA Tests: Pillai test statistic
  Df test stat approx F num Df den Df    Pr(>F)    
c  1  0.030928   1.5798      2     99   0.21117    
d  1  0.079422   4.2706      2     99   0.01663 *  
e  1  0.003067   0.1523      2     99   0.85893    
f  1  0.029812   1.5210      2     99   0.22355    
g  1  0.004331   0.2153      2     99   0.80668    
H  1  0.229303  14.7276      2     99 2.516e-06 ***
I  1  0.011752   0.5887      2     99   0.55700    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

উত্তর:


78

সংক্ষেপে বিবৃত, এই বেস-আর এর কারণ manova(lm())বর্গের তথাকথিত প্রকার আমি সমষ্টি জন্য অনুক্রমিক মডেল তুলনা ব্যবহার যেহেতু, carএর Manova()ডিফল্ট বর্গের দ্বিতীয় প্রকার সমষ্টি জন্য মডেল তুলনা ব্যবহার দ্বারা।

আমি ধরে নিই যে আপনি আনোভা বা রিগ্রেশন বিশ্লেষণের মডেল-তুলনা পদ্ধতির সাথে পরিচিত। এই পদ্ধতির একটি সীমিত মডেল (নাল হাইপোথিসিসের সাথে সম্পর্কিত) একটি সীমাহীন মডেল (বিকল্প অনুমানের সাথে মিল রেখে) তুলনা করে এই পরীক্ষাগুলি সংজ্ঞায়িত করে। আপনি যদি এই ধারণার সাথে পরিচিত না হন তবে আমি ম্যাক্সওয়েল অ্যান্ড ডেলানির দুর্দান্ত "পরীক্ষার নকশা করা এবং ডেটা বিশ্লেষণ" (2004) প্রস্তাব করছি recommend

টাইপ আই এসএসের জন্য, আপনার প্রথম ভবিষ্যদ্বাণীকের cক্ষেত্রে কোনও রিগ্রেশন বিশ্লেষণের মধ্যে সীমাবদ্ধ মডেল হ'ল নাল-মডেল যা কেবল পরম শব্দটি ব্যবহার করে: lm(Y ~ 1)যেখানে Yআপনার ক্ষেত্রে ডিভি দ্বারা নির্ধারিত মাল্টিভারিয়েট ডিভি হবে cbind(A, B)। সীমাবদ্ধ মডেল তারপরে ভবিষ্যদ্বাণী যুক্ত করে c, অর্থাৎ lm(Y ~ c + 1)

টাইপ II এসএসের জন্য, আপনার প্রথম ভবিষ্যদ্বাণীকের cক্ষেত্রে কোনও রিগ্রেশন বিশ্লেষণে বাধাহীন মডেল হ'ল সম্পূর্ণ মডেল যা এতে সম্পূর্ণ ভবিষ্যদ্বাণীকারীদের সাথে তাদের মিথস্ক্রিয়া ব্যতীত, অর্থাৎ, অন্তর্ভুক্ত করে lm(Y ~ c + d + e + f + g + H + I)। সীমাবদ্ধ মডেল cঅনিয়ন্ত্রিত মডেল, অর্থাৎ, থেকে ভবিষ্যদ্বাণীকে সরিয়ে দেয় lm(Y ~ d + e + f + g + H + I)

যেহেতু উভয় ফাংশন বিভিন্ন মডেলের তুলনায় নির্ভর করে, তাই তারা বিভিন্ন ফলাফলের দিকে পরিচালিত করে। কোনটি প্রশ্নের চেয়ে উত্তম সেই প্রশ্নের উত্তর দেওয়া শক্ত - এটি আপনার অনুমানের উপর নির্ভর করে।

নিম্নলিখিতটি অনুমান করে আপনি কীভাবে পিল্লাই-বারলেট ট্র্যাসের মতো নালাম-মডেল, পূর্ণ মডেল এবং সীমাবদ্ধ-সীমাহীন মডেলের জুটির উপর ভিত্তি করে গণনা করা হয় তা সম্পর্কে আপনার পরিচিত। বংশবৃদ্ধির জন্য, আমি কেবল ভবিষ্যদ্বাণীকারীদের cএবং H, এবং কেবলমাত্র পরীক্ষার জন্য বিবেচনা করি c

N <- 100                             # generate some data: number of subjects
c <- rbinom(N, 1, 0.2)               # dichotomous predictor c
H <- rnorm(N, -10, 2)                # metric predictor H
A <- -1.4*c + 0.6*H + rnorm(N, 0, 3) # DV A
B <-  1.4*c - 0.6*H + rnorm(N, 0, 3) # DV B
Y <- cbind(A, B)                     # DV matrix
my.model <- lm(Y ~ c + H)            # the multivariate model
summary(manova(my.model))            # from base-R: SS type I
#           Df  Pillai approx F num Df den Df  Pr(>F)    
# c          1 0.06835   3.5213      2     96 0.03344 *  
# H          1 0.32664  23.2842      2     96 5.7e-09 ***
# Residuals 97                                           

তুলনা করার জন্য, থেকে ফলাফলের carএর Manova()ফাংশন এস এস টাইপ ২ ব্যবহার করে।

library(car)                           # for Manova()
Manova(my.model, type="II")
# Type II MANOVA Tests: Pillai test statistic
#   Df test stat approx F num Df den Df  Pr(>F)    
# c  1   0.05904   3.0119      2     96 0.05387 .  
# H  1   0.32664  23.2842      2     96 5.7e-09 ***

এখন ম্যানুয়ালি উভয় ফলাফল যাচাই করুন। প্রথমে নকশা ম্যাট্রিক্স তৈরি করুন এবং আর এর ডিজাইন ম্যাট্রিক্সের সাথে তুলনা করুন।X

X  <- cbind(1, c, H)
XR <- model.matrix(~ c + H)
all.equal(X, XR, check.attributes=FALSE)
# [1] TRUE

এখন পুরো মডেল ( , সমস্ত ভবিষ্যদ্বাণীকারী ব্যবহার করে প্রজেকশনটি সংজ্ঞায়িত করুন । এটি আমাদের ম্যাট্রিক্স ।Pf=X(XX)1XW=Y(IPf)Y

Pf  <- X %*% solve(t(X) %*% X) %*% t(X)
Id  <- diag(N)
WW  <- t(Y) %*% (Id - Pf) %*% Y

এস এস টাইপ জন্য সীমাবদ্ধ এবং সীমিত মডেলগুলি তাদের অনুমানগুলি এবং , যা ম্যাট্রিক্স ।PrIPuIBI=Y(PuIPPrI)Y

XrI <- X[ , 1]
PrI <- XrI %*% solve(t(XrI) %*% XrI) %*% t(XrI)
XuI <- X[ , c(1, 2)]
PuI <- XuI %*% solve(t(XuI) %*% XuI) %*% t(XuI)
Bi  <- t(Y) %*% (PuI - PrI) %*% Y

এসএস টাইপ II এর জন্য সীমাবদ্ধ এবং সীমিত মডেলগুলি তাদের অনুমান এবং ফলে ম্যাট্রিক্স । পি ইউ আমি আমি বি আমি আমি = ওয়াই ' ( পি ইউ আমি আমি - পি পি আমি আমি ) ওয়াইPrIPuIIBII=Y(PuIIPPrII)Y

XrII <- X[ , -2]
PrII <- XrII %*% solve(t(XrII) %*% XrII) %*% t(XrII)
PuII <- Pf
Bii  <- t(Y) %*% (PuII - PrII) %*% Y

উভয় প্রকার এসএসের জন্য পিল্লাই-বারলেটলেট ট্রেস: ট্রেস ।(B+W)1B

(PBTi  <- sum(diag(solve(Bi  + WW) %*% Bi)))   # SS type I
# [1] 0.0683467

(PBTii <- sum(diag(solve(Bii + WW) %*% Bii)))  # SS type II
# [1] 0.05904288

নোট করুন যে অরথোগোনাল অনুমানের জন্য গণনাগুলি গাণিতিক সূত্রকে অনুকরণ করে তবে সংখ্যায় এটি একটি খারাপ ধারণা। এর crossprod()পরিবর্তে একসাথে কিউআর-পচন বা এসভিডি ব্যবহার করা উচিত ।


3
এই সুন্দর চিত্রিত প্রতিক্রিয়ার জন্য আমার খুব বড় +1।
chl

আমি আশ্চর্য হয়েছি যে lmফাংশনটি ব্যবহার করার পরে আমি কেবল lmফাংশনের অভ্যন্তরে একাধিক রেসপোড ভেরিয়েবল নির্দিষ্ট করে মাল্টিভারিয়েট রিগ্রেশন পরিচালনা করছি । আমি শিখেছি যে lmফাংশনটি ব্যবহার করে যখন আমার ডেটা আসলে মাল্টিভারেট হয় তখন স্ট্যান্ডার্ড ত্রুটির জন্য ভ্রান্ত ফলাফল দেয়। তবে এক্ষেত্রে স্ট্যান্ডার্ড ত্রুটিটিকে অবমূল্যায়ন করা my.model <- lm(cbind(A, B) ~ c + d + e + f + g + H + I); হবে vcov(my.model )বা lmবুদ্ধিমানভাবে নির্ভরশীল ভেরিয়েবলগুলির মধ্যে পারস্পরিক সম্পর্ককে সামঞ্জস্য করবে?
ব্যবহারকারী 31466

6

ঠিক আছে, পূর্ববর্তী উত্তর সম্পর্কে মন্তব্য করার মতো এখনও আমার কাছে পর্যাপ্ত পয়েন্ট নেই এবং আমি কেন এটি পৃথক উত্তর হিসাবে লিখছি তা নিশ্চিত, তাই দয়া করে আমাকে ক্ষমা করুন। (যদি সম্ভব হয় তবে আমাকে 50 টি রেপ পয়েন্টের উপরে চাপ দিন;)

সুতরাং 2 সেন্সেন্টগুলি এখানে রয়েছে: টাইপ প্রথম, দ্বিতীয় এবং তৃতীয় ত্রুটির পরীক্ষার তথ্যগুলি ভারসাম্যহীন হওয়ার কারণে মূলত বিভিন্নতা vari (ভারসাম্যহীন সংজ্ঞা: প্রতিটি স্তরে সমান পর্যবেক্ষণ না থাকা)। যদি ডেটা ভারসাম্যপূর্ণ হয় তবে প্রকার I, II এবং III ত্রুটি পরীক্ষাটি ঠিক একই ফলাফল দেয়।

সুতরাং ডেটা ভারসাম্যহীন হলে কি হবে?

এমন একটি মডেল বিবেচনা করুন যার মধ্যে দুটি কারণ A এবং B রয়েছে; সুতরাং দুটি প্রধান প্রভাব, এবং একটি ইন্টারঅ্যাকশন, এবি। এসএস (এ, বি, এবি) পূর্ণ মডেলকে নির্দেশ করে এসএস (এ, বি) কোনও মিথস্ক্রিয়া ছাড়াই মডেলকে নির্দেশ করে। এসএস (বি, এবি) এমন মডেলকে নির্দেশ করে যা ফ্যাক্টর এ এর ​​প্রভাবগুলির জন্য অ্যাকাউন্ট করে না and

এই স্বরলিপিটি এখন অর্থবোধ করে। শুধু মনে রাখবেন।

SS(AB | A, B) = SS(A, B, AB) - SS(A, B)

SS(A | B, AB) = SS(A, B, AB) - SS(B, AB)

SS(B | A, AB) = SS(A, B, AB) - SS(A, AB)

SS(A | B)     = SS(A, B) - SS(B)

SS(B | A)     = SS(A, B) - SS(A)

I টাইপ করুন, তাকে স্কোয়েনসের সমষ্টিও বলা হয়:

1) SS(A) for factor A.

2) SS(B | A) for factor B.

3) SS(AB | B, A) for interaction AB.

সুতরাং আমরা প্রথমে এগুলির প্রধান প্রভাব, বি প্রদত্ত বি এর প্রভাব এবং তারপরে এবি প্রদত্ত এ এবং বি এর মিথস্ক্রিয়াটি অনুমান করি (এটি এখানে ভারসাম্যহীন ডেটা হওয়া, পার্থক্যগুলি কিক্স হয় As যেমন আমরা প্রথম প্রভাবটি অনুমান করি এবং তারপরে অন্যটির প্রধান এবং তারপরে একটি "ক্রম" তে মিথস্ক্রিয়া)

প্রকার II:

1) SS(A | B) for factor A.

2) SS(B | A) for factor B.

প্রকার II এর পরে খ এবং বি এর পরে এ এর ​​প্রধান প্রভাবের তাত্পর্য পরীক্ষা করে কেন এসএস (AB | B, A) নেই? ক্যাভ্যাটটি হ'ল দ্বিতীয় ধরণের পদ্ধতিটি কেবল তখনই ব্যবহার করা যেতে পারে যখন আমরা ইতিমধ্যে ইন্টারঅ্যাকশনকে তুচ্ছ বলে পরীক্ষা করেছি। কোনও ইন্টারঅ্যাকশন নেই তা দেওয়া (এসএস (এবি | বি, এ) তুচ্ছ) টাইপ II পরীক্ষায় তৃতীয় ধরণের উপর আরও ভাল ক্ষমতা রয়েছে

প্রকার তৃতীয়:

1) SS(A | B, AB) for factor A.

2) SS(B | A, AB) for factor B.

সুতরাং আমরা দ্বিতীয় ধরণের সময় মিথস্ক্রিয়াটির জন্য পরীক্ষা করেছি এবং মিথস্ক্রিয়াটি তাৎপর্যপূর্ণ ছিল। ইন্টারঅ্যাকশন শব্দটি বিবেচনায় নেওয়ার সাথে সাথে এখন আমাদের তৃতীয় প্রকারের ব্যবহার প্রয়োজন।

যেমন @ কারাকাল ইতিমধ্যে বলেছে, যখন ডেটা ভারসাম্যযুক্ত হয়, তখন কারণগুলি অরথোগোনাল হয় এবং I, II এবং III টাইপগুলি একই ফলাফল দেয়। আশা করি এটা কাজে লাগবে !

প্রকাশ: এর বেশিরভাগটি আমার নিজের কাজ নয়। আমি এই দুর্দান্ত পৃষ্ঠাটি লিঙ্কিত পেয়েছি এবং এটি আরও সহজ করে তুলতে আরও নীচে সিদ্ধ করার মতো অনুভব করেছি।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.