আমি আর-তে কোড সরবরাহ করছি একটি উদাহরণ, আপনি আর এর সাথে অভিজ্ঞতা না থাকলে আপনি উত্তরগুলি দেখতে পারেন I আমি কেবল উদাহরণ দিয়ে কিছু মামলা করতে চাই।
পারস্পরিক সম্পর্ক বনাম রিগ্রেশন
এক Y এবং একটি এক্স এর সাথে সরল রৈখিক সম্পর্ক এবং রেগ্রেশন:
মডেলটি:
y = a + betaX + error (residual)
ধরা যাক আমাদের দুটি মাত্র ভেরিয়েবল রয়েছে:
X = c(4,5,8,6,12,15)
Y = c(3,6,9,8,6, 18)
plot(X,Y, pch = 19)
একটি বিক্ষিপ্ত ডায়াগ্রামে, বিন্দুগুলির কাছাকাছি একটি সরলরেখায় থাকে, দুটি ভেরিয়েবলের মধ্যে লিনিয়ার সম্পর্ক আরও দৃ .় হয়।
লিনিয়ার পারস্পরিক সম্পর্ক দেখুন।
cor(X,Y)
0.7828747
এখন লিনিয়ার রিগ্রেশন এবং টান আউট আর স্কোয়ার মানগুলি।
reg1 <- lm(Y~X)
summary(reg1)$r.squared
0.6128929
এইভাবে মডেলের সহগগুলি হ'ল:
reg1$coefficients
(Intercept) X
2.2535971 0.7877698
এক্স এর বিটাটি 0.7877698। সুতরাং আউট মডেল হবে:
Y = 2.2535971 + 0.7877698 * X
রিগ্রেশনে আর-স্কোয়ার মানটির স্কোয়ার রুট r
লিনিয়ার রিগ্রেশন-এর মতোই ।
sqrt(summary(reg1)$r.squared)
[1] 0.7828747
আসুন উপরের উদাহরণটি ব্যবহার করে রিগ্রেশন opeাল এবং পারস্পরিক সম্পর্কের উপর স্কেল ইফেক্টটি দেখুন এবং X
একটি ধ্রুবক বক্তব্য দিয়ে গুণ করি 12
।
X = c(4,5,8,6,12,15)
Y = c(3,6,9,8,6, 18)
X12 <- X*12
cor(X12,Y)
[1] 0.7828747
পারস্পরিক সম্পর্ক হিসেবে আর-স্কোয়ারড অপরিবর্তিত থাকবে ।
reg12 <- lm(Y~X12)
summary(reg12)$r.squared
[1] 0.6128929
reg12$coefficients
(Intercept) X12
0.53571429 0.07797619
আপনি দেখতে পাচ্ছেন যে রিগ্রেশন সহগগুলি পরিবর্তন হয়েছে তবে আর-বর্গ নয়। এখন অন্য একটি পরীক্ষা একটি ধ্রুবক যোগ করতে দেয় X
এবং এটি কী প্রভাব ফেলবে তা দেখতে দেয়।
X = c(4,5,8,6,12,15)
Y = c(3,6,9,8,6, 18)
X5 <- X+5
cor(X5,Y)
[1] 0.7828747
যোগ করার পরেও সম্পর্ক সম্পর্কিত নয় 5
। আসুন দেখুন কীভাবে এটি রিগ্রেশন সহগের উপর প্রভাব ফেলবে।
reg5 <- lm(Y~X5)
summary(reg5)$r.squared
[1] 0.6128929
reg5$coefficients
(Intercept) X5
-4.1428571 0.9357143
আর-বর্গ এবং পারস্পরিক সম্পর্ক স্কেল প্রভাব আছে না কিন্তু পথিমধ্যে এবং ঢাল না। সুতরাং opeাল পারস্পরিক সম্পর্কের সহগ হিসাবে একই নয় (যদি না ভেরিয়েবলগুলি গড় 0 এবং প্রকরণ 1 দিয়ে মানক হয়) are
আনোভা কী এবং কেন আমরা আনোভা করি?
আনোভা এমন কৌশল যা আমরা সিদ্ধান্ত নেওয়ার জন্য রূপগুলি তুলনা করি। প্রতিক্রিয়া পরিবর্তনশীল (যাকে বলা হয় Y
) পরিমাণগত পরিবর্তনশীল যখন X
করতে পরিমাণগত বা গুণগত (বিভিন্ন মাত্রায় ফ্যাক্টর)। উভয় X
এবং Y
সংখ্যায় এক বা একাধিক হতে পারে। সাধারণত আমরা গুণগত পরিবর্তনশীলগুলির জন্য আনোভা বলি, রিগ্রেশন প্রসঙ্গে আনোভা কম আলোচনা হয়। এটি হতে পারে আপনার বিভ্রান্তির কারণ হতে পারে। গুণগত পরিবর্তনশীল (ফ্যাক্টর উদাহরণস্বরূপ গ্রুপ) এর নাল অনুমানটি হ'ল গ্রুপগুলির গড়টি আলাদা / সমান নয় যখন রিগ্রেশন বিশ্লেষণে আমরা পরীক্ষা করি যে রেখার opeাল 0 থেকে উল্লেখযোগ্যভাবে পৃথক কিনা কিনা test
আসুন একটি উদাহরণ দেখুন যেখানে আমরা উভয়ই রিগ্রেশন বিশ্লেষণ এবং গুণগত গুণক আনোভা করতে পারি যেহেতু এক্স এবং ওয়াই উভয়ই পরিমাণগত, তবে আমরা এক্সকে ফ্যাক্টর হিসাবে বিবেচনা করতে পারি।
X1 <- rep(1:5, each = 5)
Y1 <- c(12,14,18,12,14, 21,22,23,24,18, 25,23,20,25,26, 29,29,28,30,25, 29,30,32,28,27)
myd <- data.frame (X1,Y1)
ডেটা নীচের মত দেখাচ্ছে।
X1 Y1
1 1 12
2 1 14
3 1 18
4 1 12
5 1 14
6 2 21
7 2 22
8 2 23
9 2 24
10 2 18
11 3 25
12 3 23
13 3 20
14 3 25
15 3 26
16 4 29
17 4 29
18 4 28
19 4 30
20 4 25
21 5 29
22 5 30
23 5 32
24 5 28
25 5 27
এখন আমরা রিগ্রেশন এবং আনোভা উভয়ই করি। প্রথম প্রতিরোধ:
reg <- lm(Y1~X1, data=myd)
anova(reg)
Analysis of Variance Table
Response: Y1
Df Sum Sq Mean Sq F value Pr(>F)
X1 1 684.50 684.50 101.4 6.703e-10 ***
Residuals 23 155.26 6.75
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
reg$coefficients
(Intercept) X1
12.26 3.70
এক্স 1 কে ফ্যাক্টরে রূপান্তর করে এখন প্রচলিত আনোভা (মানে অ্যানোভা ফ্যাক্টর / গুণগত পরিবর্তনশীল)।
myd$X1f <- as.factor (myd$X1)
regf <- lm(Y1~X1f, data=myd)
anova(regf)
Analysis of Variance Table
Response: Y1
Df Sum Sq Mean Sq F value Pr(>F)
X1f 4 742.16 185.54 38.02 4.424e-09 ***
Residuals 20 97.60 4.88
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
আপনি পরিবর্তিত X1f Df দেখতে পারবেন যা উপরের ক্ষেত্রে 1 এর পরিবর্তে 4।
গুণগত পরিবর্তনশীলগুলির জন্য এএনওওএর বিপরীতে, পরিমাণগত পরিবর্তনশীলগুলির প্রসঙ্গে যেখানে আমরা রিগ্রেশন বিশ্লেষণ করি - বৈকল্পিক বিশ্লেষণ (এএনওওএ) এমন গণনাগুলি নিয়ে গঠিত যা একটি রিগ্রেশন মডেলের মধ্যে পরিবর্তনশীলতার মাত্রা সম্পর্কে তথ্য সরবরাহ করে এবং তাত্পর্যটির পরীক্ষার জন্য একটি ভিত্তি তৈরি করে।
মূলত আনোভা নাল হাইপোথিসিস বিটা = 0 পরীক্ষা করে (বিকল্প হাইপোথিসিস বিটা 0 এর সমান নয়)। মডেল বনাম ত্রুটি (অবশিষ্ট বৈকল্পিক) দ্বারা বর্ণিত পরিবর্তনশীলতার অনুপাতটি এখানে আমরা এফ টেস্টটি করি। মডেল ভেরিয়েন্সটি আপনার মাপসই রেখার দ্বারা বর্ণিত পরিমাণ থেকে আসে যখন অবশিষ্টগুলি মডেল দ্বারা ব্যাখ্যা না করা মান থেকে আসে by একটি উল্লেখযোগ্য এফ মানে বিটা মান শূন্যের সমান নয়, এর অর্থ দুটি ভেরিয়েবলের মধ্যে উল্লেখযোগ্য সম্পর্ক রয়েছে।
> anova(reg1)
Analysis of Variance Table
Response: Y
Df Sum Sq Mean Sq F value Pr(>F)
X 1 81.719 81.719 6.3331 0.0656 .
Residuals 4 51.614 12.904
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
এখানে আমরা উচ্চ পারস্পরিক সম্পর্ক বা আর-বর্গক্ষেত্র দেখতে পাচ্ছি তবে তাত্পর্যপূর্ণ ফলাফল নেই। কিছু সময় আপনি এমন ফলাফল পেতে পারেন যেখানে কম পারস্পরিক সম্পর্ক এখনও উল্লেখযোগ্য পারস্পরিক সম্পর্ক। এই ক্ষেত্রে তাত্পর্যপূর্ণ সম্পর্ক না থাকার কারণটি হ'ল আমাদের পর্যাপ্ত ডেটা নেই (এন = 6, অবশিষ্ট ডিএফ = 4), সুতরাং এফের সাথে F ডিঙ্কারেটর 1 ডিএফ বনাম 4 ডোনোমিটার ডিএফ দিয়ে এফ বিতরণে দেখা উচিত। সুতরাং এই ক্ষেত্রে আমরা ruleালু 0 এর সমান হতে পারি না।
আসুন আরেকটি উদাহরণ দেখুন:
X = c(4,5,8,6,2, 5,6,4,2,3, 8,2,5,6,3, 8,9,3,5,10)
Y = c(3,6,9,8,6, 8,6,8,10,5, 3,3,2,4,3, 11,12,4,2,14)
reg3 <- lm(Y~X)
anova(reg3)
Analysis of Variance Table
Response: Y
Df Sum Sq Mean Sq F value Pr(>F)
X 1 69.009 69.009 7.414 0.01396 *
Residuals 18 167.541 9.308
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
এই নতুন ডেটার জন্য আর-বর্গ মান:
summary(reg3)$r.squared
[1] 0.2917296
cor(X,Y)
[1] 0.54012
যদিও পারস্পরিক সম্পর্ক পূর্ববর্তী কেসের চেয়ে কম, আমরা একটি উল্লেখযোগ্য opeাল পেয়েছি। আরও ডেটা ডিএফ বৃদ্ধি করে এবং পর্যাপ্ত তথ্য সরবরাহ করে যাতে আমরা নাল অনুমানটি বাতিল করতে পারি যে opeাল শূন্যের সমান নয়।
অপেক্ষাকৃত পরস্পর সম্পর্ক আছে যেখানে অন্য একটি উদাহরণ নিতে দাও:
X1 = c(4,5,8,6,12,15)
Y1 = c(18,16,2,4,2, 8)
# correlation
cor(X1,Y1)
-0.5266847
# r-square using regression
reg2 <- lm(Y1~X1)
summary(reg2)$r.squared
0.2773967
sqrt(summary(reg2)$r.squared)
[1] 0.5266847
মানগুলি বর্গক্ষেত্র হিসাবে স্কোয়ার রুট হিসাবে এখানে ইতিবাচক বা নেতিবাচক সম্পর্কের তথ্য সরবরাহ করবে না। মাত্রা কিন্তু একই।
একাধিক রিগ্রেশন কেস:
একাধিক লিনিয়ার রিগ্রেশন পর্যবেক্ষণ করা ডেটাতে রৈখিক সমীকরণ ফিট করে দুটি বা আরও বেশি ব্যাখ্যামূলক ভেরিয়েবল এবং একটি প্রতিক্রিয়া ভেরিয়েবলের মধ্যে সম্পর্ককে মডেল করার চেষ্টা করে। উপরের আলোচনাটি একাধিক রিগ্রেশন কেস পর্যন্ত বাড়ানো যেতে পারে। এই ক্ষেত্রে আমাদের এই শব্দটিতে একাধিক বিটা রয়েছে:
y = a + beta1X1 + beta2X2 + beta2X3 + ................+ betapXp + error
Example:
X1 = c(4,5,8,6,2, 5,6,4,2,3, 8,2,5,6,3, 8,9,3,5,10)
X2 = c(14,15,8,16,2, 15,3,2,4,7, 9,12,5,6,3, 12,19,13,15,20)
Y = c(3,6,9,8,6, 8,6,8,10,5, 3,3,2,4,3, 11,12,4,2,14)
reg4 <- lm(Y~X1+X2)
আসুন মডেলটির সহগগুলি দেখুন:
reg4$coefficients
(Intercept) X1 X2
2.04055116 0.72169350 0.05566427
সুতরাং আপনার একাধিক লিনিয়ার রিগ্রেশন মডেলটি হ'ল:
Y = 2.04055116 + 0.72169350 * X1 + 0.05566427* X2
এখন এক্স 1 এবং এক্স 2 এর বিটা 0 এর চেয়ে বড় কিনা তা পরীক্ষা করতে দিন।
anova(reg4)
Analysis of Variance Table
Response: Y
Df Sum Sq Mean Sq F value Pr(>F)
X1 1 69.009 69.009 7.0655 0.01656 *
X2 1 1.504 1.504 0.1540 0.69965
Residuals 17 166.038 9.767
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
এখানে আমরা বলি যে এক্স 1 এর opeাল 0 এর চেয়ে বড়, তবে আমরা এক্স 2 এর slাল 0 এর চেয়ে বড় হওয়ার কথা বলতে পারি নি।
দয়া করে মনে রাখবেন যে opeাল X1 এবং Y বা X2 এবং Y এর মধ্যে পারস্পরিক সম্পর্ক নয় note
> cor(Y, X1)
[1] 0.54012
> cor(Y,X2)
[1] 0.3361571
একাধিক ভেরিয়েট পরিস্থিতিতে (যেখানে ভেরিয়েবল দুটির চেয়ে বেশি হয় আংশিক পারস্পরিক সম্পর্কটি খেলায় আসে tial
source("http://www.yilab.gatech.edu/pcor.R")
pcor.test(X1, Y,X2)
estimate p.value statistic n gn Method Use
1 0.4567979 0.03424027 2.117231 20 1 Pearson Var-Cov matrix
pcor.test(X2, Y,X1)
estimate p.value statistic n gn Method Use
1 0.09473812 0.6947774 0.3923801 20 1 Pearson Var-Cov matrix