কেন্দ্রিক ভেরিয়েবলগুলি হায়ারারিকাল রিগ্রেশন বিশ্লেষণ ব্যবহার করে মিথস্ক্রিয়া শব্দ? আমাদের কোন ভেরিয়েবলগুলি কেন্দ্র করা উচিত?

আমি একটি শ্রেণিবিন্যাসিক রিগ্রেশন বিশ্লেষণ চালাচ্ছি এবং আমার কিছুটা সন্দেহ আছে:

আমরা কি কেন্দ্রিক ভেরিয়েবলগুলি ব্যবহার করে মিথস্ক্রিয়া শব্দটি গণনা করি?
নির্ভরশীল ভেরিয়েবল বাদে আমাদের কী ডেটাসেটে থাকা সমস্ত অবিচ্ছিন্ন ভেরিয়েবলগুলি কেন্দ্র করতে হবে?
যখন আমাদের কিছু ভেরিয়েবল লগ করতে হবে (কারণ তাদের এসডিটি তাদের গড়ের চেয়ে অনেক বেশি উচ্চতর), তখন আমরা কি সবেমাত্র লগইন করা ভেরিয়েবলটি কেন্দ্রিক করব বা প্রাথমিকটি?

উদাহরণস্বরূপ: পরিবর্তনশীল "টার্নওভার" ---> লগড টার্নওভার (কারণ এসডি গড়ের তুলনায় খুব বেশি) ---> কেন্দ্রীভূত বার্নওভার?

অথবা এটি সরাসরি টার্নওভার হবে -> কেন্দ্রীভূত_বার্নওভার (এবং আমরা এটি দিয়ে কাজ করি)

ধন্যবাদ !!

interaction multicollinearity centering

কোলাইনারিটি হ্রাস করার জন্য আপনার ইন্টারঅ্যাকশনের সাথে জড়িত শর্তগুলি কেন্দ্র করা উচিত

set.seed(10204)
x1 <- rnorm(1000, 10, 1)
x2 <- rnorm(1000, 10, 1)
y <- x1 + rnorm(1000, 5, 5)  + x2*rnorm(1000) + x1*x2*rnorm(1000) 

x1cent <- x1 - mean(x1)
x2cent <- x2 - mean(x2)
x1x2cent <- x1cent*x2cent

m1 <- lm(y ~ x1 + x2 + x1*x2)
m2 <- lm(y ~ x1cent + x2cent + x1cent*x2cent)

summary(m1)
summary(m2)

আউটপুট:

> summary(m1)

Call:
lm(formula = y ~ x1 + x2 + x1 * x2)

Residuals:
    Min      1Q  Median      3Q     Max 
-344.62  -66.29   -1.44   66.05  392.22 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)  193.333    335.281   0.577    0.564
x1           -15.830     33.719  -0.469    0.639
x2           -14.065     33.567  -0.419    0.675
x1:x2          1.179      3.375   0.349    0.727

Residual standard error: 101.3 on 996 degrees of freedom
Multiple R-squared:  0.002363,  Adjusted R-squared:  -0.0006416 
F-statistic: 0.7865 on 3 and 996 DF,  p-value: 0.5015

> summary(m2)

Call:
lm(formula = y ~ x1cent + x2cent + x1cent * x2cent)

Residuals:
    Min      1Q  Median      3Q     Max 
-344.62  -66.29   -1.44   66.05  392.22 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)     12.513      3.203   3.907 9.99e-05 ***
x1cent          -4.106      3.186  -1.289    0.198    
x2cent          -2.291      3.198  -0.716    0.474    
x1cent:x2cent    1.179      3.375   0.349    0.727    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 101.3 on 996 degrees of freedom
Multiple R-squared:  0.002363,  Adjusted R-squared:  -0.0006416 
F-statistic: 0.7865 on 3 and 996 DF,  p-value: 0.5015


library(perturb)
colldiag(m1)
colldiag(m2)

আপনি অন্য ভেরিয়েবলগুলি কেন্দ্র করে কিনা তা আপনার উপর নির্ভর করে; একটি ইন্টারেকশনের সাথে জড়িত না এমন একটি পরিবর্তনশীল কেন্দ্রীকরণ (মানদণ্ডের বিপরীতে) আটকানোর অর্থকে পরিবর্তিত করবে, তবে অন্যান্য জিনিসগুলি নয়

x1 <- rnorm(1000, 10, 1)
x2 <- x1 - mean(x1)
y <- x1 + rnorm(1000, 5, 5) 
m1 <- lm(y ~ x1)
m2 <- lm(y ~ x2)

summary(m1)
summary(m2)

আউটপুট:

> summary(m1)

Call:
lm(formula = y ~ x1)

Residuals:
     Min       1Q   Median       3Q      Max 
-16.5288  -3.3348   0.0946   3.4293  14.0678 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   6.5412     1.6003   4.087 4.71e-05 ***
x1            0.8548     0.1591   5.373 9.63e-08 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 5.082 on 998 degrees of freedom
Multiple R-squared:  0.02812,   Adjusted R-squared:  0.02714 
F-statistic: 28.87 on 1 and 998 DF,  p-value: 9.629e-08

> summary(m2)

Call:
lm(formula = y ~ x2)

Residuals:
     Min       1Q   Median       3Q      Max 
-16.5288  -3.3348   0.0946   3.4293  14.0678 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  15.0965     0.1607  93.931  < 2e-16 ***
x2            0.8548     0.1591   5.373 9.63e-08 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 5.082 on 998 degrees of freedom
Multiple R-squared:  0.02812,   Adjusted R-squared:  0.02714 
F-statistic: 28.87 on 1 and 998 DF,  p-value: 9.629e-08

তবে আপনার ভেরিয়েবলের লগগুলি নেওয়া উচিত কারণ এটি করা বোধগম্য হয় বা কারণ মডেলটির অবশিষ্টাংশগুলি আপনাকে বোঝায় যে তাদের উচিত, না কারণ তাদের প্রচুর পরিবর্তনশীলতা রয়েছে। রিগ্রেশন ভেরিয়েবল বিতরণ সম্পর্কে অনুমান করে না, এটি অবশিষ্টাংশের বিতরণ সম্পর্কে অনুমান করে।

— পিটার ফ্লুম
সূত্র

আপনার প্রতিক্রিয়া জন্য ধন্যবাদ, পিটার! সুতরাং, আমি তখন ধরে নিলাম যে প্রথমে আমাকে ভেরিয়েবলগুলি (সমস্ত ভবিষ্যদ্বাণীকের?) লগ করতে হবে এবং তার পরে, আমি কেবল ইন্টারঅ্যাকশন শর্তগুলি গণনা করার জন্য প্রয়োজনীয় স্বাধীন ভেরিয়েবলগুলি কেন্দ্র করব। আরও একটি প্রশ্ন: আপনি কি ভেরিয়েবলগুলি কেন্দ্রিককরণ বা মানক করার পরামর্শ দিবেন? আবারও অনেক অনেক ধন্যবাদ !!

— পিএইচডিস্টুডেন্ট

হ্যাঁ, কেন্দ্রীকরণের আগে লগ করুন। মানককরণ এবং কেন্দ্রীকরণ বিভিন্ন কাজ করে; দুটোই ভুল নয়। কিছু মানীয়করণের মতো, আমি সাধারণত "কাঁচা" ভেরিয়েবল পছন্দ করি।

— পিটার ফ্লুম

আমি জেনারেটাল মডেলটি কীভাবে y <- x1 + rnorm(1000, 5, 5) + x2*rnorm(1000) + x1*x2*rnorm(1000)উত্তরটি চিত্রিত করতে সহায়তা করে তা সংজ্ঞায়িত করতে ব্যর্থ হয়েছি । এর অর্থ হচ্ছে

x_{1} + 5

$x_1 +5$ এবং বৈকল্পিকতা হয়

1 + 25 + 1 + 1

$1 + 25 + 1 + 1$ সুতরাং, উত্পাদনকারী মডেলটিতে কোনও ইন্টারঅ্যাকশন শব্দ নেই।

— রুফো