ক্রসড বনাম নেস্টেড এলোমেলো প্রভাবগুলি: এগুলি কীভাবে আলাদা হয় এবং কীভাবে তারা lme4 এ সঠিকভাবে নির্দিষ্ট করা হয়?


88

এখানে আমি নেস্ট বনাম বনাম ক্রস এলোমেলো প্রভাবগুলি কীভাবে বুঝতে পেরেছি:

নেস্টেড এলোমেলো প্রভাবগুলি ঘটে যখন একটি নিম্ন স্তরের ফ্যাক্টর কেবলমাত্র একটি উচ্চ স্তরের গুণকের একটি নির্দিষ্ট স্তরের মধ্যে উপস্থিত হয়।

  • উদাহরণস্বরূপ, সময় নির্ধারিত সময়ে ক্লাসের মধ্যে শিক্ষার্থীরা।
  • ইন lme4আমি ভেবেছিলাম যে আমরা দুটি সমতুল্য উপায়ে হয় নেস্টেড ডেটার জন্য র্যান্ডম প্রভাব প্রতিনিধিত্ব:

    (1|class/pupil)  # or  
    (1|class) + (1|class:pupil)
    

ক্রস করা এলোমেলো প্রভাবের অর্থ একটি প্রদত্ত ফ্যাক্টর উচ্চ স্তরের গুণকের একাধিক স্তরে উপস্থিত হয়।

  • উদাহরণস্বরূপ, কয়েক বছরের মধ্যে পরিমাপ করা ক্লাসের মধ্যে শিক্ষার্থীরা রয়েছে।
  • ইন lme4, আমরা লিখতে হবে:

    (1|class) + (1|pupil)

যাইহোক, যখন আমি একটি নির্দিষ্ট নেস্টেড ডেটাসেটের দিকে তাকিয়েছিলাম তখন আমি লক্ষ্য করেছি যে দুটি মডেলের সূত্রই অভিন্ন ফলাফল দিয়েছে (নীচে কোড এবং আউটপুট)। তবে আমি অন্যান্য ডেটাসেটগুলি দেখেছি যেখানে দুটি সূত্র বিভিন্ন ফলাফল তৈরি করেছে। তাহলে এখানে কি চলছে?

mydata <- read.csv("https://web.archive.org/web/20160624172041if_/http://www-personal.umich.edu/~bwest/classroom.csv")
# (the data is no longer at `http://www-personal.umich.edu/~bwest/classroom.csv`
# hence the link to web.archive.org)
# Crossed version: 
Linear mixed model fit by REML ['lmerMod']
Formula: mathgain ~ (1 | schoolid) + (1 | classid)
   Data: mydata

REML criterion at convergence: 11768.8

Scaled residuals: 
    Min      1Q  Median      3Q     Max 
-4.6441 -0.5984 -0.0336  0.5334  5.6335 

Random effects:
 Groups   Name        Variance Std.Dev.
 classid  (Intercept)   99.23   9.961  
 schoolid (Intercept)   77.49   8.803  
 Residual             1028.23  32.066  
Number of obs: 1190, groups:  classid, 312; schoolid, 107


# Nested version:
Formula: mathgain ~ (1 | schoolid/classid)

REML criterion at convergence: 11768.8

Scaled residuals: 
    Min      1Q  Median      3Q     Max 
-4.6441 -0.5984 -0.0336  0.5334  5.6335 

Random effects:
 Groups           Name        Variance Std.Dev.
 classid:schoolid (Intercept)   99.23   9.961  
 schoolid         (Intercept)   77.49   8.803  
 Residual                     1028.23  32.066  
Number of obs: 1190, groups:  classid:schoolid, 312; schoolid, 107

উত্তর:


148

(এটি মোটামুটি দীর্ঘ উত্তর, শেষে একটি সংক্ষিপ্তসার রয়েছে)

আপনি যে দৃশ্যে বর্ণনা করেছেন তাতে নেস্টেড এবং অতিক্রম করা এলোমেলো প্রভাবগুলি কী তা আপনার বুঝতে ভুল নয়। তবে অতিক্রম করা এলোমেলো প্রভাবগুলির আপনার সংজ্ঞাটি কিছুটা সংকীর্ণ। অতিক্রম করা এলোমেলো প্রভাবগুলির আরও সাধারণ সংজ্ঞাটি কেবল: নেস্টেড নয় । আমরা এই উত্তরের শেষে এটি দেখব, তবে উত্তরের বেশিরভাগ অংশ আপনি যে পরিবেশনের উপস্থাপন করেছেন, বিদ্যালয়ের মধ্যে শ্রেণিকক্ষের দিকে মনোনিবেশ করবে।

প্রথম নোট:

নেস্টিং হ'ল ডেটার সম্পত্তি, বা বরং পরীক্ষামূলক ডিজাইন, মডেল নয়।

এছাড়াও,

নেস্টেড ডেটা কমপক্ষে 2 বিভিন্ন উপায়ে এনকোড করা যেতে পারে এবং এটি আপনার পাওয়া সমস্যার কেন্দ্রস্থল।

আপনার উদাহরণের ডেটাসেটটি বরং বড়, তাই সমস্যাগুলি ব্যাখ্যা করতে আমি ইন্টারনেট থেকে আরও একটি স্কুলের উদাহরণ ব্যবহার করব। তবে প্রথমে নিম্নলিখিত অতিরিক্ত-সরলকৃত উদাহরণটি বিবেচনা করুন:

এখানে চিত্র বর্ণনা লিখুন

এখানে আমাদের স্কুলগুলিতে ক্লাস রয়েছে, যা একটি পরিচিত দৃশ্য। এখানে গুরুত্বপূর্ণ পয়েন্ট যে, প্রতিটি স্কুল মধ্যবর্তী শ্রেণীর একই আইডেন্টিফায়ার আছে, হয় যদিও তারা স্বতন্ত্র যদি তারা নেস্টেড হয়Class1উপস্থিত School1, School2এবং School3। তবে ডেটা তখন নেস্টেড যদি Class1মধ্যে School1হয় না যেমন পরিমাপের একই একক Class1মধ্যে School2এবং School3। যদি সেগুলি একই রকম হয়, তবে আমাদের এই অবস্থা হবে:

এখানে চিত্র বর্ণনা লিখুন

যার অর্থ প্রতিটি ক্লাস প্রতিটি বিদ্যালয়ের অন্তর্গত। পূর্ববর্তীটি নেস্টেড ডিজাইন, এবং আধুনিকটি একটি ক্রসড ডিজাইন (কেউ কেউ এটিকে একাধিক সদস্যতাও বলতে পারে), এবং আমরা এগুলি lme4ব্যবহার করে সূচনা করব :

(1|School/Class) বা সমতুল্য (1|School) + (1|Class:School)

এবং

(1|School) + (1|Class)

যথাক্রমে। বাসাবাড়ি বা এলোমেলো প্রভাবের ক্রসিং আছে কিনা তা নিয়ে অস্পষ্টতার কারণে, মডেলটি সঠিকভাবে নির্দিষ্ট করা খুব গুরুত্বপূর্ণ কারণ এই মডেলগুলি বিভিন্ন ফলাফল আনবে, যেমন আমরা নীচে দেখাব। তদুপরি, আমরা নেস্টেড বা এলোমেলো প্রভাবগুলি পেরিয়েছি কিনা তা কেবল তথ্য পরিদর্শন করে এটি জানা সম্ভব নয়। এটি কেবল ডেটা এবং পরীক্ষামূলক ডিজাইনের জ্ঞান দিয়েই নির্ধারণ করা যায় ।

তবে প্রথমে একটি কেস বিবেচনা করা যাক যেখানে স্কুলগুলিতে ক্লাস ভেরিয়েবলটি অনন্যভাবে কোড করা হয়:

এখানে চিত্র বর্ণনা লিখুন

বাসা বাঁধতে বা পারাপারের বিষয়ে আর কোনও অস্পষ্টতা নেই। বাসা স্পষ্ট হয়। (লেবেল এখন আমাদের আর, যেখানে আমরা 6 বিদ্যালয় আছে একটি উদাহরণ দিয়ে এই দেখি I- VI) প্রতিটি স্কুল (লেবেল মধ্যে এবং 4 শ্রেণীর aকরতে d):

> dt <- read.table("http://bayes.acs.unt.edu:8083/BayesContent/class/Jon/R_SC/Module9/lmm.data.txt",
                   header=TRUE, sep=",", na.strings="NA", dec=".", strip.white=TRUE)
> # data was previously publicly available from
> # http://researchsupport.unt.edu/class/Jon/R_SC/Module9/lmm.data.txt
> # but the link is now broken
> xtabs(~ school + class, dt)

        class
school  a  b  c  d
   I   50 50 50 50
   II  50 50 50 50
   III 50 50 50 50
   IV  50 50 50 50
   V   50 50 50 50
   VI  50 50 50 50

আমরা এই ক্রস ট্যাবুলেশন থেকে দেখতে পাচ্ছি যে প্রতিটি ক্লাসের আইডি প্রতিটি স্কুলে উপস্থিত হয়, যা আপনার ক্রস করা এলোমেলো প্রভাবগুলির সংজ্ঞাটি পূরণ করে (এই ক্ষেত্রে আমরা সম্পূর্ণভাবে , আংশিকভাবে বিপরীতভাবে , ক্রস এলোমেলো প্রভাবগুলির বিপরীতে রয়েছি , কারণ প্রতিটি বিদ্যালয়ে প্রতিটি ক্লাস ঘটে)। সুতরাং এটি একই পরিস্থিতি যা আমাদের উপরের প্রথম চিত্রে ছিল। তবে, যদি ডেটাটি সত্যই নীস্টযুক্ত থাকে এবং অতিক্রম না করে থাকে, তবে আমাদের স্পষ্টভাবে বলতে হবে lme4:

> m0 <- lmer(extro ~ open + agree + social + (1 | school/class), data = dt)
> summary(m0)

Random effects:
 Groups       Name        Variance Std.Dev.
 class:school (Intercept)  8.2043  2.8643  
 school       (Intercept) 93.8421  9.6872  
 Residual                  0.9684  0.9841  
Number of obs: 1200, groups:  class:school, 24; school, 6

Fixed effects:
              Estimate Std. Error t value
(Intercept) 60.2378227  4.0117909  15.015
open         0.0061065  0.0049636   1.230
agree       -0.0076659  0.0056986  -1.345
social       0.0005404  0.0018524   0.292

> m1 <- lmer(extro ~ open + agree + social + (1 | school) + (1 |class), data = dt)
summary(m1)

Random effects:
 Groups   Name        Variance Std.Dev.
 school   (Intercept) 95.887   9.792   
 class    (Intercept)  5.790   2.406   
 Residual              2.787   1.669   
Number of obs: 1200, groups:  school, 6; class, 4

Fixed effects:
             Estimate Std. Error t value
(Intercept) 60.198841   4.212974  14.289
open         0.010834   0.008349   1.298
agree       -0.005420   0.009605  -0.564
social      -0.001762   0.003107  -0.567

যেমনটি প্রত্যাশা করা হয়েছিল, ফলাফলগুলি পৃথক হয়েছে কারণ m0এটি একটি নেস্টেড মডেল এবং m1ক্রস মডেল।

এখন, যদি আমরা শ্রেণি শনাক্তকারীর জন্য একটি নতুন ভেরিয়েবল প্রবর্তন করি:

> dt$classID <- paste(dt$school, dt$class, sep=".")
> xtabs(~ school + classID, dt)

      classID
school I.a I.b I.c I.d II.a II.b II.c II.d III.a III.b III.c III.d IV.a IV.b
   I    50  50  50  50    0    0    0    0     0     0     0     0    0    0
   II    0   0   0   0   50   50   50   50     0     0     0     0    0    0
   III   0   0   0   0    0    0    0    0    50    50    50    50    0    0
   IV    0   0   0   0    0    0    0    0     0     0     0     0   50   50
   V     0   0   0   0    0    0    0    0     0     0     0     0    0    0
   VI    0   0   0   0    0    0    0    0     0     0     0     0    0    0

      classID
school IV.c IV.d V.a V.b V.c V.d VI.a VI.b VI.c VI.d
   I      0    0   0   0   0   0    0    0    0    0
   II     0    0   0   0   0   0    0    0    0    0
   III    0    0   0   0   0   0    0    0    0    0
   IV    50   50   0   0   0   0    0    0    0    0
   V      0    0  50  50  50  50    0    0    0    0
   VI     0    0   0   0   0   0   50   50   50   50

ক্রস টেবুলেশন দেখায় যে আপনার বাসা বাঁধার সংজ্ঞা অনুসারে প্রতিটি স্তরের শ্রেণি কেবলমাত্র স্কুলের এক স্তরে ঘটে। এটি আপনার ডেটাতেও ঘটেছে, তবে এটি খুব কমই আপনার ডেটা সহ এটি দেখাতে অসুবিধা হয়। উভয় মডেল সূত্রগুলি এখন একই আউটপুট উত্পাদন করবে ( m0উপরের নেস্টেড মডেলের এটি ):

> m2 <- lmer(extro ~ open + agree + social + (1 | school/classID), data = dt)
> summary(m2)

Random effects:
 Groups         Name        Variance Std.Dev.
 classID:school (Intercept)  8.2043  2.8643  
 school         (Intercept) 93.8419  9.6872  
 Residual                    0.9684  0.9841  
Number of obs: 1200, groups:  classID:school, 24; school, 6

Fixed effects:
              Estimate Std. Error t value
(Intercept) 60.2378227  4.0117882  15.015
open         0.0061065  0.0049636   1.230
agree       -0.0076659  0.0056986  -1.345
social       0.0005404  0.0018524   0.292

> m3 <- lmer(extro ~ open + agree + social + (1 | school) + (1 |classID), data = dt)
> summary(m3)

Random effects:
 Groups   Name        Variance Std.Dev.
 classID  (Intercept)  8.2043  2.8643  
 school   (Intercept) 93.8419  9.6872  
 Residual              0.9684  0.9841  
Number of obs: 1200, groups:  classID, 24; school, 6

Fixed effects:
              Estimate Std. Error t value
(Intercept) 60.2378227  4.0117882  15.015
open         0.0061065  0.0049636   1.230
agree       -0.0076659  0.0056986  -1.345
social       0.0005404  0.0018524   0.292

এটি লক্ষণীয় যে ক্রসক্রমে এলোমেলো প্রভাবগুলি একই ফ্যাক্টরের মধ্যে ঘটতে হবে না - উপরের ক্রসিংটি পুরোপুরি বিদ্যালয়ের মধ্যে ছিল। যাইহোক, এটি ক্ষেত্রে হতে হবে না এবং খুব প্রায়ই এটি হয় না। উদাহরণস্বরূপ, বিদ্যালয়ের দৃশ্যের সাথে আঁকড়ে ধরা, যদি আমাদের বিদ্যালয়ের মধ্যে ক্লাসের পরিবর্তে বিদ্যালয়ের মধ্যে শিক্ষার্থীরা থাকে এবং আমরা সেই চিকিত্সকদের সাথে আগ্রহী যে শিক্ষার্থীরা নিবন্ধিত হয়, তবে আমাদেরও ডাক্তারদের মধ্যে ছাত্রদের বাসা বাঁধতে হবে। চিকিত্সকের মধ্যে বা এর বিপরীতে কোনও স্কুল বাসা বাঁধতে পারে না, সুতরাং এটিও ক্রস করা এলোমেলো প্রভাবগুলির একটি উদাহরণ এবং আমরা বলি যে স্কুল এবং ডাক্তাররা পার হয়ে গেছে। অনুরূপ দৃশ্যে যখন অতিক্রম করা এলোমেলো প্রভাব ঘটে তখন পৃথক পর্যবেক্ষণ এক সাথে দুটি কারণের মধ্যে বাসা বেঁধে দেওয়া হয়, যা সাধারণত তথাকথিত পুনরাবৃত্তি ব্যবস্থার সাথে ঘটেবিষয় আইটেম ডেটা। সাধারণত প্রতিটি বিষয় বিভিন্ন আইটেমের সাথে / সাথে একাধিকবার পরিমাপ করা হয় / পরীক্ষিত হয় এবং এই একই জিনিসগুলি বিভিন্ন বিষয় দ্বারা পরিমাপ / পরীক্ষিত হয়। সুতরাং, পর্যবেক্ষণগুলি বিষয়গুলির মধ্যে এবং আইটেমগুলির মধ্যে গুচ্ছ থাকে তবে আইটেমগুলি বিষয় বা তদ্বিপরীত মধ্যে বাসা বাঁধে না। আবার, আমরা বলি যে বিষয় এবং আইটেমগুলি অতিক্রম করা হয়েছে

সংক্ষিপ্তসার: টিএল; ডিআর

ক্রসড এবং নেস্টেড এলোমেলো প্রভাবগুলির মধ্যে পার্থক্য হ'ল নেস্টেড এলোমেলো প্রভাবগুলি ঘটে যখন একটি ফ্যাক্টর (গ্রুপিং ভেরিয়েবল) কেবলমাত্র অন্য একটি ফ্যাক্টরের (গ্রুপিং ভেরিয়েবল) নির্দিষ্ট স্তরের মধ্যে উপস্থিত হয়। এটি এর সাথে নির্দিষ্ট করা হয়েছে lme4:

(1|group1/group2)

যেখানে group2ভিতরে বাসা আছে group1

ক্রসড এলোমেলো প্রভাবগুলি কেবল: নেস্টেড নয় । এটি তিন বা ততোধিক গ্রুপিং ভেরিয়েবল (ফ্যাক্টর) এর সাথে দেখা দিতে পারে যেখানে একটি ফ্যাক্টর অন্য দুটি ক্ষেত্রে পৃথকভাবে বাসা বেধে থাকে, বা দুটি বা আরও বেশি কারণের সাথে যেখানে পৃথক পর্যবেক্ষণগুলি দুটি কারণের মধ্যে পৃথকভাবে বাসা বাঁধে। এগুলি এর সাথে নির্দিষ্ট করা হয়েছে lme4:

(1|group1) + (1|group2)


16
+6, এটি একটি দুর্দান্ত উত্তর। দু'দিনের মধ্যে আমাকে মনে করিয়ে দিন এবং আমি এটিতে একটি অনুদান রাখব।
গাং

2
দুর্দান্ত ব্যাখ্যা। সম্ভবত তৃতীয় ধরণের পরীক্ষামূলক ডিজাইনের কোনও নাম রয়েছে যেখানে আপনি দুটি কারণের জন্য অনন্য স্তর তৈরি করেছেন (সম্ভবত নেস্টেড), তাই যদি আমি বিভিন্ন শহরের মধ্যে বিভিন্ন ডিলারের কাছ থেকে মোটরসাইকেল কেনার সহকারীগুলি অনুসরণ করি তবে আমি কীভাবে পাঠকদের সাথে যোগাযোগ করব যে আমি মূলত একটি একক স্তর ফ্যাক্টর তৈরি interaction(city, dealer)?
অ্যাডামো

2
+6, এটি এমন দুর্দান্ত উত্তর যা আমি অনুভব করেছি যে আমি @ গুংয়ের অনুগ্রহকে অন্য একটির সাথে শীর্ষে রাখতে পারি। যাইহোক, আমি সম্ভবত একটি খুব বেসিক বিভ্রান্তি সঙ্গে লড়াই করছি ( এখানে আমার প্রশ্ন ) এবং আপনার সাহায্যের খুব প্রশংসা করব।
অ্যামিবা

1
@ রবার্টলং মনে হয় যে বিভক্ত প্লট (পুনরাবৃত্তি ব্যবস্থা) নকশাগুলি প্রায়শই "নেস্টেড" নামে অভিহিত হয় যদিও আপনার এই উত্তর অনুসারে সত্যই বাসা বাঁধে না। এই পরিভাষাটির অসঙ্গতি সম্ভবত লিঙ্কযুক্ত প্রশ্নে আমার বিভ্রান্তিতে সহায়তা করেছে। আপনি যদি এখানে বা সেখানে এটি পরিষ্কার করে বলতে পারেন তবে দুর্দান্ত হবে। এমনকি আমি আরও ভাবছি যে বিভক্ত প্লটে কীভাবে বাসা বেঁধে দেওয়া হয়েছে সে সম্পর্কে আমার একটি পৃথক (আর ওরিয়েন্টেড নয়) টার্মিনোলজিকাল প্রশ্ন পোস্ট করা উচিত।
অ্যামিবা

2
আমার আগের মন্তব্যে আপডেট করুন। আমি পরীক্ষামূলক নকশায় দুটি পুরাতন ও অনুমোদনের বই পরীক্ষা করেছি: ম্যাক্সওয়েল এবং ডেলানি, 1990, পরীক্ষা-নিরীক্ষা ও ডেটা বিশ্লেষণ এবং মন্টগোমেরি, 1976, পরীক্ষাগুলির নকশা ও বিশ্লেষণ। দুজনেই নেস্টেড ডিজাইন সম্পর্কে কথা বলে এবং উভয়ই বারবার ব্যবস্থাগুলি সম্পর্কে আলোচনা করে split স্প্লিট-প্লটগুলি; উভয়ই "নেস্টেড" শব্দটি কেবল সেই অর্থে ব্যবহার করেন যা আপনি এটি ব্যবহার করছেন এবং কখনই নেস্টেড হিসাবে পুনরাবৃত্তি ব্যবস্থা গ্রহণ করে না। সুতরাং আমি মনে করি না যে সর্বোপরি কোনও পরিভাষা পার্থক্য আছে।
অ্যামিবা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.