অবৈধ অনুকরণ যখন পর্যবেক্ষণগুলি স্বতন্ত্র না থাকে


13

আমি প্রাথমিক পরিসংখ্যানগুলিতে শিখেছি যে সাধারণ রৈখিক মডেল সহ, সূত্রগুলি বৈধ হওয়ার জন্য, পর্যবেক্ষণগুলি অবশ্যই স্বাধীন হতে হবে। যখন ক্লাস্টারিং ঘটে তখন স্বতন্ত্রতা আর অবৈধ অনুক্রমের দিকে পরিচালিত করতে পারে যদি না এটির জন্য অ্যাকাউন্ট করা হয়। এই জাতীয় ক্লাস্টারিংয়ের জন্য অ্যাকাউন্ট করার একটি উপায় হ'ল মিশ্র মডেলগুলি ব্যবহার করে। আমি একটি উদাহরণস্বরূপ ডেটাসেট সন্ধান করতে চাই, সিমুলেটেড বা না, যা এটি স্পষ্টভাবে প্রদর্শন করে। ক্লাস্টারড ডেটা বিশ্লেষণের জন্য আমি ইউসিএলএ সাইটে নমুনা ডেটাসেটগুলির একটি ব্যবহার করার চেষ্টা করেছি

> require(foreign)
> require(lme4)
> dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")

> m1 <- lm(api00~growth+emer+yr_rnd, data=dt)
> summary(m1)

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 740.3981    11.5522  64.092   <2e-16 ***
growth       -0.1027     0.2112  -0.486   0.6271    
emer         -5.4449     0.5395 -10.092   <2e-16 ***
yr_rnd      -51.0757    19.9136  -2.565   0.0108 * 


> m2 <- lmer(api00~growth+emer+yr_rnd+(1|dnum), data=dt)
> summary(m2)

Fixed effects:
             Estimate Std. Error t value
(Intercept) 748.21841   12.00168   62.34
growth       -0.09791    0.20285   -0.48
emer         -5.64135    0.56470   -9.99
yr_rnd      -39.62702   18.53256   -2.14

আমি যদি কিছু মিস করি না তবে এই ফলাফলগুলি যথেষ্ট পরিমাণে সমান যে আমি মনে করি না যে আউটপুটটি lm()অবৈধ। আমি আরও কয়েকটি উদাহরণ দেখেছি (উদাহরণস্বরূপ , ব্রিস্টল ইউনিভার্সিটি সেন্টার ফর মাল্টিলেভেল মডেলিংয়ের 5.2 ) থেকে এবং পাওয়া গেছে যে স্ট্যান্ডার্ড ত্রুটিগুলিও মারাত্মকভাবে আলাদা নয় (আমি মিশ্র মডেল থেকে এলোমেলো প্রভাবগুলিতে নিজের আগ্রহী নই, তবে এটি লক্ষণীয় যে মিশ্র মডেল আউটপুট থেকে আইসিসি 0.42)।

সুতরাং, আমার প্রশ্নগুলি 1) ক্লাস্টারিংয়ের সময় স্ট্যান্ডার্ড ত্রুটিগুলি স্পষ্টতই আলাদা হবে এবং 2) কেউ এই জাতীয় ডেটাসেটের (উদাহরণস্বরূপ বা না) উদাহরণ সরবরাহ করতে পারে।


ক্লাস্টারিং দ্বারা আপনি যা বোঝাতে চেয়েছেন তা কি আপনি প্রসারিত করতে পারেন?
বায়ারজ

ক্লায়ারিং করে বায়েরজ, আমার অর্থ যখন একে অপরের সাথে সমতুল্য পর্যবেক্ষণগুলি একরকমের এককের মধ্যে একত্রে বিভক্ত হয়, উদাহরণস্বরূপ, 50 টি স্বতন্ত্র ব্যক্তিদের জন্য নেওয়া 10 রক্তচাপের পরিমাপ।
জো কিং

উত্তর:


11

প্রথমত, আপনি ঠিক বলেছেন এই ডেটাসেটটি সম্ভবত মিশ্র মডেলটি বোঝার পক্ষে সেরা নয়। তবে আসুন প্রথমে দেখা যাক কেন

require(foreign)
dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")

length(dt$dnum)          # 310
length(unique(dt$dnum))  # 187 
sum(table(dt$dnum)==1)   # 132

আপনি দেখতে পাচ্ছেন যে আপনার 310 টি পর্যবেক্ষণ এবং 187 টি গ্রুপ রয়েছে, যার মধ্যে 132 টিতে কেবল একটি পর্যবেক্ষণ রয়েছে। এর অর্থ এই নয় যে আমাদের মাল্টি-লেভেল মডেলিং ব্যবহার করা উচিত নয়, তবে কেবলমাত্র আপনি বলেছেন যে আমরা খুব বেশি আলাদা ফলাফল পাব না।

মাল্টি-লেভেল মডেলিং প্রেরণা

মাল্টি-লেভেল মডেলিং ব্যবহারের অনুপ্রেরণা কেবলমাত্র হাতে নেওয়া বিশ্লেষণের ফলাফল থেকে নয়, ডিজাইন থেকেই শুরু হয়। অবশ্যই সবচেয়ে সাধারণ উদাহরণটি ব্যক্তিদের কাছ থেকে একাধিক পর্যবেক্ষণ গ্রহণ করা, তবে আরও সহজে বোঝার পরিস্থিতি দেওয়ার জন্য বিষয়গুলিকে আরও চূড়ান্ত করে তোলার জন্য বিশ্বের বিভিন্ন দেশের ব্যক্তিদের তাদের আয়ের বিষয়ে জিজ্ঞাসা করুন। সুতরাং সর্বোত্তম উদাহরণগুলি হ'ল তাদের মধ্যে প্রচলিত বৈচিত্র্য রয়েছে কারণ অবশ্যই যে পরীক্ষাগুলি পরীক্ষার ফলাফলের ক্ষেত্রে একজাতীয় ক্লাস্টার গ্রহণ করা তেমন কোনও পার্থক্য রাখে না।

উদাহরণ

10100yx0.5

set.seed(1)
I <- 100
J <- 10
n <- I*J
i <- rep(1:I, each=J)
j <- rep(1:J,I)
x <- rnorm(n,mean=0, sd=1)
beta0  <- 1000
beta1  <- 0.5
sigma2 <- 1
tau2   <- 200
u <- rep(rnorm(I,mean=0,sd=sqrt(tau2)),each=J)
y <- beta0 + beta1*x + u + rnorm(n,mean=0, sd=sqrt(sigma2))

সুতরাং, আপনি পেতে একটি রৈখিক মডেল চালানো

> summary(lm(y~x))

Coefficients:
            Estimate Std. Error  t value Pr(>|t|)    
(Intercept) 999.8255     0.4609 2169.230   <2e-16 ***
x             0.5728     0.4456    1.286    0.199    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 14.57 on 998 degrees of freedom
Multiple R-squared:  0.001653,  Adjusted R-squared:  0.0006528 
F-statistic: 1.653 on 1 and 998 DF,  p-value: 0.1989

এবং আপনি এই সিদ্ধান্ত xনিয়েছেন যে এর কোনও পরিসংখ্যানিক প্রভাব নেই y। দেখুন স্ট্যান্ডার্ড ত্রুটিটি কত বড়। তবে একটি এলোমেলো-ইন্টারসেপ্ট মডেল চালাচ্ছি

> summary(lmer(y~x + (1|i)))

Random effects:
 Groups   Name        Variance Std.Dev.
 i        (Intercept) 213.062  14.597  
 Residual               1.066   1.032  
Number of obs: 1000, groups:  i, 100

Fixed effects:
            Estimate Std. Error t value
(Intercept) 999.8247     1.4600   684.8
x             0.4997     0.0327    15.3

আপনি অনুমানের স্ট্যান্ডার্ড ত্রুটিটি কতটা পরিবর্তিত হয়েছে তা দেখুন। এলোমেলো প্রভাবের অংশটি দেখলে আমরা দেখতে পাই যে পরিবর্তনশীলতা কীভাবে ক্ষয় হয়েছে - আয়ের বেশিরভাগ পরিবর্তনশীলতা দেশগুলির মধ্যে, এবং দেশগুলির মধ্যে লোকদের মধ্যে আরও বেশি আয় হয়। সহজ কথায় বলতে গেলে, এখানে যা ঘটেছিল তা হ'ল ক্লাস্টারিংয়ের প্রভাবের জন্য অ্যাকাউন্টিং না করা xহ'ল "হারিয়ে যাওয়া" (যদি আমরা এই ধরণের শব্দটি ব্যবহার করতে পারি), তবে আপনার বাস্তবে কী পাওয়া উচিত তা পরিবর্তনশীলতার পচনশীল।


+1 আপনাকে ধন্যবাদ, এটি দুর্দান্ত। যদিও আমি নিশ্চিত যে ক্লাস্টারিংয়ের জন্য অ্যাকাউন্টে ব্যর্থ হওয়ার সময় এসইগুলি সাধারণত ছোট হয় সে সম্পর্কে আমি বেশ কয়েকবার পড়ার কথা মনে করি, তাই আমি এখনও কিছুটা বিভ্রান্ত হয়ে পড়েছি - লিনিয়ার মডেল যখন খুব ছোট এসইতে ফিরে আসবে তখন কী কী পরিস্থিতিতে রয়েছে?
জো কিং

@ জোয়াইকিং এটি ক্লাস্টারযুক্ত শক্তিশালী এসই এর পক্ষে সত্য, মাল্টিলেভেল মডেলিংয়ের জন্য নয়। এটি আপনি ats.ucla পৃষ্ঠাতে দেখতে পাবেন যেখানে আপনি ডেটা নিয়েছেন।
স্টিভ

সম্পূর্ণরূপে পার্থক্যটি দেখতে joeKing
স্টিভ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.