আমি প্রাথমিক পরিসংখ্যানগুলিতে শিখেছি যে সাধারণ রৈখিক মডেল সহ, সূত্রগুলি বৈধ হওয়ার জন্য, পর্যবেক্ষণগুলি অবশ্যই স্বাধীন হতে হবে। যখন ক্লাস্টারিং ঘটে তখন স্বতন্ত্রতা আর অবৈধ অনুক্রমের দিকে পরিচালিত করতে পারে যদি না এটির জন্য অ্যাকাউন্ট করা হয়। এই জাতীয় ক্লাস্টারিংয়ের জন্য অ্যাকাউন্ট করার একটি উপায় হ'ল মিশ্র মডেলগুলি ব্যবহার করে। আমি একটি উদাহরণস্বরূপ ডেটাসেট সন্ধান করতে চাই, সিমুলেটেড বা না, যা এটি স্পষ্টভাবে প্রদর্শন করে। ক্লাস্টারড ডেটা বিশ্লেষণের জন্য আমি ইউসিএলএ সাইটে নমুনা ডেটাসেটগুলির একটি ব্যবহার করার চেষ্টা করেছি
> require(foreign)
> require(lme4)
> dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")
> m1 <- lm(api00~growth+emer+yr_rnd, data=dt)
> summary(m1)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 740.3981 11.5522 64.092 <2e-16 ***
growth -0.1027 0.2112 -0.486 0.6271
emer -5.4449 0.5395 -10.092 <2e-16 ***
yr_rnd -51.0757 19.9136 -2.565 0.0108 *
> m2 <- lmer(api00~growth+emer+yr_rnd+(1|dnum), data=dt)
> summary(m2)
Fixed effects:
Estimate Std. Error t value
(Intercept) 748.21841 12.00168 62.34
growth -0.09791 0.20285 -0.48
emer -5.64135 0.56470 -9.99
yr_rnd -39.62702 18.53256 -2.14
আমি যদি কিছু মিস করি না তবে এই ফলাফলগুলি যথেষ্ট পরিমাণে সমান যে আমি মনে করি না যে আউটপুটটি lm()
অবৈধ। আমি আরও কয়েকটি উদাহরণ দেখেছি (উদাহরণস্বরূপ , ব্রিস্টল ইউনিভার্সিটি সেন্টার ফর মাল্টিলেভেল মডেলিংয়ের 5.2 ) থেকে এবং পাওয়া গেছে যে স্ট্যান্ডার্ড ত্রুটিগুলিও মারাত্মকভাবে আলাদা নয় (আমি মিশ্র মডেল থেকে এলোমেলো প্রভাবগুলিতে নিজের আগ্রহী নই, তবে এটি লক্ষণীয় যে মিশ্র মডেল আউটপুট থেকে আইসিসি 0.42)।
সুতরাং, আমার প্রশ্নগুলি 1) ক্লাস্টারিংয়ের সময় স্ট্যান্ডার্ড ত্রুটিগুলি স্পষ্টতই আলাদা হবে এবং 2) কেউ এই জাতীয় ডেটাসেটের (উদাহরণস্বরূপ বা না) উদাহরণ সরবরাহ করতে পারে।