টিএল; ডিআর : মিশ্র-এফেক্টস মডেলটিতে ক্লাস্টার প্রতি সর্বনিম্ন নমুনার আকার 1, শর্ত থাকে যে ক্লাস্টারের সংখ্যা পর্যাপ্ত, এবং সিঙ্গলটন ক্লাস্টারের অনুপাত "খুব বেশি" নয়
দীর্ঘ সংস্করণ:
সাধারণভাবে, ক্লাস্টার প্রতি পর্যবেক্ষণের সংখ্যার চেয়ে ক্লাস্টারের সংখ্যা বেশি গুরুত্বপূর্ণ। 700 সহ, স্পষ্টতই আপনার কোনও সমস্যা নেই।
ছোট ক্লাস্টারের আকারগুলি বেশ সাধারণ, বিশেষত সামাজিক বিজ্ঞানের সমীক্ষায় যা স্তরিত নমুনা নকশাগুলি অনুসরণ করে এবং এমন একটি গবেষণামূলক সংস্থা রয়েছে যা ক্লাস্টার-স্তরের নমুনার আকার অনুসন্ধান করেছে।
ক্লাস্টারের আকার বৃদ্ধি করার সাথে সাথে এলোমেলো প্রভাবগুলির অনুমানের পরিসংখ্যানিক শক্তি বৃদ্ধি পায় (অস্টিন এবং লেকি, 2018), ছোট ক্লাস্টার আকারগুলি গুরুতর পক্ষপাতের দিকে পরিচালিত করে না (বেল এট আল, ২০০;; ক্লার্ক, ২০০৮; ক্লার্ক ও হুইটন, ২০০;; ম্যাস ও হক্স) , 2005)। সুতরাং, প্রতি ক্লাস্টারে সর্বনিম্ন নমুনার আকার 1।
বিশেষত, বেল, এট আল (২০০৮) ০৩ থেকে ters০% অবধি সিঙ্গেলটন ক্লাস্টারগুলির (শুধুমাত্র একটি পর্যবেক্ষণ সম্বলিত ক্লাস্টার) অনুপাত সহ একটি মন্টি কার্লো সিমুলেশন অধ্যয়ন সম্পাদন করেছেন এবং আবিষ্কার করেছেন যে ক্লাস্টারের সংখ্যা বৃহত ছিল (~) 500) ছোট ক্লাস্টার আকারের পক্ষপাত এবং টাইপ 1 ত্রুটি নিয়ন্ত্রণের উপর প্রায় কোনও প্রভাব ছিল না।
তারা তাদের মডেলিং পরিস্থিতিতে যে কোনও একটিতে মডেল কনভার্শনে খুব কম সমস্যার কথা জানিয়েছেন।
ওপিতে বিশেষ দৃশ্যের জন্য, আমি প্রথম উদাহরণে 700 টি ক্লাস্টার সহ মডেলটি চালানোর পরামর্শ দেব। এটির সাথে সুস্পষ্ট সমস্যা না থাকলে আমি ক্লাস্টারগুলিকে একীভূত করতে প্রবণতা পোষণ করব। আমি আর তে একটি সাধারণ সিমুলেশন চালিয়েছি:
এখানে আমরা 1 টির অবশিষ্টাংশ সহ একটি ক্লাস্টার ডেটাসেট তৈরি করি, 1, 700 ক্লাস্টারের একটি একক স্থির প্রভাব, যার মধ্যে 690 একক এবং 10 টি মাত্র 2 টি পর্যবেক্ষণ করে। আমরা সিমুলেশনটি 1000 বার চালনা করি এবং আনুমানিক স্থায়ী এবং অবশিষ্টাংশের এলোমেলো প্রভাবের হিস্টোগ্রামগুলি পর্যবেক্ষণ করি।
> set.seed(15)
> dtB <- expand.grid(Subject = 1:700, measure = c(1))
> dtB <- rbind(dtB, dtB[691:700, ])
> fixef.v <- numeric(1000)
> ranef.v <- numeric(1000)
> for (i in 1:1000) {
dtB$x <- rnorm(nrow(dtB), 0, 1)
dtB$y <- dtB$Subject/100 + rnorm(nrow(dtB), 0, 1) + dtB$x * 1
fm0B <- lmer(y ~ x + (1|Subject), data = dtB)
fixef.v[i] <- fixef(fm0B)[[2]]
ranef.v[i] <- attr(VarCorr(fm0B), "sc")
}
> hist(fixef.v, breaks = 15)
> hist(ranef.v, breaks = 15)
আপনি দেখতে পাচ্ছেন, স্থির প্রভাবগুলি খুব ভালভাবে অনুমান করা হয়, যখন অবশিষ্ট র্যান্ডম এফেক্টগুলি সামান্য নিম্নমুখী পক্ষপাতী বলে মনে হয় তবে তা তাত্পর্যপূর্ণ নয়:
> summary(fixef.v)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.6479 0.9439 0.9992 1.0005 1.0578 1.2544
> summary(ranef.v)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.2796 0.7745 0.9004 0.8993 1.0212 1.4837
ওপি বিশেষত ক্লাস্টার-স্তরের এলোমেলো প্রভাবগুলির অনুমানের উল্লেখ করেছে। উপরের সিমুলেশনটিতে, এলোমেলো প্রভাবগুলি প্রতিটি Subject
আইডির মান হিসাবে তৈরি করা হয়েছিল (100 এর একটি ফ্যাক্টর দ্বারা ছোট)। স্পষ্টতই এগুলি সাধারণত বিতরণ করা হয় না, যা লিনিয়ার মিশ্র প্রভাবগুলির মডেলগুলির অনুমান, তবে, আমরা ক্লাস্টার স্তরের প্রভাবগুলি (শর্তসাপেক্ষ মোডগুলি) এক্সট্র্যাক্ট করতে পারি এবং প্রকৃত Subject
আইডির বিরুদ্ধে তাদের প্লট করতে পারি :
> re <- ranef(fm0B)[[1]][, 1]
> dtB$re <- append(re, re[691:700])
> hist(dtB$re)
> plot(dtB$re, dtB$Subject)
হিস্টোগ্রামটি কিছুটা স্বাভাবিক থেকে বিদায় নেয়, তবে এটি আমাদের উপাত্তকে সিমুলেটেড করার কারণে। আনুমানিক এবং আসল এলোমেলো প্রভাবগুলির মধ্যে এখনও যুক্তিসঙ্গত সম্পর্ক রয়েছে।
তথ্যসূত্র:
পিটার সি অস্টিন এবং জর্জ লেকি (2018) বহুসংখ্যক লিনিয়ার এবং লজিস্টিক রিগ্রেশন মডেলগুলিতে এলোমেলো প্রভাবের ভেরিয়েন্স উপাদানগুলির পরীক্ষার সময় পরিসংখ্যানগত শক্তি এবং টাইপ আই ত্রুটির হারের উপরে ক্লাস্টার এবং ক্লাস্টারের আকারের প্রভাব, পরিসংখ্যান গণনা এবং সিমুলেশন জার্নাল, 88: 16, 3151-3163, ডিওআই: 10.1080 / 00949655.2018.1504945
বেল, বিএ, ফেরোন, জেএম, এবং ক্রোম্রে, জেডি (২০০৮)। মাল্টিলেভেল মডেলগুলিতে ক্লাস্টারের আকার: দ্বি-স্তরের মডেলগুলিতে পয়েন্ট এবং অন্তর অন্তর্লে অনুমানের ক্ষেত্রে স্পার্স ডেটা স্ট্রাকচারের প্রভাব । জেএসএম কার্যবিবরণী, জরিপ গবেষণা পদ্ধতিগুলির বিভাগ, 1122-1129।
ক্লার্ক, পি। (২০০৮) গ্রুপ স্তর ক্লাস্টারিং কখন এড়ানো যাবে? মাল্টিলেভেল মডেল বনাম একক স্তরের মডেলগুলি বিরল ডেটা সহ । এপিডেমিওলজি এবং কমিউনিটি হেলথ জার্নাল, 62 (8), 752-758।
ক্লার্ক, পি।, এবং হুইটন, বি। (2007)। সিনথেটিক পাড়া তৈরি করতে ক্লাস্টার বিশ্লেষণ ব্যবহার করে প্রাসঙ্গিক জনসংখ্যার গবেষণায় ডেটা স্বল্পতা সম্বোধন করা । সমাজতাত্ত্বিক পদ্ধতি ও গবেষণা, 35 (3), 311-351।
মাআস, সিজে, এবং হক্স, জেজে (2005)। মাল্টিলেভেল মডেলিংয়ের জন্য পর্যাপ্ত নমুনা আকার । পদ্ধতি, 1 (3), 86-92।