এলোমেলো প্রভাবের মডেলটিতে প্রতি ক্লাস্টারে সর্বনিম্ন নমুনার আকার

10

একটি এলোমেলো প্রভাব মডেল মধ্যে ক্লাস্টার প্রতি পর্যবেক্ষণ সংখ্যার জন্য কি যুক্তি আছে? আমার 70000 টি ক্লাস্টার সহ 1,500 আকারের একটি নমুনা বিনিময়যোগ্য এলোমেলো প্রভাব হিসাবে মডেল হয়েছে। কম, তবে বৃহত্তর ক্লাস্টার তৈরি করার জন্য আমার কাছে ক্লাস্টারগুলিকে মার্জ করার বিকল্প রয়েছে। আমি ভাবছি যে প্রতিটি ক্লাস্টারের জন্য এলোমেলো প্রভাবের পূর্বাভাস দেওয়ার অর্থপূর্ণ ফলাফল পেতে আমি কীভাবে প্রতি ক্লাস্টারে ন্যূনতম নমুনার আকারটি বেছে নিতে পারি? একটি ভাল কাগজ আছে যা এটি ব্যাখ্যা করে?

— Roccer
সূত্র

13

টিএল; ডিআর : মিশ্র-এফেক্টস মডেলটিতে ক্লাস্টার প্রতি সর্বনিম্ন নমুনার আকার 1, শর্ত থাকে যে ক্লাস্টারের সংখ্যা পর্যাপ্ত, এবং সিঙ্গলটন ক্লাস্টারের অনুপাত "খুব বেশি" নয়

দীর্ঘ সংস্করণ:

সাধারণভাবে, ক্লাস্টার প্রতি পর্যবেক্ষণের সংখ্যার চেয়ে ক্লাস্টারের সংখ্যা বেশি গুরুত্বপূর্ণ। 700 সহ, স্পষ্টতই আপনার কোনও সমস্যা নেই।

ছোট ক্লাস্টারের আকারগুলি বেশ সাধারণ, বিশেষত সামাজিক বিজ্ঞানের সমীক্ষায় যা স্তরিত নমুনা নকশাগুলি অনুসরণ করে এবং এমন একটি গবেষণামূলক সংস্থা রয়েছে যা ক্লাস্টার-স্তরের নমুনার আকার অনুসন্ধান করেছে।

ক্লাস্টারের আকার বৃদ্ধি করার সাথে সাথে এলোমেলো প্রভাবগুলির অনুমানের পরিসংখ্যানিক শক্তি বৃদ্ধি পায় (অস্টিন এবং লেকি, 2018), ছোট ক্লাস্টার আকারগুলি গুরুতর পক্ষপাতের দিকে পরিচালিত করে না (বেল এট আল, ২০০;; ক্লার্ক, ২০০৮; ক্লার্ক ও হুইটন, ২০০;; ম্যাস ও হক্স) , 2005)। সুতরাং, প্রতি ক্লাস্টারে সর্বনিম্ন নমুনার আকার 1।

বিশেষত, বেল, এট আল (২০০৮) ০৩ থেকে ters০% অবধি সিঙ্গেলটন ক্লাস্টারগুলির (শুধুমাত্র একটি পর্যবেক্ষণ সম্বলিত ক্লাস্টার) অনুপাত সহ একটি মন্টি কার্লো সিমুলেশন অধ্যয়ন সম্পাদন করেছেন এবং আবিষ্কার করেছেন যে ক্লাস্টারের সংখ্যা বৃহত ছিল (~) 500) ছোট ক্লাস্টার আকারের পক্ষপাত এবং টাইপ 1 ত্রুটি নিয়ন্ত্রণের উপর প্রায় কোনও প্রভাব ছিল না।

তারা তাদের মডেলিং পরিস্থিতিতে যে কোনও একটিতে মডেল কনভার্শনে খুব কম সমস্যার কথা জানিয়েছেন।

ওপিতে বিশেষ দৃশ্যের জন্য, আমি প্রথম উদাহরণে 700 টি ক্লাস্টার সহ মডেলটি চালানোর পরামর্শ দেব। এটির সাথে সুস্পষ্ট সমস্যা না থাকলে আমি ক্লাস্টারগুলিকে একীভূত করতে প্রবণতা পোষণ করব। আমি আর তে একটি সাধারণ সিমুলেশন চালিয়েছি:

এখানে আমরা 1 টির অবশিষ্টাংশ সহ একটি ক্লাস্টার ডেটাসেট তৈরি করি, 1, 700 ক্লাস্টারের একটি একক স্থির প্রভাব, যার মধ্যে 690 একক এবং 10 টি মাত্র 2 টি পর্যবেক্ষণ করে। আমরা সিমুলেশনটি 1000 বার চালনা করি এবং আনুমানিক স্থায়ী এবং অবশিষ্টাংশের এলোমেলো প্রভাবের হিস্টোগ্রামগুলি পর্যবেক্ষণ করি।

> set.seed(15)
> dtB <- expand.grid(Subject = 1:700, measure = c(1))
> dtB <- rbind(dtB, dtB[691:700, ])
> fixef.v <- numeric(1000)
> ranef.v <- numeric(1000)
> for (i in 1:1000) { 
   dtB$x <- rnorm(nrow(dtB), 0, 1)
   dtB$y <- dtB$Subject/100 + rnorm(nrow(dtB), 0, 1) + dtB$x * 1

   fm0B <- lmer(y ~ x + (1|Subject), data = dtB)
   fixef.v[i] <- fixef(fm0B)[[2]]
   ranef.v[i] <- attr(VarCorr(fm0B), "sc")
 }
> hist(fixef.v, breaks = 15)
> hist(ranef.v, breaks = 15)

আপনি দেখতে পাচ্ছেন, স্থির প্রভাবগুলি খুব ভালভাবে অনুমান করা হয়, যখন অবশিষ্ট র্যান্ডম এফেক্টগুলি সামান্য নিম্নমুখী পক্ষপাতী বলে মনে হয় তবে তা তাত্পর্যপূর্ণ নয়:

> summary(fixef.v)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.6479  0.9439  0.9992  1.0005  1.0578  1.2544 
> summary(ranef.v)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.2796  0.7745  0.9004  0.8993  1.0212  1.4837

ওপি বিশেষত ক্লাস্টার-স্তরের এলোমেলো প্রভাবগুলির অনুমানের উল্লেখ করেছে। উপরের সিমুলেশনটিতে, এলোমেলো প্রভাবগুলি প্রতিটি Subjectআইডির মান হিসাবে তৈরি করা হয়েছিল (100 এর একটি ফ্যাক্টর দ্বারা ছোট)। স্পষ্টতই এগুলি সাধারণত বিতরণ করা হয় না, যা লিনিয়ার মিশ্র প্রভাবগুলির মডেলগুলির অনুমান, তবে, আমরা ক্লাস্টার স্তরের প্রভাবগুলি (শর্তসাপেক্ষ মোডগুলি) এক্সট্র্যাক্ট করতে পারি এবং প্রকৃত Subjectআইডির বিরুদ্ধে তাদের প্লট করতে পারি :

> re <- ranef(fm0B)[[1]][, 1]
> dtB$re <- append(re, re[691:700])
> hist(dtB$re)
> plot(dtB$re, dtB$Subject)

হিস্টোগ্রামটি কিছুটা স্বাভাবিক থেকে বিদায় নেয়, তবে এটি আমাদের উপাত্তকে সিমুলেটেড করার কারণে। আনুমানিক এবং আসল এলোমেলো প্রভাবগুলির মধ্যে এখনও যুক্তিসঙ্গত সম্পর্ক রয়েছে।

তথ্যসূত্র:

পিটার সি অস্টিন এবং জর্জ লেকি (2018) বহুসংখ্যক লিনিয়ার এবং লজিস্টিক রিগ্রেশন মডেলগুলিতে এলোমেলো প্রভাবের ভেরিয়েন্স উপাদানগুলির পরীক্ষার সময় পরিসংখ্যানগত শক্তি এবং টাইপ আই ত্রুটির হারের উপরে ক্লাস্টার এবং ক্লাস্টারের আকারের প্রভাব, পরিসংখ্যান গণনা এবং সিমুলেশন জার্নাল, 88: 16, 3151-3163, ডিওআই: 10.1080 / 00949655.2018.1504945

বেল, বিএ, ফেরোন, জেএম, এবং ক্রোম্রে, জেডি (২০০৮)। মাল্টিলেভেল মডেলগুলিতে ক্লাস্টারের আকার: দ্বি-স্তরের মডেলগুলিতে পয়েন্ট এবং অন্তর অন্তর্লে অনুমানের ক্ষেত্রে স্পার্স ডেটা স্ট্রাকচারের প্রভাব । জেএসএম কার্যবিবরণী, জরিপ গবেষণা পদ্ধতিগুলির বিভাগ, 1122-1129।

ক্লার্ক, পি। (২০০৮) গ্রুপ স্তর ক্লাস্টারিং কখন এড়ানো যাবে? মাল্টিলেভেল মডেল বনাম একক স্তরের মডেলগুলি বিরল ডেটা সহ । এপিডেমিওলজি এবং কমিউনিটি হেলথ জার্নাল, 62 (8), 752-758।

ক্লার্ক, পি।, এবং হুইটন, বি। (2007)। সিনথেটিক পাড়া তৈরি করতে ক্লাস্টার বিশ্লেষণ ব্যবহার করে প্রাসঙ্গিক জনসংখ্যার গবেষণায় ডেটা স্বল্পতা সম্বোধন করা । সমাজতাত্ত্বিক পদ্ধতি ও গবেষণা, 35 (3), 311-351।

মাআস, সিজে, এবং হক্স, জেজে (2005)। মাল্টিলেভেল মডেলিংয়ের জন্য পর্যাপ্ত নমুনা আকার । পদ্ধতি, 1 (3), 86-92।

— রবার্ট লং
সূত্র

1

+1 দুর্দান্ত উত্তর। সম্পর্কিত: লজিস্টিক মাল্টিলেভেল মডেলগুলির সাথে আমার সমস্যা হয়েছিল যেখানে প্রায় অর্ধেক ক্লাস্টারে কেবলমাত্র 1 টি পর্যবেক্ষণ থাকে। এখানে দেখুন: stats.stackexchange.com/a/358460/130869

— মার্ক হোয়াইট

4

মিশ্র মডেলগুলিতে এম্পিরিকাল বেয়েস পদ্ধতি ব্যবহার করে প্রায়শই এলোমেলো প্রভাব অনুমান করা হয়। এই পদ্ধতিটির একটি বৈশিষ্ট্য হ'ল সংকোচন। যথা, আনুমানিক এলোমেলো প্রভাবগুলি সংশোধন-প্রভাব অংশ দ্বারা বর্ণিত মডেলের সামগ্রিক গড় দিকে সংকুচিত হয়। সংকোচনের ডিগ্রি দুটি উপাদানগুলির উপর নির্ভর করে:

ত্রুটির শর্তগুলির প্রকরণের বৈচিত্রের সাথে তুলনা করে এলোমেলো প্রভাবগুলির প্রকরণের মাত্রা। ত্রুটির শর্তগুলির পরিবর্তনের সাথে র্যান্ডম এফেক্টগুলির প্রকারের পরিমাণ যত বেশি হবে সঙ্কুচিত হওয়ার পরিমাণ কম smaller
গুচ্ছগুলিতে পুনরাবৃত্তি পরিমাপের সংখ্যা। কম পরিমাপের সাথে ক্লাস্টারের তুলনায় আরও পুনরাবৃত্তি পরিমাপের সাথে ক্লাস্টারগুলির এলোমেলো প্রভাবের অনুমান সামগ্রিক গড় দিকে কম সঙ্কুচিত হয়।

আপনার ক্ষেত্রে, দ্বিতীয় পয়েন্টটি আরও প্রাসঙ্গিক। তবে নোট করুন যে ক্লাস্টারগুলিকে মার্জ করার আপনার প্রস্তাবিত সমাধান প্রথম পয়েন্টকেও প্রভাবিত করতে পারে।

— দিমিত্রিস রিজোপল্লস
সূত্র