আমার কি ক্লাস্টার স্তরে বা পৃথক স্তরে বুটস্ট্র্যাপ করা উচিত?


10

হাসপাতালে নেস্টেড রোগীদের সাথে আমার বেঁচে থাকার মডেল রয়েছে যা হাসপাতালের জন্য এলোমেলো-প্রভাব অন্তর্ভুক্ত করে। এলোমেলো প্রভাব গামা-বিতরণযোগ্য এবং আমি সহজেই বোঝা যায় এমন স্কেলটিতে এই শব্দটির 'প্রাসঙ্গিকতা' প্রতিবেদন করার চেষ্টা করছি।

আমি নিম্নলিখিত রেফারেন্সগুলি পেয়েছি যা মিডিয়ান হ্যাজার্ড অনুপাত (কিছুটা মিডিয়ান ওডস অনুপাতের মতো) ব্যবহার করে এবং এটি গণনা করে।

বেংটসন টি, ড্রিবি এম: Methতিহাসিক পদ্ধতিগুলি 43:15, 2010

তবে, এখন আমি বুটস্ট্র্যাপ ব্যবহার করে এই অনুমানের সাথে সম্পর্কিত অনিশ্চয়তার প্রতিবেদন করতে চাই। ডেটা বেঁচে থাকার ডেটা, এবং তাই রোগী প্রতি একাধিক পর্যবেক্ষণ এবং প্রতি হাসপাতালে একাধিক রোগী রয়েছে। এটা স্পষ্টতই প্রতীয়মান হয়েছে যে পুনরায় নমুনা দেওয়ার সময় আমার রোগীর পর্যবেক্ষণগুলি ক্লাস্টার করা দরকার। তবে আমি জানি না আমার খুব বেশি হাসপাতালগুলিও ক্লাস্টার করা উচিত (অর্থাত্ রোগীদের চেয়ে রেজিমাল হাসপাতালগুলি)?

আমি ভাবছি যে উত্তরটি আগ্রহের প্যারামিটারের উপর নির্ভর করে, এবং তাই যদি লক্ষ্যটি এমন কিছু ছিল যা হাসপাতালের স্তরের চেয়ে রোগীর স্তরে প্রাসঙ্গিক ছিল?

আমি নীচে স্টাটা কোডটি তালিকাবদ্ধ করেছি যা ক্ষেত্রে সহায়তা করে।

cap program drop est_mhr
program define est_mhr, rclass
stcox patient_var1 patient_var2 ///
    , shared(hospital) ///
    noshow
local twoinvtheta2 = 2 / (e(theta)^2)
local mhr = exp(sqrt(2*e(theta))*invF(`twoinvtheta2',`twoinvtheta2',0.75))
return scalar mhr = `mhr'
end

bootstrap r(mhr), reps(50) cluster(hospital): est_mhr

উত্তর:


2

কল্পনা করুন যে আপনি বাচ্চাদের শিক্ষাগত সাফল্য সম্পর্কে একটি গবেষণা চালিয়েছেন। আপনি কিছু অঞ্চল থেকে স্কুলগুলির এলোমেলো নমুনা নিয়েছিলেন এবং প্রতিটি স্কুল থেকে একটি ক্লাস অধ্যয়নের অন্তর্ভুক্ত ছিল। আপনি বিশ্লেষণ পরিচালনা করেছেন এবং এখন আপনার অনুমানের জন্য আত্মবিশ্বাসের ব্যবধানগুলি পেতে বুটস্ট্র্যাপ ব্যবহার করতে চান। এটা কিভাবে করতে হবে?

প্রথমে লক্ষ্য করুন যে আপনার ডেটা শ্রেণিবদ্ধ, এর কয়েকটি স্তর রয়েছে: স্কুল, বিদ্যালয়ের মধ্যে ক্লাস এবং ক্লাসের মধ্যে শিক্ষার্থীরা। যেহেতু বিদ্যালয়ে প্রতিটি বিভাগ কেবলমাত্র তাই আপনার স্তরের দ্বিতীয় স্তরের অস্তিত্ব নেই। আমরা ধরে নিতে পারি যে স্কুলের মধ্যে কিছু মিল এবং স্কুলের মধ্যে পার্থক্য রয়েছে। যদি স্কুলের মধ্যে মিল রয়েছে তবে আপনি যদি এলোমেলোভাবে শিক্ষার্থীদের নমুনা করেন, তাদের স্কুলের সদস্যতার বিষয়টি বিবেচনা না করে আপনি সম্ভবত আপনার ডেটার শ্রেণিবদ্ধ কাঠামো নষ্ট করতে পারেন।

সাধারণভাবে, বেশ কয়েকটি বিকল্প রয়েছে:

  1. প্রতিস্থাপন সহ শিক্ষার্থীদের নমুনা,
  2. প্রতিস্থাপন সহ পুরো স্কুল নমুনা,
  3. প্রতিস্থাপন সহ প্রথম নমুনা বিদ্যালয় এবং তারপরে নমুনা শিক্ষার্থীরা (ক) প্রতিস্থাপন সহ, বা (খ) প্রতিস্থাপন ছাড়াই।

এটি প্রদর্শিত হয় যে প্রথম পদ্ধতিরটি সবচেয়ে খারাপ। স্মরণ করুন যে বুটস্ট্র্যাপের নমুনাটি কোনওভাবে আপনার অধ্যয়নের নমুনা প্রক্রিয়াটি অনুকরণ করে এবং আপনি পৃথক শিক্ষার্থীদের চেয়ে স্কুলগুলির নমুনা নিচ্ছেন। (2) এবং (3) এর মধ্যে বাছাই করা আরও জটিল, তবে আশা করি আপনি এই বিষয়টি বিবেচনা করে গবেষণা পত্রগুলি খুঁজে পেতে পারেন (যেমন রেনা এট আল। 2010, ফিল্ড এবং ওয়েলশ, 2007)। সাধারণত বিকল্পগুলি (2) বা (3 বি) পছন্দনীয় কারণ এটি মনে হয় প্রতিস্থাপনের সাথে অত্যধিক মাত্রার নমুনা অন্তর্ভুক্ত করা পক্ষপাতদুষ্ট ফলাফলের দিকে পরিচালিত করে। আপনি ইফ্রন এবং তিবশিরানী (1994) এবং ডেভিসন এবং হিঙ্কলে (1997) এর বইগুলিতেও এই বিষয় সম্পর্কে আরও তথ্য পেতে পারেন। লক্ষ্য করুন যে আমাদের সময়-সিরিজের ডেটা বুটস্ট্র্যাপিংয়ের সাথে একই রকম সমস্যা রয়েছেএবং এক্ষেত্রে আমরা পৃথক পর্যবেক্ষণের পরিবর্তে সিরিজের পুরো ব্লকগুলি (উদাহরণস্বরূপ পুরো মরসুমকে নমুনা হিসাবে দেখি) নাহলে সময় কাঠামো নষ্ট হয়ে যায়। অনুশীলনে কোনও আকার-মাপসই-সব সমাধান নেই তবে জটিল ডেটা স্ট্রাকচার সহ আপনার এমন ডেটা এবং আপনার সমস্যার উপযুক্ত ফিট করে এমন বুটস্ট্র্যাপ স্যাম্পলিং স্কিমটি বেছে নেওয়া উচিত এবং যদি সম্ভব হয় তবে বিভিন্ন সমাধানের তুলনা করার জন্য সিমুলেশন অধ্যয়ন ব্যবহার করুন।


ডেভিসন, এসি এবং হিঙ্কলি, ডিভি (1997)। বুটস্ট্র্যাপ পদ্ধতি এবং তাদের প্রয়োগ। কেমব্রিজ।

ইফ্রন, বি এবং তিবশিরানী, আরজে (1994)। বুটস্ট্র্যাপের একটি ভূমিকা । সিআরসি প্রেস।

রেন, এস, লাই, এইচ।, টং, ডাব্লু।, আমিনজাদেহ, এম।, হউ, এক্স, এবং লাই, এস। (2010)। শ্রেণিবিন্যাস সম্পর্কিত ডেটার জন্য ননপ্যারমেট্রিক বুটস্ট্র্যাপিং। প্রয়োগ পরিসংখ্যান জার্নাল, 37 (9), 1487-1498।

ফিল্ড, সিএ এবং ওয়েলশ, এএইচ (2007) ক্লাস্টার ডেটা বুটস্ট্র্যাপিং। রয়্যাল স্ট্যাটিস্টিকাল সোসাইটির জার্নাল: সিরিজ বি (পরিসংখ্যান পদ্ধতি), 69 (3), 369-390।


1
আপনার উত্তর গৃহীত হয়েছে (ধন্যবাদ), তবে অন্যদের জন্য আমি এখন আমার উত্তরে এটি করতে
আরে

3

উত্তরটি মনে হচ্ছে যে পুনঃনির্মাণ প্রক্রিয়াটি ডেটার কাঠামোর অ্যাকাউন্টে নেওয়া দরকার। এখানে একটি সুন্দর ব্যাখ্যা রয়েছে (এটি বাস্তবায়নের জন্য কিছু আর কোড সহ)।

http://biostat.mc.vanderbilt.edu/wiki/Main/HowToBootstrapCorrelatedData

UCLA পরিসংখ্যান পরামর্শদাতা গ্রুপের পয়েন্টারকে ধন্যবাদ ।

আমি উপরে লিঙ্কিত কোড স্নিপেটের একটি দ্রুততর (তবে কম নমনীয়) সংস্করণ লিখেছি - আপডেট এবং বিশদ জন্য এখানে চেক করুন।

rsample2 <- function(data=tdt, id.unit=id.u, id.cluster=id.c) {
require(data.table)

setkeyv(tdt,id.cluster)
# Generate within cluster ID (needed for the sample command)
tdt[, "id.within" := .SD[,.I], by=id.cluster, with=FALSE]

# Random sample of sites
bdt <- data.table(sample(unique(tdt[[id.cluster]]), replace=TRUE))
setnames(bdt,"V1",id.cluster)
setkeyv(bdt,id.cluster)

# Use random sample of sites to select from original data
# then
# within each site sample with replacement using the within site ID
bdt <- tdt[bdt, .SD[sample(.SD$id.within, replace=TRUE)],by=.EACHI]

# return data sampled with replacement respecting clusters
bdt[, id.within := NULL] # drop id.within
return(bdt)
}
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.