এটি বুটস্ট্র্যাপের মতো: অনুমানটি আত্মবিশ্বাসের ব্যবধানের বাইরে
আমার কাছে কিছু তথ্য রয়েছে যা একটি জনসংখ্যার জিনোটাইপের সংখ্যার প্রতিনিধিত্ব করে। আমি শ্যাননের সূচক ব্যবহার করে জিনগত বৈচিত্র্য অনুমান করতে এবং বুটস্ট্র্যাপিং ব্যবহার করে একটি আত্মবিশ্বাসের ব্যবধানও তৈরি করতে চাই। তবে আমি লক্ষ করেছি যে বুটস্ট্র্যাপিংয়ের মাধ্যমে অনুমানটি চূড়ান্ত পক্ষপাতদুষ্ট হয়ে থাকে এবং এটি আমার পর্যবেক্ষণের পরিসংখ্যানের বাইরে থাকা একটি আত্মবিশ্বাসের ব্যবধানে ফলাফল দেয়।
নীচে একটি উদাহরণ দেওয়া আছে।
# Shannon's index
H <- function(x){
x <- x/sum(x)
x <- -x * log(x, exp(1))
return(sum(x, na.rm = TRUE))
}
# The version for bootstrapping
H.boot <- function(x, i){
H(tabulate(x[i]))
}
ডেটা জেনারেশন
set.seed(5000)
X <- rmultinom(1, 100, prob = rep(1, 50))[, 1]
হিসাব
H(X)
## [1] 3.67948
xi <- rep(1:length(X), X)
H.boot(xi)
## [1] 3.67948
library("boot")
types <- c("norm", "perc", "basic")
(boot.out <- boot::boot(xi, statistic = H.boot, R = 1000L))
##
## CASE RESAMPLING BOOTSTRAP FOR CENSORED DATA
##
##
## Call:
## boot::boot(data = xi, statistic = H.boot, R = 1000)
##
##
## Bootstrap Statistics :
## original bias std. error
## t1* 3.67948 -0.2456241 0.06363903
পক্ষপাত সংশোধন করে সিআই তৈরি করা
boot.ci(boot.out, type = types)
## BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
## Based on 1000 bootstrap replicates
##
## CALL :
## boot.ci(boot.out = boot.out, type = types)
##
## Intervals :
## Level Normal Basic Percentile
## 95% ( 3.800, 4.050 ) ( 3.810, 4.051 ) ( 3.308, 3.549 )
## Calculations and Intervals on Original Scale
ধরে নিই যে টি এর প্রকরণটি টি- এর বিভিন্নতার জন্য ব্যবহার করা যেতে পারে ।
norm.ci(t0 = boot.out$t0, var.t0 = var(boot.out$t[, 1]))[-1]
## [1] 3.55475 3.80421
এটা সি আই চারপাশে কেন্দ্রীভূত প্রতিবেদন করতে সঠিক হবে t0 ? বুটস্ট্র্যাপ উত্পন্ন করার জন্য আরও ভাল উপায় আছে কি?