স্কিউ বন্টন গড়ের জন্য একটি নির্ভরযোগ্য ননপ্যারমেট্রিক আত্মবিশ্বাসের ব্যবধান কি আছে?


30

লগ-নরমাল এর মতো খুব স্কিউড ডিস্ট্রিবিউশনের ফলে সঠিক বুটস্ট্র্যাপের আত্মবিশ্বাসের বিরতি ঘটে না। এখানে একটি উদাহরণ দেখাচ্ছে যা বাম এবং ডান লেজের অঞ্চলগুলি আদর্শ 0.025 থেকে অনেক দূরে, আপনি আর-তে কোন বুটস্ট্র্যাপ পদ্ধতি ব্যবহার করে দেখেন:

require(boot)
n    <- 25
B    <- 1000
nsim <- 1000
set.seed(1)
which <- c('basic', 'perc', 'norm', 'bca', 'stud')
mul <- 0; sdl <- 1.65   # on log scale
dist <- c('normal', 'lognormal')[2]
switch(dist, normal    = {g <- function(x) x; mu <- mul},
             lognormal = {g <- exp; mu <- exp(mul + sdl * sdl / 2)})
count <- matrix(0, nrow=length(which), ncol=2,
                dimnames=list(which, c('lower', 'upper')))
stat <- function(x, j) {
## See http://www.psychology.mcmaster.ca/bennett/boot09/percentileT.pdf
  x <- x[j]
  m <- mean(x)
  s <- sd(x)
  n <- length(x)
  sem <- s / sqrt(n)
  m.var <- sem ^ 2
  c(m, m.var)
}
for(i in 1 : nsim) {
  if(i %% 100 == 0) cat(i, '')
  x <- g(rnorm(n, mul, sdl))
  b  <- boot(x, stat, R=B)
  ci <- boot.ci(b, type=which)
  for(w in which) {
    nam <- switch(w, perc='percent', norm='normal', basic='basic',
                  stud='student', bca='bca')
    z <- rev(rev(ci[[nam]])[1:2])
    count[w, 'lower'] <- count[w, 'lower'] + (z[1] > mu)
    count[w, 'upper'] <- count[w, 'upper'] + (z[2] < mu)
  }
}
cat('\n')
count / nsim

ফলাফল নীচে:

      lower upper
basic 0.000 0.329
perc  0.003 0.257
norm  0.000 0.287
bca   0.015 0.185
stud  0.005 0.129

জন্য একক একক প্রয়াস এখনও পর্যাপ্তরূপে সঠিক কভারেজ প্রদান করবেন না:n=400

      lower upper
basic 0.001 0.114
perc  0.005 0.093
norm  0.002 0.102
bca   0.017 0.067
stud  0.011 0.058

লগইনরমাল বিতরণ থেকে নমুনা নিলে অভিজ্ঞতার সম্ভাবনাও সঠিক আত্মবিশ্বাসের ব্যবধান সরবরাহ করতে ব্যর্থ হয়।

λ

লক্ষ্যগুলি পুনরুদ্ধার করার জন্য, আমি একটি জনসাধারণের জন্য আস্থার ব্যবধান পাওয়ার জন্য একটি সাধারণভাবে প্রয়োগযোগ্য পদ্ধতির সন্ধান করছি যার অর্থ এটি

  1. যদি কাঁচা ডেটা বিতরণ অসম্পৃক্ত হয় তবে অন্তরটি অসম্পূর্ণ হয়
  2. উভয় লেজগুলিতে ব্যবধানের সঠিক কভারেজ রয়েছে (উদাহরণস্বরূপ, উভয় ক্ষেত্রে 0.025 ত্রুটির সম্ভাবনা)
  3. পদ্ধতিটি অন্তর্নিহিত বিতরণ বা বিতরণকে প্রতিসাম্য তৈরি করার জন্য প্রয়োজনীয় রূপান্তর সম্পর্কে কোনও নির্দিষ্টকরণ বিশ্লেষকের প্রয়োজন হয় না

tμ=0,σ=1.65n=20000

এটি নিয়ে ভাবতে অবিরত হওয়ার জন্য, আমি যে সমস্যাটি নিয়ে আলোচনা করতে চাইছি তা ধারণাকে ধারণ করার দুটি বিস্তৃত উপায় রয়েছে।

  1. n=201.28×t
  2. যদিও কোনও একক বুটস্ট্র্যাপ চূড়ান্ত স্কিউ বিতরণ থেকে নমুনাগুলির জন্য যথাযথভাবে সঠিক আত্মবিশ্বাসের সীমা না দেয়, ডাবল বুটস্ট্র্যাপ উভয় লেজের মধ্যে আস্থা আস্থা উল্লেখযোগ্যভাবে উন্নত করতে পারে improve নানক্রভিসের কিছু দুর্দান্ত ফলাফল রয়েছে এবং এটি একটি দুর্দান্ত গণনা অ্যালগরিদম সরবরাহ করে। তবে কোনও সফ্টওয়্যারই আমি এর প্রয়োগগুলি খুঁজে পেল না।

আর কোড চিত্রিত 1. উপরে:

## Exact CI for median from DescTools package SignTest.default
## See also ttp://www.stat.umn.edu/geyer/old03/5102/notes/rank.pdf,
## http://de.scribd.com/doc/75941305/Confidence-Interval-for-Median-Based-on-Sign-Test
cimed <- function(x, alpha=0.05, na.rm=FALSE) {
  if(na.rm) x <- x[! is.na(x)]
  n <- length(x)
  k <- qbinom(p=alpha / 2, size=n, prob=0.5, lower.tail=TRUE)
  ## Actual CL: 1 - 2 * pbinom(k - 1, size=n, prob=0.5) >= 1 - alpha
  sort(x)[c(k, n - k + 1)]
}

n <- 20
m <- 20000
cil <- cilt <- 0
z <- qt(0.975, n - 1)

for(i in 1 : m) {
  x <- rnorm(n)
  cil  <- cil + diff(cimed(x))
  cilt <- cilt + 2 * z * sqrt(var(x) / n)
}
cil  <- cil / m
cilt <- cilt / m

c(cil, cilt, cilt / cil, cil / cilt)

1
এটি গণনামূলকভাবে নিবিড়, তবে আপনি যদি এম্পিরিকাল সিডিএফ নেন, এলোমেলোভাবে ব্রাউনিয়ান ব্রিজ তৈরি করা শুরু করেন; প্রতিটি ব্রাউনিয়ান ব্রিজটি ইডিডিএফ এবং কিছু অনুমান সিডিএফের মধ্যে ব-দ্বীপকে প্রতিনিধিত্ব করে। হাইপোথিটিকাল সিডিএফ ব্যবহার করে গড় গণনা করুন এবং কেএস পরীক্ষার দ্বারা নির্ধারিত ফ্যাক্টর দ্বারা এটি ওজন করুন। কিছুক্ষণের জন্য এটি পুনরাবৃত্তি করে, আপনার একটি ওজনের ডেটা সেট উপায় থাকবে এবং আত্মবিশ্বাসের ব্যবধানটি গণনা করতে পারবেন।
নীড় ফ্রাইডম্যান

আমার কাছে অনুমানের সিডিএফ নেই। এবং যদি আপনি কেবল কেএস থেকে উপরের এবং নিম্ন 0.95 আত্মবিশ্বাসের অঞ্চলটি ব্যবহার করেন এবং তাদের কাছ থেকে গড়টি গণনা করেন, তবে এটি কি মারাত্মক রক্ষণশীল হবে।
ফ্রাঙ্ক হ্যারেল

অনুমানমূলক সিডিএফটি এম্পিরিকাল সিডিএফ এলোমেলোভাবে উত্পাদিত ব্রাউনিয়ান ব্রিজ যুক্ত করে প্রবর্তিত হয়। এছাড়াও, আমি আত্মবিশ্বাসের অঞ্চল থেকে অর্থ গ্রহণ করার পরামর্শ দিচ্ছি না। আমি অনেকগুলি অনুমানমূলক বিতরণ উত্পন্ন করে যথাযথভাবে ওজনযুক্ত এবং তারপরে আত্মবিশ্বাসের ব্যবধান পেয়ে বহু উপায় অর্জনের পরামর্শ দিচ্ছি। এটি মূলত বুটস্ট্র্যাপিংয়ের জন্য কেবল একটি ভিন্ন পদ্ধতি, আমি মনে করি ফলাফলটি যদিও ভিন্ন হতে পারে।
নীড় ফ্রাইডম্যান

এটি কতটা দক্ষতার সাথে প্রোগ্রাম করা যায় এবং আত্মবিশ্বাসের ব্যবধানের কভারেজটি কতটা সঠিক তা দেখতে আকর্ষণীয় হবে। পরামর্শের জন্য ধন্যবাদ. আমি ভাবছি যদি বায়েসিয়ান বুটস্ট্র্যাপটি নকল করে। আমি অন্য প্রসঙ্গে বায়েশিয়ান বুটস্ট্র্যাপ চেষ্টা করেছি এবং এটি আত্মবিশ্বাসের ব্যবধানের ব্যবস্থার উন্নতি করতে পারে নি।
ফ্র্যাঙ্ক হ্যারেল

উত্তর:


11

অন্তত অন্তর্নিহিত বিতরণে কোনও ধরণের প্রতিবন্ধকতার পরিচয় না দিয়ে আমি এ জাতীয় প্যারাম্যাট্রিক পদ্ধতি সম্পর্কে কিছুটা হতাশাবোধ করি।

nn

αααnα

সুতরাং আপনি যদি যথাযথ অ্যাসিম্পোটিক কভারেজ খুঁজছেন তবে অবশ্যই এটি সিএলটি অর্জন করতে পারে। যাইহোক, আপনার প্রশ্নটি বোঝায় যে আপনি সীমাবদ্ধ কভারেজটিতে আগ্রহী (যথেষ্ট যুক্তিসঙ্গত)) আমার উদাহরণ হিসাবে দেখা যায়, সর্বদা একটি প্যাথলজিকাল কেস থাকবে যা কোনও সীমাবদ্ধ দৈর্ঘ্যের সিআইকে নষ্ট করে দেয়।

এখন, আপনার কাছে এখনও একটি প্যারামিমেট্রিক সিআই থাকতে পারে যা আপনার বিতরণে সীমাবদ্ধতা যুক্ত করে ভাল সীমাবদ্ধ কভারেজ অর্জন করে। উদাহরণস্বরূপ, লগ-অবতল সীমাবদ্ধতা একটি অ-প্যারাম্যাট্রিক বাধা। তবে এটি আপনার সমস্যার পক্ষে অপ্রতুল বলে মনে হচ্ছে, কারণ লগ-স্বাভাবিক লগ-অবতল নয়।

α


2
দুর্দান্ত চিন্তা। আমি এই ধরণের প্রতিবন্ধকতাগুলির প্রয়োজন বোধ করতে দ্বিধা বোধ করি কারণ আমি প্রায়শই পর্যাপ্ত পরিমাণে বিমোডাল বিতরণ এবং অন্যান্য জটিলতা দেখতে পাই।
ফ্র্যাঙ্ক হ্যারেল

1
@ ফ্র্যাঙ্কহারেল: অ-প্যারামেট্রিক লগ-অবতল উপাদানগুলির সাথে মিশ্রণ মডেলগুলির কাজ হয়েছে। যাইহোক, আমি এই মুহুর্তে ভাবতে পারি না যে সামগ্রিক গড়ের জন্য একটি আস্থা তৈরির জন্য ভাল পদ্ধতি রয়েছে, বিশেষত যদি উপাদানগুলির সংখ্যা আগে থেকে জানা না যায়।
ক্লিফ এবি

2

যে কোনও নমুনার অন্তর্নিহিত অনুমানগুলির মধ্যে একটি হল প্রতিনিধিত্বশীলতা। কোনও বিতরণের লেজ যত দীর্ঘায়িত হবে তত কম কোনও নমুনা সিআইয়ের জন্য নির্ভরযোগ্যভাবে সমাধানের জন্য কোনও পদ্ধতির পক্ষে যথেষ্ট প্রতিনিধি হতে চলেছে কারণ নমুনাটি বিতরণকে প্রতিনিধিত্ব করতে সক্ষম হবে না।

উদাহরণস্বরূপ, 250 টির নমুনা আকারের সূচকযুক্ত বিতরণে একটি সাধারণ পার্ক সিআই চালানো বেশ ভাল ফলাফল। তারা 25 এর নমুনা সহ একটি তুলনায় অনেক ভাল, যদিও এখনও আদর্শ না।

আমি ক্লিফ এবি এর সাথে একমত যে কোনও সাধারণ সমাধান হবে না তবে আপনাকে চরম বিতরণ অনুমান করতে হবে না। ছোট নমুনাগুলির সাথে বিস্তৃতভাবে কাজ করে এমন কিছু থাকবে না। এবং কিছু ক্ষেত্রে নমুনাগুলি খুব বড় হতে পারে (তবে এটি ভুল হতে ভাল হবে)।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.