50% আস্থা অন্তর 95% আস্থা অন্তর চেয়ে বেশি দৃ estimated়ভাবে অনুমান করা হয়?


30

আমার প্রশ্নটি অ্যান্ড্রু গেলম্যানের ব্লগ পোস্টে এই মন্তব্যে ছড়িয়ে পড়েছে যেখানে তিনি 95% আত্মবিশ্বাসের ব্যবধানের পরিবর্তে 50% আত্মবিশ্বাসের ব্যবধানগুলি ব্যবহারের পক্ষে পরামর্শ দেন, যদিও তারা আরও দৃ estimated়ভাবে অনুমান করা হয় এমন কারণে:

আমি 3 কারণে 50% থেকে 95% অন্তর পছন্দ করি:

  1. গণনামূলক স্থায়িত্ব,

  2. আরও স্বজ্ঞাত মূল্যায়ন (50% অন্তরের অর্ধেকের মধ্যে আসল মান থাকা উচিত),

  3. একটি ধারণা যে অ্যাপ্লিকেশনগুলিতে প্যারামিটারগুলি এবং পূর্বাভাসিত মানগুলি কোথায় হবে সে সম্পর্কে ধারণা লাভ করা ভাল, অবাস্তব কাছাকাছি-নিশ্চিততার চেষ্টা না করে।

মন্তব্যকারীর ধারণা বলে মনে হয় যে আত্মবিশ্বাসের ব্যবধানের অন্তর্নিহিত অনুমানের সাথে সমস্যাগুলি যদি এটি 50% সিআই এর চেয়ে 95% সিআই হয় তবে আরও প্রভাব ফেলবে। তবে কেন তিনি সত্য তা ব্যাখ্যা করেন না।

[...] আপনি বড় ব্যবধানে যেতে যেতে আপনার মডেলের বিশদ বা অনুমানের জন্য আপনি সাধারণভাবে আরও সংবেদনশীল হয়ে ওঠেন। উদাহরণস্বরূপ, আপনি কখনই বিশ্বাস করতে পারবেন না যে আপনি 99.9995% ব্যবধানটি সঠিকভাবে চিহ্নিত করেছেন। বা কমপক্ষে এটি আমার স্বজ্ঞাত। যদি এটি সঠিক হয় তবে এটি যুক্তি দেয় যে ৫০ শতাংশের তুলনায় ৯৫ শতাংশের চেয়ে ভাল অনুমান করা উচিত। অথবা সম্ভবত "আরও দৃust়তার সাথে" অনুমান করা হয়েছে, যেহেতু এটি কোলাহল সম্পর্কে অনুমানের প্রতি কম সংবেদনশীল, সম্ভবত?

এটা সত্যি? কেন কেন না?


সাধারণত, হ্যাঁ, কম আত্মবিশ্বাসের মাত্রা আরও শক্তিশালী। 100 টি পর্যবেক্ষণ সহ একটি নমুনায় একটি মিডিয়ান বনাম 99 শতাংশের অনুমান বিবেচনা করুন। যে কোনও একক বৃহত পর্যবেক্ষণ 99 শতাংশের দিকে সরতে চলেছে, তবে মিডিয়ান খুব বেশি স্থানান্তর করবে না। আমি নিশ্চিত আপনি একটি পাল্টা উদাহরণ খুঁজে পেতে পারেন, তবে এটি অস্বাভাবিক দেখবে।
আকসকল

উত্তর:


19

এই উত্তরটি উদ্ধৃতিটির অর্থ বিশ্লেষণ করে এবং এটি ব্যাখ্যা করার জন্য একটি সিমুলেশন অধ্যয়নের ফলাফল সরবরাহ করে এবং এটি কী বলার চেষ্টা করছে তা বুঝতে সহায়তা করে। Rঅন্যান্য আত্মবিশ্বাসের অন্তর্বর্তী প্রক্রিয়া এবং অন্যান্য মডেলগুলি অন্বেষণ করতে অধ্যয়নটি সহজেই যে কারও দ্বারা (প্রাথমিক দক্ষতার সাথে) বাড়ানো যেতে পারে ।

এই কাজ দুটি আকর্ষণীয় বিষয় উদ্ভূত। আত্মবিশ্বাসের ব্যবধানের ব্যবধানের নির্ভুলতা কীভাবে মূল্যায়ন করা যায় তা নিয়ে উদ্বেগ। দৃ rob়তার যে ধারণা পাওয়া যায় তার উপর নির্ভর করে। আমি দুটি পৃথক নির্ভুলতার ব্যবস্থা প্রদর্শন করি যাতে আপনি তাদের তুলনা করতে পারেন।

অন্য সমস্যাটি হ'ল যদিও স্বল্প আত্মবিশ্বাসের সাথে একটি আত্মবিশ্বাসের ব্যবধানটি শক্তিশালী হতে পারে তবে সংশ্লিষ্ট আত্মবিশ্বাসের সীমাটি শক্তিশালী নাও হতে পারে। অন্তরগুলি ভালভাবে কাজ করার প্রবণতা থাকে কারণ তারা এক প্রান্তে যে ত্রুটিগুলি করে তারা প্রায়শই অন্যদিকে যে ত্রুটিগুলি করে সেগুলি প্রতিরোধ করে। ব্যবহারিক বিষয় হিসাবে, আপনি যথেষ্ট নিশ্চিত হতে পারেন যে আপনার আত্মবিশ্বাসের অন্তর্ভুক্তির প্রায় অর্ধেকগুলি তাদের পরামিতিগুলি coveringেকে রাখছে, তবে বাস্তবতা কীভাবে আপনার মডেল অনুমানগুলি থেকে বাস্তবতা ছাড়বে তার উপর নির্ভর করে প্রতিটি ব্যবধানের একটি নির্দিষ্ট প্রান্তের কাছে ধারাবাহিকভাবে থাকতে পারে50%


দৃ statistics ়তার পরিসংখ্যানগুলির একটি স্ট্যান্ডার্ড অর্থ রয়েছে:

দৃust়তা সাধারণত অন্তর্নিহিত সম্ভাব্য মডেলটিকে ঘিরে অনুমানগুলি থেকে প্রস্থান সম্পর্কে সংবেদনশীলতা বোঝায়।

(হোয়াগলিন, মোস্টেলার, এবং টুকি, রবস্ট এবং এক্সপ্লোরার ডেটা বিশ্লেষণ বোঝা J

এটি প্রশ্নের উদ্ধৃতিটির সাথে সামঞ্জস্যপূর্ণ। উদ্ধৃতিটি বুঝতে আমাদের এখনও একটি আত্মবিশ্বাসের ব্যবধানের উদ্দেশ্যে উদ্দেশ্য জানতে হবে। এই লক্ষ্যে, আসুন গেলম্যান কী লিখেছিলেন তা পর্যালোচনা করি।

আমি 3 কারণে 50% থেকে 95% অন্তর পছন্দ করি:

  1. গণনামূলক স্থায়িত্ব,

  2. আরও স্বজ্ঞাত মূল্যায়ন (50% অন্তরের অর্ধেকের মধ্যে আসল মান থাকা উচিত),

  3. অনুভূতি যে অ্যাপ্লিকেশনগুলিতে প্যারামিটারগুলি এবং পূর্বাভাসিত মানগুলি কোথায় হবে সে সম্পর্কে ধারণা অর্জন করা ভাল, অবাস্তব নিকট-নিশ্চিততার চেষ্টা না করে।

যেহেতু পূর্বাভাসিত মূল্যবোধ উপলব্ধি করা আত্মবিশ্বাসের ব্যবধানগুলি (সিআই) হ'ল তা নয়, তাই আমি প্যারামিটারের মানগুলি বোঝাতে মনোনিবেশ করব , যা সিআইগুলি করে। আসুন এগুলিকে "টার্গেট" মান বলে। কোথা থেকে, সংজ্ঞা অনুসারে, একটি সিআই নির্দিষ্ট লক্ষ্য সম্ভাবনার (এটির আত্মবিশ্বাসের স্তর) দিয়ে তার লক্ষ্যটি কভার করার উদ্দেশ্য। উদ্দিষ্ট কভারেজ হার অর্জন করা কোনও সিআই পদ্ধতির মানের মূল্যায়নের সর্বনিম্ন মাপদণ্ড। (অতিরিক্তভাবে, আমরা সাধারণত সিআইআই প্রস্থে আগ্রহী হতে পারি the পোস্টটি যুক্তিসঙ্গত দৈর্ঘ্যে রাখার জন্য আমি এই বিষয়টিকে উপেক্ষা করব))

এই বিবেচনাগুলি আমাদের লক্ষ্যমাত্রার প্যারামিটার মান সম্পর্কে কতটা আত্মবিশ্বাসের ব্যবধান গণনা আমাদের ভুল পথে চালিত করতে পারে তা অধ্যয়নের জন্য আমন্ত্রণ জানিয়েছে কোটেশনটি এমনটি পরামর্শ হিসাবে পড়া যেতে পারে যে মডেল থেকে আলাদা কোনও প্রক্রিয়া দ্বারা ডেটা উত্পন্ন হওয়ার পরেও নিম্ন-আত্মবিশ্বাসের সিআইগুলি তাদের কভারেজটি বজায় রাখতে পারে। এটিই আমরা পরীক্ষা করতে পারি। পদ্ধতিটি হ'ল:

  • একটি সম্ভাব্যতা মডেল গ্রহণ করুন যাতে কমপক্ষে একটি প্যারামিটার অন্তর্ভুক্ত থাকে। ক্লাসিকটি অজানা গড় এবং বৈকল্পিকের সাধারণ বিতরণ থেকে নমুনা দিচ্ছে।

  • মডেলের এক বা একাধিক প্যারামিটারের জন্য সিআই পদ্ধতি নির্বাচন করুন। একটি দুর্দান্ত এক নমুনা গড় এবং নমুনা স্ট্যান্ডার্ড বিচ্যুতি থেকে সিআই গঠন করে, পরবর্তী স্টুডেন্ট টি ডিস্ট্রিবিউশন দ্বারা প্রদত্ত একটি ফ্যাক্টর দ্বারা গুণন করে।

  • বিভিন্ন ধরণের আত্মবিশ্বাসের স্তরের তার কভারেজটি মূল্যায়নের জন্য - গৃহীত একের থেকে খুব বেশি দূরে নয় - এই পদ্ধতিটি বিভিন্ন বিভিন্ন মডেলটিতে প্রয়োগ করুন ।

50%99.8%

αপিতাহলে

লগ(পি1-পি)-লগ(α1-α)

সুন্দরভাবে পার্থক্য ক্যাপচার। যখন এটি শূন্য হয়, কভারেজটি হুবহু মানযুক্ত। যখন এটি নেতিবাচক হয়, কভারেজটি খুব কম হয় - যার অর্থ সিআই খুব আশাবাদী এবং অনিশ্চয়তাটিকে হ্রাস করে।

তাহলে প্রশ্নটি হল, অন্তর্নিহিত মডেলটি ব্যাহত হওয়ার সাথে সাথে এই ত্রুটি হারগুলি আত্মবিশ্বাসের স্তরের সাথে কীভাবে পরিবর্তিত হয়? সিমুলেশন ফলাফলগুলি প্লট করে আমরা এর উত্তর দিতে পারি। এই প্লটগুলি এই প্রত্নতাত্ত্বিক অ্যাপ্লিকেশনটিতে কোনও সিআইয়ের "নিকট-নিশ্চিততা" কীভাবে "অবাস্তব" তা প্রমাণ করে।

ব্যক্তিত্ব

গ্রাফিক্স একই ফলাফল দেখায়, তবে ডানদিকে থাকা কাঁচা স্কেল ব্যবহার করার সময় বাম দিকের একটিটি লগিট স্কেলে মানগুলি প্রদর্শন করে। বিটা বিতরণ একটি বিটা(1/30,1/30)(যা কার্যত একটি বেরোনোলি বিতরণ)। লগনরমাল বিতরণ মান সাধারণ বিতরণের সূচকীয় distribution এই সিআই পদ্ধতিটি তার প্রকৃত কাভারেজটি সত্যই অর্জন করেছে এবং সীমাবদ্ধ সিমুলেশন আকার থেকে কতটা বৈকল্পিকতা প্রত্যাশা করবে তা প্রকাশ করার জন্য সাধারণ বিতরণ অন্তর্ভুক্ত করা হয়েছে। (প্রকৃতপক্ষে, সাধারণ বিতরণের জন্য গ্রাফগুলি আরামে শূন্যের কাছাকাছি, কোনও উল্লেখযোগ্য বিচ্যুতি দেখায় না))

এটি স্পষ্ট যে লগইট স্কেলে, আত্মবিশ্বাসের মাত্রা বাড়ার সাথে সাথে কভারেজগুলি আরও বিচ্যুত হয়। কিছু আকর্ষণীয় ব্যতিক্রম আছে, যদিও। যদি আমরা যে মডেলটি স্কিউনেস বা লম্বা লেজগুলি উপস্থাপন করে তা নিয়ে উদ্বেগ প্রকাশ করি না, তবে আমরা ক্ষতিকারক এবং লগইনরমাল উপেক্ষা করতে পারি এবং বাকীগুলিতে ফোকাস করতে পারি। তাদের আচরণ অবধি অবাস্তবα অতিক্রম করে 95% বা তাই (একটি লগইট 3), যে মুহুর্তে ডাইভারজেন্স সেট আপ হয়েছে।

এই সামান্য অধ্যয়নটি জেলম্যানের দাবির কাছে কিছুটা সংক্ষিপ্ততা এনেছে এবং তাঁর মনে যে ঘটনাটি ঘটেছে তার কয়েকটি চিত্র তুলে ধরেছে। বিশেষত, যখন আমরা স্বল্প আত্মবিশ্বাসের স্তর সহ সিআই পদ্ধতি ব্যবহার করি, যেমনα=50%, তারপরেও অন্তর্নিহিত মডেলটি দৃ strongly়চিত্ত হয়ে উঠলেও, দেখে মনে হচ্ছে কভারেজটি এখনও খুব কাছাকাছি থাকবে 50%: আমাদের অনুভূতি যে এই জাতীয় সিআই প্রায় অর্ধেক সময় সঠিক হবে এবং অন্য অর্ধেকটি ভুল বহন করবে। এটা শক্ত । পরিবর্তে আমরা যদি সঠিক হতে আশা করি তবে বলুন,95% সময়ের, যার অর্থ আমরা সত্যই কেবল ভুল হতে চাই 5% সেই সময়ের মধ্যে, তখন আমাদের মডেলটি যেভাবে ধারণা করে বিশ্ব ঠিক তেমন কাজ করে না সে ক্ষেত্রে আমাদের ত্রুটি হার আরও বেশি হওয়ার জন্য আমাদের প্রস্তুত থাকতে হবে।

ঘটনাচক্রে, এই সম্পত্তি 50%সিআইগুলি বড় অংশ ধরে কারণ আমরা প্রতিসম আত্মবিশ্বাসের অন্তরগুলি অধ্যয়ন করছি । স্কিউড বিতরণগুলির জন্য স্বতন্ত্র আত্মবিশ্বাসের সীমাটি ভয়াবহ হতে পারে (এবং মোটেই দৃ .় নয়) তবে তাদের ত্রুটিগুলি প্রায়শই বাতিল হয়ে যায়। সাধারণত একটি লেজ সংক্ষিপ্ত এবং অন্যটি দীর্ঘ, একটি প্রান্তে ওভার-কভারেজ এবং অন্যদিকে আন্ডার-কভারেজের দিকে পরিচালিত করে। আমি বিশ্বাস করি যে50%আত্মবিশ্বাস সীমা সম্পর্কিত বিরতি হিসাবে শক্তিশালী কাছাকাছি কোথাও হবে না।


এটি সেই Rকোড যা প্লট তৈরি করেছিল। অন্যান্য বিতরণ, আত্মবিশ্বাসের অন্যান্য পরিসীমা এবং অন্যান্য সিআই পদ্ধতিগুলি অধ্যয়ন করার জন্য এটি সহজেই সংশোধিত হয়।

#
# Zero-mean distributions.
#
distributions <- list(Beta=function(n) rbeta(n, 1/30, 1/30) - 1/2,
                      Uniform=function(n) runif(n, -1, 1),
                      Normal=rnorm, 
                      #Mixture=function(n) rnorm(n, -2) + rnorm(n, 2),
                      Exponential=function(n) rexp(n) - 1,
                      Lognormal=function(n) exp(rnorm(n, -1/2)) - 1
)
n.sample <- 12
n.sim <- 5e4
alpha.logit <- seq(0, 6, length.out=21); alpha <- signif(1 / (1 + exp(-alpha.logit)), 3)
#
# Normal CI.
#
CI <- function(x, Z=outer(c(1,-1), qt((1-alpha)/2, n.sample-1))) 
  mean(x) + Z * sd(x) / sqrt(length(x))
#
# The simulation.
#
#set.seed(17)
alpha.s <- paste0("alpha=", alpha)
sim <- lapply(distributions, function(dist) {
  x <- matrix(dist(n.sim*n.sample), n.sample)
  x.ci <- array(apply(x, 2, CI), c(2, length(alpha), n.sim),
                dimnames=list(Endpoint=c("Lower", "Upper"),
                              Alpha=alpha.s,
                              NULL))
  covers <- x.ci["Lower",,] * x.ci["Upper",,] <= 0
  rowMeans(covers)
})
(sim)
#
# The plots.
#
logit <- function(p) log(p/(1-p))
colors <- hsv((1:length(sim)-1)/length(sim), 0.8, 0.7)
par(mfrow=c(1,2))         
plot(range(alpha.logit), c(-2,1), type="n", 
     main="Confidence Interval Accuracies (Logit Scales)", cex.main=0.8,
     xlab="Logit(alpha)", 
     ylab="Logit(coverage) - Logit(alpha)")
abline(h=0, col="Gray", lwd=2)
legend("bottomleft", names(sim), col=colors, lwd=2, bty="n", cex=0.8)
for(i in 1:length(sim)) {
  coverage <- sim[[i]]
  lines(alpha.logit, logit(coverage) - alpha.logit, col=colors[i], lwd=2)
}

plot(range(alpha), c(-0.2, 0.05), type="n", 
     main="Raw Confidence Interval Accuracies", cex.main=0.8,
     xlab="alpha", 
     ylab="coverage-alpha")
abline(h=0, col="Gray", lwd=2)
legend("bottomleft", names(sim), col=colors, lwd=2, bty="n", cex=0.8)
for(i in 1:length(sim)) {
  coverage <- sim[[i]]
  lines(alpha, coverage - alpha, col=colors[i], lwd=2)
}

14

এটি একটি আকর্ষণীয় ধারণা, এবং আমি এটি স্বজ্ঞাতভাবে কীভাবে বাধ্য করতে পারি তা দেখতে পাচ্ছি তবে আমি মনে করি এটি সত্য বা মিথ্যা হওয়া খুব অস্পষ্ট। এখানে বেশ কয়েকটি প্রশ্ন রয়েছে যা আমি মন্তব্যকারীকে পরিষ্কার করতে চাই:

  1. কিসের জন্য একটি আত্মবিশ্বাসের ব্যবধান (একটি গড়, একটি বৈকল্পিক, অন্য কিছু)?
  2. কীভাবে বিরতি গণনা করা হয়েছিল (বৃহত নমুনা তত্ত্ব, বুটস্ট্র্যাপিং ইত্যাদি ব্যবহার করে)?
  3. কোন অর্থে 50% সিআই হ'ল "আরও দৃust়" বা "কম সংবেদনশীল" হবে এবং কোন অনুমানের?

এই প্রশ্নের বিভিন্ন উত্তর সহ, আমি মনে করি আমরা বিবৃতিটি স্পষ্টভাবে সত্য বা মিথ্যা করতে পারি।

আমার অনুমান যে মন্তব্যকারী উল্লেখ করছেন:

  • বড় নমুনা তত্ত্ব ব্যবহার করে গড়ের জন্য একটি আত্মবিশ্বাসের ব্যবধান,
  • যেখানে ডেটা বিতরণ আউটলিয়ারদের সাথে দূষিত হয় না তবে এটি মাঝারি স্বাভাবিকের মতো সাধারণ ব্যতীত অন্য কোনও বিতরণ থেকে আসে তবে লেজগুলি নয়,
  • এবং ধারণাটি হ'ল সত্য অ্যাসেম্পোটিক কভারেজ নামমাত্র কভারেজটির আরও কাছাকাছি।

যদি সেই মন্তব্যকারীদের মনে থাকে তবে কীভাবে বিতরণের লেজগুলি তার কাঁধ দিয়ে ব্যবসা বন্ধ করে দেয় তার উপর নির্ভর করে বিবৃতিটি সত্য হতে পারে।

উদাহরণস্বরূপ, সাধারণ বিতরণের এবং বেশ কয়েকটি লো-ডিএফের একটি প্লট বিবেচনা করুন টি-ডিস্ট্রিবিউশনের সিডিএফ ( উইকিপিডিয়া থেকে অনুলিপি করা )। স্বাভাবিকের উপর ভিত্তি করে একটি আত্মবিশ্বাসের ব্যবধানΦ-1(.25) থেকে Φ-1(.75) নিম্ন df জন্য প্রায় উপযুক্ত কভারেজ হবে টিs, যদি তারা ইস্যুতে পরিসংখ্যানগুলির প্রকৃত নমুনা বিতরণকে উপস্থাপন করে। প্রকৃতপক্ষে, দেখে মনে হচ্ছে 20% আত্মবিশ্বাসের ব্যবধানে প্রায় নিখুঁত কভারেজ থাকবে, এমনকি কোনও কাচির ক্ষেত্রেও (টি=1) বিতরণ:

এখানে চিত্র বর্ণনা লিখুন

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.