পারসেন্টাইলের জন্য আস্থার ব্যবধান কীভাবে পাওয়া যায়?

আমার কাছে একগুচ্ছ কাঁচা ডেটা মান রয়েছে যা ডলারের পরিমাণের এবং আমি সেই ডেটার পারসেন্টাইলের জন্য একটি আত্মবিশ্বাসের ব্যবধান সন্ধান করতে চাই। এই ধরনের আত্মবিশ্বাসের ব্যবধানের কোনও সূত্র আছে কি?

confidence-interval quantiles tolerance-interval

— Graphth
সূত্র

উত্তর:

এই প্রশ্নটি, যা একটি সাধারণ পরিস্থিতি কভার করে, একটি সাধারণ, অ-আনুমানিক উত্তরের দাবি রাখে। ভাগ্যক্রমে, একটি আছে।

ধরুন একটি অজানা বিতরণ থেকে স্বতন্ত্র মান যাঁর কোয়ান্টাইল আমি লিখব । এর অর্থ প্রতিটি এর চেয়ে কম বা সমান হওয়ার (কমপক্ষে) হওয়ার সম্ভাবনা রয়েছে । ফলস্বরূপ এর সংখ্যা এর চেয়ে কম বা এর সমান দ্বিপদী বিতরণ থাকে। $X_1, \ldots, X_n$ $F$ $q^\text{th}$ $F^{-1}(q)$ $X_i$ $q$ $F^{-1}(q)$ $X_i$ $F^{-1}(q)$ $(n,q)$

এই সাধারণ বিবেচনা দ্বারা অনুপ্রাণিত হয়ে জেরাল্ড হান এবং উইলিয়াম মেকার তাদের হ্যান্ডবুকে স্ট্যাটিস্টিকাল ইন্টারভেলস (উইলি 1991) লিখেছেন

জন্য দ্বি-পার্শ্বযুক্ত বিতরণ-মুক্ত রক্ষণশীল আত্মবিশ্বাসের ব্যবধান পাওয়া গেছে ... $100(1-\alpha)\%$ $F^{-1}(q)$ $[X_{(l)}, X_{(u)}]$

যেখানে হয় অর্ডার পরিসংখ্যান নমুনা। তারা বলতে এগিয়ে $X_{(1)}\le X_{(2)}\le \cdots \le X_{(n)}$

এক পূর্ণসংখ্যার নির্বাচন করতে পারবেন নিয়মনিষ্ঠভাবে (অথবা প্রায় নিয়মনিষ্ঠভাবে) প্রায় এবং ঘনিষ্ঠ একসঙ্গে প্রয়োজনীয়তা সম্ভব বিষয় হিসেবে যে $0 \le l \le u \le n$ $q(n+1)$
$\begin{matrix} (1) & B (u - 1; n, q) - B (l - 1; n, q) \geq 1 - α . \end{matrix}$ $B(u-1;n,q) - B(l-1;n,q) \ge 1-\alpha.\tag{1}$

বাম দিকে অভিব্যক্তি সুযোগ একটি বাইনমিয়াল যে পরিবর্তনশীল মূল্যবোধের এক হয়েছে । স্পষ্টতই, এই সুযোগ যে ডেটা সংখ্যা মান হয় নিম্ন মধ্যে পতনশীল বিতরণের তন্ন তন্ন খুবই ছোট (কম ) নয়, আবার খুব বড় ( বা আরো বড়)। $(n,q)$ $\{l, l+1, \ldots, u-1\}$ $X_i$ $100q\%$ $l$ $u$

হাহান এবং মিকার কিছু দরকারী মন্তব্য সহ অনুসরণ করুন, যা আমি উদ্ধৃত করব।

পূর্ববর্তী বিরতিটি রক্ষণশীল কারণ সমীকরণের বাম-পাশ দিয়ে দেওয়া প্রকৃত আত্মবিশ্বাসের স্তরটি নির্দিষ্ট মান চেয়ে বেশি । ... $(1)$ $1-\alpha$

অন্ততপক্ষে কাঙ্ক্ষিত আত্মবিশ্বাসের স্তর রয়েছে এমন একটি বিতরণ-মুক্ত পরিসংখ্যান ব্যবধান নির্মাণ করা অসম্ভব। একটি ছোট নমুনা থেকে বিতরণ লেজের মধ্যে শতকরা অনুমান করার সময় এই সমস্যাটি বিশেষত তীব্র হয়। ... কিছু ক্ষেত্রে, বিশ্লেষক এই সমস্যাটি মোকাবেলা করতে পারেন এবং সংখ্যাসূচকভাবে choosing আর একটি বিকল্প হ্রাস আত্মবিশ্বাসের স্তর ব্যবহার করা হতে পারে। $l$ $u$

আসুন একটি উদাহরণ দিয়ে কাজ করুন (এছাড়াও হান এবং মিকর সরবরাহ করেছেন)। তারা "একটি রাসায়নিক প্রক্রিয়া থেকে যৌগের পরিমাপের" একটি আদেশযুক্ত সেট সরবরাহ করে এবং শতাংশের জন্য আত্মবিশ্বাসের ব্যবধানের জন্য জিজ্ঞাসা করে । তারা দাবি করে যে এবং কাজ করবে। $n=100$ $100(1-\alpha)=95\%$ $q=0.90$ $l=85$ $u=97$

চিত্রের নীল দণ্ডগুলির দ্বারা দেখানো হিসাবে এই ব্যবধানের মোট সম্ভাব্যতা : এটি প্রায় পর্যন্ত পৌঁছাতে পারে তবে এটি তার থেকেও উপরে থাকবে, দুটি কাট অফ বেছে নিয়ে এবং সমস্ত সম্ভাবনা বাদ দিয়ে বাম লেজ এবং ডান লেজ যা এই কাট অফের বাইরে। $95.3\%$ $95\%$

মধ্যম থেকে মান রেখে, সাজানো উপাত্ত এখানে দেওয়া হল : $81$

\begin{matrix} 1.49 & 1.66 & 2.05 & \dots & 24.33 & 24.72 & 25.46 & 25.67 & 25.77 & 26.64 \\ 28.28 & 28.28 & 29.07 & 29.16 & 31.14 & 31.83 & 33.24 & 37.32 & 53.43 & 58.11 \end{matrix}

$\matrix{ 1.49&1.66&2.05&\ldots&\mathbf {24.33}&24.72&25.46&25.67&25.77&26.64\\ 28.28&28.28&29.07&29.16&31.14&31.83&\mathbf{33.24}&37.32&53.43&58.11}$

বৃহত্তম এবং বৃহত্তম । ব্যবধানটি তাই । $85^\text{th}$ $24.33$ $97^\text{th}$ $33.24$ $[24.33, 33.24]$

এর আবার ব্যাখ্যা করা যাক। এই পদ্ধতিটিতে cen পার্সেন্টাইল আচ্ছাদন করার কমপক্ষে একটি সম্ভাবনা থাকার কথা ছিল । যদি সেই শতকরা প্রকৃতপক্ষে ছাড়িয়ে যায় তবে এর অর্থ আমরা আমাদের নমুনায় মানের মধ্যে বা আরও বেশি পর্যবেক্ষণ করব যা পাঠ্যপঞ্চের নীচে। এটা অনেক বেশী. যে শতকরা চেয়ে কম হয় তাহলে মানে আমরা পরিলক্ষিত হয়েছে করবে যে নীচে আমাদের নমুনা বা তার চেয়ে কম মান শতকরা। এটা খুব কম। $95\%$ $90^\text{th}$ $33.24$ $97$ $100$ $90^\text{th}$ $24.33$ $84$ $90^\text{th}$ উভয় ক্ষেত্রেই - চিত্রের লাল বারগুলির দ্বারা ঠিক যেমন ইঙ্গিত করা হয়েছে - এটি এই ব্যবধানের মধ্যে থাকা পার্সেন্টাইলের বিরুদ্ধে প্রমাণ হবে be $90^\text{th}$

এবং পছন্দগুলি পছন্দ করার একটি উপায় আপনার প্রয়োজন অনুসারে অনুসন্ধান করা। এখানে একটি পদ্ধতি যে একটি প্রতিসম আনুমানিক ব্যবধান দিয়ে শুরু হয় এবং তারপর অনুসন্ধানসমূহ উভয় তারতম্য হয় এবং পর্যন্ত দ্বারা অনুক্রমে ভাল কভারেজ সঙ্গে একটি বিরতি এটি (যদি সম্ভব হয়)। এটি কোড সহ চিত্রিত হয় । এটি একটি সাধারণ বিতরণের জন্য পূর্ববর্তী উদাহরণে কভারেজটি পরীক্ষা করার জন্য সেট আপ করা হয়েছে। এর আউটপুট হয় $l$ $u$ $l$ $u$ $2$ R

সিমুলেশন মানে কভারেজ ছিল 0.9503; প্রত্যাশিত কভারেজ 0.9523

সিমুলেশন এবং প্রত্যাশার মধ্যে চুক্তিটি দুর্দান্ত।

#
# Near-symmetric distribution-free confidence interval for a quantile `q`.
# Returns indexes into the order statistics.
#
quantile.CI <- function(n, q, alpha=0.05) {
  #
  # Search over a small range of upper and lower order statistics for the 
  # closest coverage to 1-alpha (but not less than it, if possible).
  #
  u <- qbinom(1-alpha/2, n, q) + (-2:2) + 1
  l <- qbinom(alpha/2, n, q) + (-2:2)
  u[u > n] <- Inf
  l[l < 0] <- -Inf
  coverage <- outer(l, u, function(a,b) pbinom(b-1,n,q) - pbinom(a-1,n,q))
  if (max(coverage) < 1-alpha) i <- which(coverage==max(coverage)) else
    i <- which(coverage == min(coverage[coverage >= 1-alpha]))
  i <- i[1]
  #
  # Return the order statistics and the actual coverage.
  #
  u <- rep(u, each=5)[i]
  l <- rep(l, 5)[i]
  return(list(Interval=c(l,u), Coverage=coverage[i]))
}
#
# Example: test coverage via simulation.
#
n <- 100      # Sample size
q <- 0.90     # Percentile
#
# You only have to compute the order statistics once for any given (n,q).
#
lu <- quantile.CI(n, q)$Interval
#
# Generate many random samples from a known distribution and compute 
# CIs from those samples.
#
set.seed(17)
n.sim <- 1e4
index <- function(x, i) ifelse(i==Inf, Inf, ifelse(i==-Inf, -Inf, x[i]))
sim <- replicate(n.sim, index(sort(rnorm(n)), lu))
#
# Compute the proportion of those intervals that cover the percentile.
#
F.q <- qnorm(q)
covers <- sim[1, ] <= F.q & F.q <= sim[2, ]
#
# Report the result.
#
message("Simulation mean coverage was ", signif(mean(covers), 4), 
        "; expected coverage is ", signif(quantile.CI(n,q)$Coverage, 4))

— whuber
সূত্র

শিক্ষাদীক্ষা

-quantile একটি এলোপাতাড়ি ভেরিয়েবলের (এই শতকরা চেয়ে আরও সাধারণ ধারণা) দেওয়া হয় । নমুনা অংশটি হিসাবে লেখা যেতে পারে - এটি কেবলমাত্র নমুনার পরিমাণ। আমরা বিতরণ আগ্রহী: $\tau$ $q_\tau$ $X$ $F_X^{-1}(\tau)$ $\hat{q}_\tau = \hat{F}^{-1}(\tau)$

$\sqrt{n}(\hat{q}_\tau - q_\tau)$

প্রথমত, আমাদের এম্পিরিকাল সিডিএফ-এর asympotic বিতরণ প্রয়োজন।

যেহেতু , আপনি কেন্দ্রীয় সীমাবদ্ধ ব্যবহার করতে পারেন। একটি বার্নৌলি এলোমেলো পরিবর্তনশীল, সুতরাং হল এবং তারতম্যটি হ'ল । $\hat{F}(x) = \frac{1}{n} \sum 1\{X_i < x\}$ $1\{X_i < x\}$ $P(X_i < x) = F(x)$ $F(x)(1-F(x))$

$\sqrt{n}(\hat{F}(x) - F(x)) \rightarrow N(0, F(x)(1-F(x))) \qquad (1)$

এখন, কারণ বিপরীত একটি অবিচ্ছিন্ন ফাংশন, আমরা ব-দ্বীপ পদ্ধতিটি ব্যবহার করতে পারি।

[** ব-দ্বীপ পদ্ধতিটি বলছে যে যদি , এবং একটি ক্রমাগত ফাংশন হয়, তবে **] $\sqrt{n}(\overline{y} - \mu_y) \rightarrow N(0,\sigma^2)$ $g(\cdot)$ $\sqrt{n}(g(\overline{y}) - g(\mu_y)) \rightarrow N(0, \sigma^2 (g'(\mu_y))^2)$

(1) এর বাম দিকে, এবং $x=q_\tau$ $g(\cdot) = F^{-1}(\cdot)$

$\sqrt{n}(F^{-1}(\hat{F}(q_\tau)) - F^{-1}(F(q_\tau))) = \sqrt{n}(\hat{q}_\tau - q_\tau)$

[** নোট করুন যে শেষ ধাপে কিছুটা হাতের হাত রয়েছে কারণ , তবে তারা দেখানোর পক্ষে ক্লান্তিকর হলে অ্যাসেম্পোটিক্যালি সমান **] $F^{-1}(\hat{F}(q_\tau)) \neq \hat{F}^{-1}(\hat{F}(q_\tau)) = \hat{q}_\tau$

এখন, উপরে বর্ণিত ডেল্টা পদ্ধতিটি প্রয়োগ করুন।

যেহেতু (বিপরীত ফাংশন উপপাদ্য) $\frac{\textrm{d}}{\textrm{d}x} F^{-1}(x) = \frac{1}{f(F^{-1}(x))}$

$\sqrt{n}(\hat{q}_\tau - q_\tau) \rightarrow N\left(0, \frac{F(q_\tau)(1-F(q_\tau))}{f(F^{-1}(F(q_\tau)))^2}\right) = N\left(0, \frac{F(q_\tau)(1-F(q_\tau))}{f(q_\tau)^2}\right)$

তারপরে, আত্মবিশ্বাসের ব্যবধানটি তৈরি করতে, আমাদের উপরের বৈকল্পিকতার প্রতিটি শর্তের নমুনা অংশগুলিকে প্লাগ ইন করে স্ট্যান্ডার্ড ত্রুটি গণনা করতে হবে:

ফলাফল

সুতরাং $se(\hat{q}_\tau) = \sqrt{\frac{\hat{F}(\hat{q}_\tau)(1-\hat{F}(\hat{q}_\tau))}{n \hat{f}(\hat{q}_\tau)^2}} =$ $\sqrt{\frac{\tau (1 - \tau)}{n \hat{f}(\hat{q}_\tau)^2}}$

এবং $CI_{0.95}(\hat{q}_\tau) = \hat{q}_\tau \pm 1.96 se(\hat{q}_\tau)$

এটির জন্য আপনাকে এর ঘনত্ব অনুমান করতে হবে তবে এটি বেশ সহজবোধ্য হওয়া উচিত। বিকল্পভাবে, আপনি সিআই খুব সহজেই বুটস্ট্র্যাপ করতে পারেন। $X$

— bmciv
সূত্র

আপনি কি লিঙ্কযুক্ত নিবন্ধ থেকে বিষয়বস্তু সঙ্গে আপনার উত্তর প্রসারিত করতে পারেন? লিঙ্কগুলি চিরকালের জন্য কাজ না করে এবং তারপরে এই উত্তরটি কম দরকারী হয়ে উঠবে

— অ্যান্ডি

দ্বিপদী বিতরণের ফ্রি সিব্যাসড ডিস্ট্রিবিউশন তুলনায় ঘনত্বের অনুমানের ভিত্তিতে এই অ্যাসিম্পোটিক ফলাফলের সুবিধা কী?

— মাইকেল এম

আপনি এখনও মূলভাবে লিঙ্ক করা নিবন্ধের উপর ভিত্তি করে এটি কি ?

— নিক স্টাউনার

হ্যাঁ, আমি কি আবার সেই লিঙ্কটি আবার যুক্ত করব? আমি মনে করি এটি একটি সুপরিচিত ফলাফল। আমি এটি ক্লাসে আগে দেখেছি এবং গুগল দ্বারা এটি খুঁজে পাওয়া কঠিন নয়। এই জাতীয় ক্ষেত্রে, এটির সাথে লিঙ্ক করা বা এটি টাইপ করা ভাল, বা উভয়ই ভাল?

— বিএমসিভ

আমি উভয়ই বলব এবং সঠিক এট্রিবিটির জন্য যদি এটি থেকে সম্পূর্ণরূপে উদ্ধৃত / উত্পন্ন হয় তবে আপনার এটি সম্পাদনা করা উচিত। অন্যথায় আপনি এটি সম্পাদনা করুন তা বিবেচনাধীন নয়, তবে সাধারণভাবে স্ট্যাক এক্সচেঞ্জ নীতিটি লিঙ্কটি পচানো এড়ানোর জন্য কেবলমাত্র লিঙ্ক-উত্তরগুলিকে নিরুৎসাহিত করা এবং নীতি হিসাবে বিবেচনা করা হয় (ধারণাটি একটি লিঙ্ক সূচক নয়, একটি স্বাধীন সংগ্রহস্থল হতে হবে - তবে আমি নিশ্চিত না যে সেই দৃশ্যের পরিমাণটি একটি কাল্পনিক "পিচ্ছিল opeাল") এর চেয়ে বেশি।

— নিক স্টাওনার