প্রয়োজনীয় নমুনা আকার গণনা, বৈকল্পিক প্রাক্কলনের নির্ভুলতা?


18

পটভূমি

আমার একটি অজানা বিতরণ সহ একটি পরিবর্তনশীল রয়েছে।

আমার কাছে 500 টি নমুনা রয়েছে তবে আমি যে সূক্ষ্মতার সাথে আমি বৈকল্পিক গণনা করতে পারি তা প্রদর্শন করতে চাই, উদাহরণস্বরূপ যে 500 টির একটি নমুনার আকার যথেষ্ট gue আমি ন্যূনতম নমুনার আকার জানার জন্যও আগ্রহী যেটি নির্ভুলতার সাথে বৈকল্পিক অনুমান করতে হবে X%

প্রশ্নাবলি

আমি কিভাবে গণনা করতে পারি

  1. আমার বৈকল্পিকটির নির্ভুলতার জন্য এর একটি নমুনা আকার দেওয়া হয়েছে n=500? of n=N ?
  2. নির্ভুলতার সাথে বৈকল্পিকটি অনুমান করতে প্রয়োজনীয় ন্যূনতম সংখ্যার কীভাবে গণনা করব X?

উদাহরণ

500 নমুনার উপর ভিত্তি করে পরামিতিটির চিত্র 1 ঘনত্বের অনুমান।

এখানে চিত্র বর্ণনা লিখুন

চিত্র ২ এখানে এক্স অক্ষের উপর নমুনা আকারের একটি প্লট রয়েছে যা y অক্ষের পরিবর্তনের প্রাক্কলনের জন্য আমি 500 এর নমুনা থেকে সাবমুলগুলি ব্যবহার করে গণনা করেছি The ধারণাটি হ'ল অনুমানগুলি n বৃদ্ধি পাওয়ার সাথে সাথে সত্যের পরিবর্তনে রূপান্তরিত হবে will ।

তবে n[10,125,250,500] এর ভেরিয়েন্স অনুমান করার জন্য ব্যবহৃত নমুনাগুলি একে অপরের সাথে বা এন [ 20 , 40 , 80 এ বৈকল্পিক গণনা করতে ব্যবহৃত নমুনাগুলির মধ্যে পৃথক নয় বলে অনুমানগুলি বৈধ স্বাধীন নয় independentn[20,40,80]

এখানে চিত্র বর্ণনা লিখুন


কেবল সচেতন থাকুন যে আপনার অজানা বিতরণের কোনও উপাদান যদি কচী বিতরণ হয় তবে তার বৈকল্পিকতা অপরিবর্তিত।
মাইক অ্যান্ডারসন

@ মাইক বা প্রকৃতপক্ষে অন্যান্য বিতরণ অসীম সংখ্যা number
গ্লেন_বি -রিনস্টেট মনিকা

উত্তর:


11

আইআইডি র‌্যান্ডম ভেরিয়েবল X1,,Xn জন্য ভেরিয়েন্স 2 নিরপেক্ষ অনুমানক s2(ডিনোমিনেটর n1 ) এর বৈচিত্র রয়েছে:

Var(s2)=σ4(2n1+κn)

যেখানে বিতরণের বাড়তি সূঁচালতা (: রেফারেন্স উইকিপিডিয়া )। সুতরাং এখন আপনার বিতরণের কুরটোসিসটিও অনুমান করা দরকার। আপনি কখনও কখনও γ 2 হিসাবে বর্ণিত পরিমাণ ব্যবহার করতে পারেন ( উইকিপিডিয়া থেকেও ):κγ2

γ2=μ4σ43

আমি অনুমান করবে যা আপনি ব্যবহার করে তার একটি আনুমানিক হিসাব যেমন σ এবং γ 2 তার একটি আনুমানিক হিসাব যেমন κ , যে তোমার জন্য একটি যুক্তিসঙ্গত অনুমান পেতে ভী একটি ( গুলি 2 ) , যদিও আমি গ্যারান্টি এটি পক্ষপাতিত্বহীন হয় দেখতে না। এটি আপনার 500 ডেটা পয়েন্টের যুক্তিসঙ্গত উপসাগরের মধ্যে বৈকল্পিকের সাথে মেলে কিনা এবং দেখুন যদি এটি আর উদ্বিগ্ন না হয় :)sσγ2κVar(s2)


বৈকল্পিক নিরপেক্ষ অনুমানের জন্য আপনার কাছে কি পাঠ্যপুস্তকের উল্লেখ রয়েছে? আরও প্রসঙ্গে আপনি উইকিপিডিয়া থেকে কোথায় যাবেন জানি না।
আবে

এখানে আমার সাথে আমার স্ট্যান্ডার্ড পাঠ্য রাইস নেই, তাই আমি আপনার জন্য পৃষ্ঠা নম্বরটি চেক করতে পারি না, তবে আমি নিশ্চিত যে এটি সেখানে আছে। উইকিপিডিয়া পরামর্শ দেয় এটিরও উল্লেখ করা উচিত: মন্টগোমেরি, ডিসি এবং রঞ্জার, জিসি: প্রয়োগকৃত পরিসংখ্যান এবং প্রকৌশলীদের জন্য সম্ভাব্যতা , পৃষ্ঠা 201. জন উইলি অ্যান্ড সন্স নিউ ইয়র্ক, 1994.
এরিক পি।

এই সঙ্গে আপনার সাহায্যের জন্য ধন্যবাদ. এই উত্তরটি খুব কার্যকর হয়েছে এবং এটি বৈকল্পিক অনিশ্চয়তার পরিমাণ জানাতে তথ্যবহুল হয়ে পড়েছিল - আমি সমীকরণটি শেষ দিনটিতে প্রায় 10 বার প্রয়োগ করেছি। গণক সঙ্গে সহজ : লাইব্রেরি kappamomentslibrary(moments); k <- kurtosis(x); n <- length(x); var(x)^2*(2/(n-1) + k/n)
আবে

রাইস টেক্সট থেকে পৃষ্ঠা নম্বরটি খুঁজে পাওয়ার কোনও সুযোগ আছে? আমি ক্যাসেলা এবং বার্জারে এটি খুঁজে পাচ্ছি না। প্রাথমিক রেফারেন্সটি যদি আপনি এটি জানেন তবে আরও ভাল। উইকিপিডিয়া পৃষ্ঠাটি উল্লেখযোগ্যভাবে অ-রেফারেন্সেড।
আবে

হুমমম ... মনে হচ্ছে চালের সূত্রটিও নেই। আমি এটির জন্য নজর রাখব, তবে এই মুহুর্তে আমার কোনও রেফারেন্স নেই।
এরিক পি।

16

একটি বৈকল্পিক শেখা কঠিন।

এটি বেশিরভাগ ক্ষেত্রেই ভালরূপটি অনুমান করতে একটি (সম্ভবত অবাক হয়ে) প্রচুর পরিমাণে নমুনা লাগে। নীচে, আমি একটি আইডির সাধারণ নমুনার "ক্যানোনিকাল" কেসের জন্য বিকাশ দেখাব।

ধরুন , আমি = 1 , ... , এন হয় স্বাধীন এন ( μ , σ 2 ) র্যান্ডম ভেরিয়েবল। আমরা একটি চাইতে 100 ( 1 - α ) % ভ্যারিয়েন্স যেমন যে ব্যবধান প্রস্থ জন্য আস্থা ব্যবধান ρ গুলি 2 , অর্থাত্, প্রস্থ হয় 100 ρ % বিন্দু অনুমান করুন। উদাহরণস্বরূপ, যদি ρ = 1 / 2 , তারপর সি আই প্রস্থ বিন্দু অনুমান অর্ধেক মান, যেমন, যদিYii=1,,nN(μ,σ2)100(1α)%ρs2100ρ%ρ=1/2s2=10, তাহলে সিআই ( 8) এর মতো কিছু হবে , এর প্রস্থ 5.. বিন্দুর অনুমানের আশেপাশের অসমত্বটিও নোট করুন। ( s 2 হ'ল বৈকল্পিকতার জন্য নিরপেক্ষ অনুমানক))(8,13)s2

"2" (বরং, "এ") আত্মবিশ্বাসের ব্যবধান হ'ল জন্য ( এন - 1 ) এস 2s2 যেখানে χ 2

(n1)s2χ(n1)2(1α/2)σ2(n1)s2χ(n1)2(α/2),
হয়βসঙ্গে চি-স্কোয়ারড বিতরণের সমাংশকএন-1স্বাধীন ডিগ্রীগুলির। (এটি এ থেকে উদ্ভূত হয় যে(এন-1)এর2/σ2গাউসিয়ান সেটিং-এ একটি মূল পরিমাণ)χ(n1)2ββn1(n1)s2/σ2

আমরা প্রস্থটি হ্রাস করতে চাই যাতে

L(n)=(n1)s2χ(n1)2(α/2)(n1)s2χ(n1)2(1α/2)<ρs2,
so we are left to solve for n such that
(n1)(1χ(n1)2(α/2)1χ(n1)2(1α/2))<ρ.

For the case of a 99% confidence interval, we get n=65 for ρ=1 and n=5321 for ρ=0.1. This last case yields an interval that is (still!) 10% as large as the point estimate of the variance.

If your chosen confidence level is less than 99%, then the same width interval will be obtained for a lower value of n. But, n may still may be larger than you would have guessed.

A plot of the sample size n versus the proportional width ρ shows something that looks asymptotically linear on a log-log scale; in other words, a power-law--like relationship. We can estimate the power of this power-law relationship (crudely) as

α^log0.1log1log5321log65=log10log5231650.525,

which is, unfortunately, decidedly slow!


This is sort of the "canonical" case to give you a feel for how to go about the calculation. Based on your plots, your data don't look particularly normal; in particular, there is what appears to be noticeable skewness.

But, this should give you a ballpark idea of what to expect. Note that to answer your second question above, it is necessary to fix some confidence level first, which I've set to 99% in the development above for demonstration purposes.


this is a very nice answer to my question. However, although I follow the calculation that you make for n|ρ, it is not exactly clear to me if the units for rho is percent in the solution n=65 for ρ<1; does this mean "ρ is less than 1×s2" or "ρ less than 1% of s2?
Abe

@Abe, updated and hopefully clarified in the process. There was one particularly bad typo in the previous version. Sorry about that.
cardinal

a very nice answer, but I chose the one from @Erik because it is more applicable to my problem (as my parameter is not normally distributed).
Abe

@Abe: Not a problem. That is what the checkmark is there for. My answer was (is) intended to be illustrative, more than anything. From what I can tell, it does still appear to be the only one that addresses both of your questions, and will be (asymptotically) correct even in the scenario that Erik outlines. (+1 to him well over a year ago.) :)
cardinal

You are correct and I am glad that I have now revisited your answer. I had ended up using the general calculation by @Erik, but now I see the value in the general solution. Plus, presenting the CI rather than SD will solve an issue with my audience being confused when seeing a statistic in the form of s(ss), not understanding what the variance of a variance is. So s[lcl,ucl] should make this more clear, and consistent with other statistical summaries. And it will be helpful to show asymmetry.
Abe

1

I would focus on the SD rather than the variance, since it's on a scale that is more easily interpreted.

People do sometimes look at confidence intervals for SDs or variances, but the focus is generally on means.

The results you give for the distribution of s2/σ2 can be used to get a confidence interval for σ2 (and so also σ); most introductory math/stat texts would give the details in the same section in which the ditribution of σ2 was mentioned. I would just take 2.5% from each tail.


(This reply came here after a duplicate question, framed somewhat differently, was merged.)
whuber

1

The following solution was given by Greenwood and Sandomire in a 1950 JASA paper.

Let X1,,Xn be a random sample from a N(μ,σ2) distribution. You will make inferences about σ using as (biased) estimator the sample standard deviation

S=i=1n(XiX¯)2n1,
and you want to control the probability that the relative deviation between S and σ is within a fraction 0<u<1. That is,
Pr{S<(1u)σ}=aandPr{S>(1+u)σ}=b,
in which the significance level γ=1ab.

It follows that

Pr{(n1)S2σ2<(n1)(1u)2}=a
and
Pr{(n1)S2σ2>(n1)(1+u)2}=b.
Since the pivotal quantity (n1)S2/σ2 has χn12 distribution, adding the two probabilities, we find

γ=Fχ(n1)2((n1)(1+u)2)Fχ(n1)2((n1)(1u)2),

and the necessary sample size is found solving the former equation in n for given γ and u.

R code.

gamma <- 0.95
u <- 0.1
g <- function(n) pchisq((n-1)*(1+u)^2, df = n-1) - pchisq((n-1)*(1-u)^2, df = n-1) - gamma
cat("Sample size n = ", ceiling(uniroot(g, interval = c(2, 10^6))$root), "\n")

Output for u=10% and γ=95%.

Sample size n = 193
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.