সীমাবদ্ধ বৈকল্পের জন্য পরীক্ষা?


29

একটি নমুনা দেওয়া কি এলোমেলো পরিবর্তনশীলের প্রকরণের সূক্ষ্মতা (বা অস্তিত্ব) জন্য পরীক্ষা করা সম্ভব? নাল হিসাবে, হয় {বৈকল্পিকতা বিদ্যমান এবং সীমাবদ্ধ। বা {বৈকল্পের অস্তিত্ব নেই / অসীম is গ্রহণযোগ্য হবে। দার্শনিকভাবে (এবং গণনামূলকভাবে), এটি খুব বিস্ময়কর বলে মনে হচ্ছে কারণ সীমাবদ্ধ বৈকল্পিকতা ছাড়া একটি জনগোষ্ঠীর মধ্যে কোনও পার্থক্য থাকা উচিত নয় এবং বলুন যে খুব বড় বৈকল্পিক ( > ), তাই আমি আশাবাদী না যে এই সমস্যাটি হতে পারে সমাধান।10400

আমার কাছে একটি পন্থা প্রস্তাব করা হয়েছিল যা কেন্দ্রীয় সীমাবদ্ধ উপপাদ্যটির মাধ্যমে ছিল: অনুমান করে যে নমুনাগুলি iid, এবং জনসংখ্যার সীমাবদ্ধ অর্থ আছে, কেউ পরীক্ষা করতে পারে, কোনওভাবে, নমুনাটির বর্ধনের সাথে নমুনার আকারের সঠিক মান ত্রুটি আছে কি না। যদিও আমি নিশ্চিত যে এই পদ্ধতিটি কার্যকর হবে বলে আমি বিশ্বাস করি। (বিশেষত, কীভাবে এটি সঠিক পরীক্ষায় পরিণত করা যায় তা আমি দেখতে পাই না))


1
প্রাসঙ্গিক: stats.stackexchange.com/questions/94402/… সামান্যতম সম্ভাবনা যদি বৈকল্পিকের অস্তিত্ব না থাকে, আপনি সীমাবদ্ধ বৈকল্পিকতা ধরে না এমন একটি মডেল ব্যবহার করা ভাল। এমনকি এটি পরীক্ষা করার বিষয়ে ভাবেন না।
কেজেটিল বি হালওয়ারসন

উত্তর:


13

না, এটি সম্ভব নয়, কারণ আকার এর একটি সীমাবদ্ধ নমুনা নির্ভরযোগ্যভাবে পার্থক্য করতে পারে না, বলুন, একটি সাধারণ জনগোষ্ঠী এবং একটি সাধারণ জনগোষ্ঠী যেখানে কাঁচি বিতরণের পরিমাণে দূষিত হয় যেখানে >> । (অবশ্যই পূর্বের সীমাবদ্ধ বৈকল্পিকতা রয়েছে এবং শেষেরটির অসীম বৈকল্পিকতা রয়েছে।) সুতরাং কোনও সম্পূর্ণ ননপ্রেমেট্রিক পরীক্ষায় এ জাতীয় বিকল্পের বিরুদ্ধে নির্বিচারে কম শক্তি থাকবে।n1/NNএন


4
এটি একটি খুব ভাল দিক. তবে, বেশিরভাগ অনুমানের পরীক্ষাগুলিতে কোনও বিকল্পের বিরুদ্ধে নির্বিচারে শক্তি কম থাকে না? উদাহরণস্বরূপ শূন্য মানের জন্য একটি পরীক্ষার খুব কম শক্তি থাকবে যখন জন্য গড় সহ একটি জনসংখ্যার থেকে একটি নমুনা দেওয়া হবে when ছোট। আমি এখনও ভাবছি যে এই জাতীয় পরীক্ষাটি বুদ্ধিমানভাবে নির্মান করা যায় কিনা, এর কিছু ক্ষেত্রে এর শক্তি কম কিনা তাও কম। 0 < | ϵ |ϵ0<|ϵ|
shabbychef

2
এছাড়াও, 'দূষিত' বিতরণগুলি যেমন আপনি উদ্ধৃত করেছেন তা সর্বদা আমার কাছে 'অভিন্ন বিতরণ' হওয়ার ধারণার সাথে মতবিরোধ বলে মনে হয়েছিল। সম্ভবত আপনি সম্মত হবে। দেখে মনে হয় যে বিতরণকে উল্লেখ না করেই কিছু বিতরণ থেকে নমুনা টানা হয় (ভাল, আইডির 'স্বাধীনভাবে' অংশটি অর্থবহ)।
shabbychef

2
(1) আপনি নিম্ন শক্তি সম্পর্কে ঠিক বলেছেন, তবে সমস্যাটি এখানে (এটি আমার কাছে মনে হয়) এটি হচ্ছে "সীমাবদ্ধ" থেকে "অসীম" পর্যন্ত কোনও ধীরে ধীরে পদক্ষেপ নেই: সমস্যাটি আমাদের বলার মতো প্রাকৃতিক স্কেল বলে মনে হচ্ছে না একটি "বৃহত" প্রস্থানের তুলনায় নাল থেকে "ছোট" প্রস্থানকে কী বলে? (২) বিতরণ ফর্ম আইডির বিবেচনার তুলনায় স্বতন্ত্র। আমি এর অর্থ এই বলছি না যে, 1% ডেটা একটি কচির কাছ থেকে এবং 99% একটি সাধারণ থেকে আসবে। আমার অর্থ 100% ডেটা এমন একটি বিতরণ থেকে আসে যা প্রায় স্বাভাবিক তবে কচির লেজ থাকে। এই অর্থে ডেটা দূষিত বিতরণের জন্য আইআইডি করা যেতে পারে।
হোবার

2
কেউ কি এই কাগজ পড়েছেন? বিজ্ঞান ডিরেক্টরি
ক্রিস্টোফ

3
@ শ্যাববিচেফ যদি প্রতিটি পর্যবেক্ষণ সঠিক একই মিশ্রণ প্রক্রিয়া থেকে উত্থাপিত হয় তবে তারা যথাযথভাবে বিতরণ করা হবে, প্রতিটি মিশ্রণ বিতরণের অঙ্ক হিসাবে। যদি কিছু পর্যবেক্ষণ অপরিহার্যভাবে একটি প্রক্রিয়া থেকে হয় এবং অন্যগুলি অগত্যা পৃথক প্রক্রিয়া থেকে থাকে (পর্যবেক্ষণ 1 থেকে 990 স্বাভাবিক এবং পর্যবেক্ষণগুলি 991 থেকে 1000 কচী হয়), তবে সেগুলি অভিন্নরূপে বিতরণ করা হয়নি (যদিও সম্মিলিত নমুনা পৃথক পৃথক হতে পারে) একটি 99% -1% মিশ্রণ থেকে)। এটি মূলত আপনি যে প্রক্রিয়াটি ব্যবহার করছেন তার মডেলটিতে আসবে।
গ্লেন_বি -রিনস্টেট মনিকা

16

বিতরণ না জেনে আপনি নিশ্চিত হতে পারবেন না। তবে কিছু কিছু কাজ আপনি করতে পারেন যেমন "আংশিক বৈকল্পিক" কী বলা যেতে পারে তা দেখে যেমন আপনার আকার নমুনা থাকে তবে আপনি প্রথম এন শর্তাবলীর সাথে এন থেকে 2 থেকে শুরু করে আনুমানিক বৈচিত্রটি আঁকেন এনNnnN

সীমাবদ্ধ জনসংখ্যার বৈচিত্র সহ, আপনি আশা করেন যে আংশিক বৈচিত্রটি শীঘ্রই জনসংখ্যার বৈকল্পের কাছাকাছি স্থিত হয়ে যায়।

অসীম জনসংখ্যার বৈসাদৃশ্য সহ, আপনি নমুনায় পরবর্তী খুব বড় মান উপস্থিত না হওয়া অবধি ধীরে ধীরে হ্রাসের পরে আংশিক বৈকল্পিকের মধ্যে ঝাঁপিয়ে পড়তে দেখবেন।

এটি সাধারণ এবং কচির এলোমেলো ভেরিয়েবল (এবং একটি লগ স্কেল) সহ একটি চিত্র আংশিক বৈচিত্র

এটি যদি আপনার বিতরণের আকারটি এমন না হয় তবে পর্যাপ্ত আত্মবিশ্বাসের সাথে এটি সনাক্ত করার জন্য আপনার চেয়ে অনেক বড় একটি নমুনার আকার প্রয়োজন, যেখানে সীমাবদ্ধ বৈকল্পিকতার সাথে বিতরণের জন্য খুব বড় মানগুলি মোটামুটি (তবে চূড়ান্ত নয়), বা অসীম বৈকল্পিকতার সাথে বিতরণের জন্য অত্যন্ত বিরল। প্রদত্ত বিতরণের জন্য এখানে নমুনা আকার থাকবে যা এর প্রকৃতি প্রকাশ না করার চেয়ে বেশি সম্ভাবনা রয়েছে; বিপরীতভাবে, একটি নির্দিষ্ট নমুনা আকারের জন্য, এমন বিতরণ রয়েছে যা নমুনার আকারের জন্য তাদের স্বভাবগুলি ছদ্মবেশে না দেখানোর চেয়ে বেশি সম্ভাবনা রয়েছে।


4
+1 আমি এটি পছন্দ করি কারণ (ক) একটি গ্রাফিক সাধারণত পরীক্ষার চেয়ে অনেক বেশি প্রকাশ করে এবং (খ) এটি ব্যবহারিক। আমি কিছুটা উদ্বিগ্ন যে এটির একটি স্বেচ্ছাচারী দিক রয়েছে: এর উপস্থিতি ডেটা দেওয়া হয় তার উপর (দৃ strongly়ভাবে, সম্ভবত) নির্ভর করবে। "আংশিক বৈকল্পিক" যখন এক বা দুটি চূড়ান্ত মানগুলির কারণে হয় এবং তারা শুরুতে আসে তখন এই গ্রাফিকটি বিভ্রান্তিকর হতে পারে। আমি ভাবছি যে এই সমস্যার কোনও ভাল সমাধান আছে কিনা।
হোবার

1
দুর্দান্ত গ্রাফিকের জন্য +1। কাচি বিতরণে "কোনও বৈকল্পিকতা" ধারণাটি সত্যই শক্তিশালী করে। @ হুইবার: সমস্ত সম্ভাব্য ক্রমে ডেটা বাছাই করা, প্রত্যেকের জন্য পরীক্ষা চালানো, এবং একরকম গড়পড়তাভাবে নেওয়া? খুব কম কম্পিউটেশনাল দক্ষ নয়, আমি আপনাকে মঞ্জুরি দেব :) তবে সম্ভবত আপনি কেবল কয়েক মুঠো এলোমেলো অনুমতি বেছে নিতে পারেন?
nnot101

2
@ naught101 সমস্ত ক্রিয়াকলাপের ওভারেজিং আপনাকে কিছু বলবে না, কারণ আপনি পুরোপুরি অনুভূমিক লাইন পাবেন get আপনারা কি বোঝাতে চেয়েছেন?
হোবার

1
@ হুইবার: আমি আসলে বোঝাতে চেয়েছিলাম গড়নের জন্য একরকম পরীক্ষার গড় পরীক্ষা নেওয়া, গ্রাফ নিজেই নয়। তবে আমি এটি একটি খুব অস্পষ্ট ধারণা দেব, এবং এটি মূলত কারণ আমি কী সম্পর্কে কথা বলছি তা সম্পর্কে আমার কোনও ধারণা নেই :)
naught101

7

এখানে আরও একটি উত্তর। মনে করুন আপনি সমস্যাটিকে প্যারামিট্রাইজ করতে পারছেন, এরকম কিছু:

H0: Xt(df=3) versus H1: Xt(df=1).

তারপরে আপনি এইচ 0 বনাম এইচ 1 এর একটি সাধারণ নেইমন-পিয়ারসন সম্ভাবনা অনুপাতের পরীক্ষা করতে পারেন । নোট করুন যে এইচ 1 হ'ল কাচি (অসীম বৈকল্পিক) এবং এইচ 0 হল 3 ডিগ্রি সহ স্বাধীন শিক্ষার্থীর টি (সীমাবদ্ধ বৈকল্পিক) যার পিডিএফ রয়েছে: f ( x | ν ) = Γ ( ν + 1H0H1H1H0 t

(এক্স|ν)=Γ(ν+ +12)νπΓ(ν2)(1+ +এক্স2ν)-ν+ +12,

জন্য । প্রদত্ত সহজ র্যান্ডম নমুনা তথ্য এক্স 1 , x 2 , ... , x এন , সম্ভাবনা অনুপাত পরীক্ষা প্রত্যাখ্যান এইচ 0 যখন Λ ( এক্স ) = Π এন আমি = 1( এক্স আমি | ν = 1 )<x<x1,x2,,xএনH0 যেখানেk0এমনটিবেছে নেওয়া হয়েছে যে পি(Λ(এক্স)>কে

Λ(x)=i=1nf(xi|ν=1)i=1nf(xi|ν=3)>k,
k0
P(Λ(X)>k|ν=3)=α.

Λ ( x ) = ( ) সরল করে তুলতে কিছুটা বীজগণিত bit

Λ(x)=(32)ni=1n(1+xi2/3)21+xi2.

Λ(x)H0Λ(x)α=0.05n=13

H0Λ

set.seed(1)
x <- matrix(rt(1000000*13, df = 3), ncol = 13)
y <- apply(x, 1, function(z) prod((1 + z^2/3)^2)/prod(1 + z^2))
quantile(y, probs = 0.95)

12.8842(3/2)13k1.9859

H0H1α

অস্বীকৃতি: এটি খেলনার উদাহরণ। আমার এমন কোন বাস্তব-জগতের পরিস্থিতি নেই যাতে আমি জানতে আগ্রহী ছিলাম যে আমার ডেটা কচির কাছ থেকে 3 ডিএফ স্টুডেন্টের টিয়ের বিপরীতে এসেছিল কিনা। এবং মূল প্রশ্নটি প্যারামিট্রাইজড সমস্যা সম্পর্কে কিছু বলেনি, মনে হয়েছিল এটি আরও একটি অপ্রচলিত পদ্ধতির সন্ধান করেছে, যা আমি মনে করি অন্যরা ভালভাবে সম্বোধন করেছিল। এই উত্তরের উদ্দেশ্য ভবিষ্যতের পাঠকদের জন্য যারা প্রশ্নের শিরোনাম জুড়ে হোঁচট খায় এবং শাস্ত্রীয় ধূলোবস্তী পাঠ্যপুস্তক পদ্ধতির সন্ধান করছেন।

H1:ν1


2
α

1
H1:ν2ν>2

2
α

1
αα=2

6

DY1,Y2,,YN

  1. H0:YiNormal(μ,σ)
  2. HA:YiCauchy(ν,τ)

একটি অনুমানের সীমাবদ্ধ বৈকল্পিকতা রয়েছে, একটিতে অসীম বৈকল্পিকতা রয়েছে। প্রতিক্রিয়াগুলি কেবল গণনা করুন:

P(H0|D,I)P(HA|D,I)=P(H0|I)P(HA|I)P(D,μ,σ|H0,I)dμdσP(D,ν,τ|HA,I)dνdτ

P(H0|I)P(HA|I)

P(D,μ,σ|H0,I)=P(μ,σ|H0,I)P(D|μ,σ,H0,I)
P(D,ν,τ|HA,I)=P(ν,τ|HA,I)P(D|ν,τ,HA,I)

L1<μ,τ<U1L2<σ,τ<U2

(2π)N2(U1L1)log(U2L2)L2U2σ(N+1)L1U1exp(N[s2(Y¯μ)2]2σ2)dμdσ

s2=N1i=1N(YiY¯)2Y¯=N1i=1NYi

πN(U1L1)log(U2L2)L2U2τ(N+1)L1U1i=1N(1+[Yiντ]2)1dνdτ

এবং এখন অনুপাত গ্রহণ করে আমরা দেখতে পেলাম যে স্বাভাবিককরণের ধ্রুবকের গুরুত্বপূর্ণ অংশগুলি বাতিল হয়ে যায় এবং আমরা পাই:

P(D|H0,I)P(D|HA,I)=(π2)N2L2U2σ(N+1)L1U1exp(N[s2(Y¯μ)2]2σ2)dμdσL2U2τ(N+1)L1U1i=1N(1+[Yiντ]2)1dνdτ

এবং সমস্ত ইন্টিগ্রালস এখনও সীমাতে যথাযথ তাই আমরা পেতে পারি:

P(D|H0,I)P(D|HA,I)=(2π)N20σ(N+1)exp(N[s2(Y¯μ)2]2σ2)dμdσ0τ(N+1)i=1N(1+[Yiντ]2)1dνdτ

0σ(N+1)exp(N[s2(Y¯μ)2]2σ2)dμdσ=2Nπ0σNexp(Ns22σ2)dσ

λ=σ2dσ=12λ32dλ

2Nπ0λN121exp(λNs22)dλ=2Nπ(2Ns2)N12Γ(N12)

And we get as a final analytic form for the odds for numerical work:

P(H0|D,I)P(HA|D,I)=P(H0|I)P(HA|I)×πN+12NN2s(N1)Γ(N12)0τ(N+1)i=1N(1+[Yiντ]2)1dνdτ

So this can be thought of as a specific test of finite versus infinite variance. We could also do a T distribution into this framework to get another test (test the hypothesis that the degrees of freedom is greater than 2).


1
When you started to integrate, you introduced a term s2. It persists through the final answer. What is it?
whuber

2
@whuber - s is the standard deviation MLE, s2=N1i=1N(YiY¯)2. I thought it was the usual notation for standard deviation, just as Y¯ is usual for average - which I have incorrectly written as x¯, will edit accordingly
probabilityislogic

5

The counterexample is not relevant to the question asked. You want to test the null hypothesis that a sample of i.i.d. random variables is drawn from a distribution having finite variance, at a given significance level. I recommend a good reference text like "Statistical Inference" by Casella to understand the use and the limit of hypothesis testing. Regarding h.t. on finite variance, I don't have a reference handy, but the following paper addresses a similar, but stronger, version of the problem, i.e., if the distribution tails follow a power law.

POWER-LAW DISTRIBUTIONS IN EMPIRICAL DATA SIAM Review 51 (2009): 661--703.


1

One approach that had been suggested to me was via the Central Limit Theorem.

This is a old question, but I want to propose a way to use the CLT to test for large tails.

Let X={X1,,Xn} be our sample. If the sample is a i.i.d. realization from a light tail distribution, then the CLT theorem holds. It follows that if Y={Y1,,Yn} is a bootstrap resample from X then the distribution of:

Z=n×mean(Y)mean(X)sd(Y),

is also close to the N(0,1) distribution function.

Now all we have to do is perform a large number of bootstraps and compare the empirical distribution function of the observed Z's with the e.d.f. of a N(0,1). A natural way to make this comparison is the Kolmogorov–Smirnov test.

The following pictures illustrate the main idea. In both pictures each colored line is constructed from a i.i.d. realization of 1000 observations from the particular distribution, followed by a 200 bootstrap resamples of size 500 for the approximation of the Z ecdf. The black continuous line is the N(0,1) cdf.

enter image description here enter image description here


2
No amount of bootstrapping will get you anywhere against the problem I raised in my answer. That's because the vast majority of samples will not supply any evidence of a heavy tail--and bootstrapping, by definition, uses only the data from the sample itself.
whuber

1
@whuber If the X values are taken from a symmetrical power law, then the generalized CLT applies and KS test will detect the difference. I believe that your observation do not correctly characterize what you say is a "gradual step from "finite" to "infinite""
Mur1lo

1
The CLT never "applies" to any finite sample. It's a theorem about a limit.
whuber

1
When I say that it "applies" I'm only saying that it provides a good approximation if we have a large sample.
Mur1lo

1
The vagueness of "good approximation" and "large" unfortunately fail to capture the logic of hypothesis tests. Implicit in your statement is the possibility of collecting an ever larger sample until you are able to detect the heavy-tailedness: but that's not how hypotheses tests usually work. In the standard setting you have a given sample and your task is to test whether it is from a distribution in the null hypothesis. In this case, bootstrapping won't do that any better than any more straightforward test.
whuber
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.