বিটা র‌্যান্ডম ভেরিয়েবলের বিপরীত সাধারণ সিডিএফ কোন বিতরণ অনুসরণ করে?


14

ধরুন আপনি সংজ্ঞায়িত করেছেন:

XBeta(α,β)

YΦ1(X)

যেখানে হ'ল মানক বিতরণের সিডিএফের বিপরীত ।Φ1

আমার প্রশ্নটি: এখানে কোনও সাধারণ বিতরণ রয়েছে যা অনুসরণ করে, বা এটি অনুমান করতে পারে ? YYআমি জিজ্ঞাসা করছি কারণ সিমুলেশন ফলাফলগুলির উপর ভিত্তি করে আমার দৃ strong় সন্দেহ রয়েছে (নীচে দেখানো হয়েছে) এবং যখন একটি সাধারণ বিতরণে রূপান্তর করেYαβ উচ্চ, কিন্তু কেন এটা গাণিতিকভাবে would আমি জানি না। (অবশ্যই যখনα=1;β=1 ,X সমান হবে এবংY আদর্শ মানের হবে তবে উচ্চতর মানের ক্ষেত্রে এটি কেন সত্য হবে?)

এই একটি স্বাভাবিক বিন্দুতে মিলিত হয়, তাহলে, কি যে স্বাভাবিক হতে এর প্যারামিটার, পদ would α এবং β ? (আমি আশা করি গড়টি হবে Φ1(αα+β)যেহেতু এটি মোডের রূপান্তর, তবে আমি মানক বিচ্যুতি জানি না)।

(অন্য কোনও উপায়ে বলুন, এটি " bet এবং σ " এর Φ(Norm(μ,σ))কিছু দিকের জন্য বিটা বিতরণে রূপান্তরিত হতে পারে ? এর উত্তর দেওয়া সহজ কিনা তা আমি নিশ্চিত নই)।μσ

সিমুলেশন ফলাফল

ফলাফলটি স্বাভাবিক হওয়ার কারণে আমার কেন সন্দেহ রয়েছে তা এখানে আমি দেখিয়েছি (যেহেতু আমি এটি গণিত দিয়ে ব্যাক আপ করতে পারি না)। এর সিমুলেশন Y সঙ্গে আর কাজ করা যেতে পারে qnormএবং rnorm। উদাহরণস্বরূপ, উচ্চ পরামিতিগুলি নির্বাচন করে α=3000 এবং β=7000 :

hist(qnorm(rbeta(5000, 3000, 7000)))

এটি স্বাভাবিক চেহারা আছে, এবং qqnormএবং শাপিরো-Wilk পরীক্ষা (যেখানে স্বাভাবিক নাল হাইপোথিসিস হয়) সুপারিশ যাতে পাশাপাশি:

qqnorm(qnorm(rbeta(5000, 3000, 7000)))

shapiro.test(qnorm(rbeta(5000, 3000, 7000)))
#> 
#>  Shapiro-Wilk normality test
#> 
#> data:  qnorm(rbeta(5000, 3000, 7000))
#> W = 0.99954, p-value = 0.2838

স্বাভাবিকতাটি কিছুটা গভীরতর অন্বেষণ করতে আমি 2,000 সিমুলেশনগুলি সম্পাদন করি, প্রতিবার কাছ থেকে 5000 মান সিমুলেট করে Y, তারপরে এটিকে স্বাভাবিকের সাথে তুলনা করার জন্য পরীক্ষা করা। (আমি 5 কে মানগুলি বেছে নিয়েছি কারণ এটি সর্বাধিক shapiro.testপরিচালনা করতে পারে এবং আদর্শ থেকে বিচ্যুতি সনাক্ত করার ক্ষমতা সর্বাধিক করে)।

বিতরণটি যদি সত্যই স্বাভাবিক হয় তবে আমরা আশা করব পি-মানগুলি অভিন্ন হবে (যেহেতু নালটি সত্য)। এগুলি প্রকৃতপক্ষে ইউনিফর্মের খুব কাছাকাছি, প্রস্তাবটি বন্টনের খুব কাছেই রয়েছে:

hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 3000, 7000)))$p.value))

কিছু পরীক্ষা-নিরীক্ষা দেখায় যে উচ্চতর এবং β হ'ল , বিতরণটি স্বাভাবিকের কাছাকাছি চলে আসে (উদাহরণস্বরূপ সাধারণ থেকে অনেক দূরে তবে চেষ্টা করুন এবং এটি কোথাও কোথাও উপস্থিত রয়েছে)।αβrbeta(5000, 3, 7)hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 30, 70)))$p.value))


2
আকর্ষণীয় কিছুই এখানে হয় না। হিসাবে এবং বিটা অনুমান বৃহৎ বাড়ান যাক তারা একই অনুপাতে থাকা, বা অন্তত যে α / ( α + + β ) থেকে দূরে থাকে 0 এবং 1 । তারপরে বিটা ( α , β ) বিতরণটি সাধারণ হয়ে ওঠে an 1 - 1 , স্বতন্ত্র হয়ে ওঠা মূলত রৈখিক হয়ে ওঠে, যেখানে আপনি কেবলমাত্র একটি প্রায়-সাধারণ ভেরিয়েবলের রৈখিক রূপান্তর দেখছেন। এই ফলাফলটির সাথে Φ - 1 এর সাথে আরও কিছু করার নেইαβα/(α+β)01(α,β)Φ1Φ1নিজেই এবং বিটা বিতরণ সম্পর্কে কোনও তথ্য যোগ করে না।
whuber

1
@whuber যে বৃহৎ জন্য জ্ঞান করে তোলে এবং β (আমি কিছু সিমিউলেশন যে আমাকে তৈরি মনে সমতুল্য স্বাভাবিকের চেয়ে স্বাভাবিক কাছাকাছি প্রায় বিটা ছিল ছিল, কিন্তু rerunning উপর আমি সময়ে একটি ভুল ছিল)। Thoughts = 2 তে কোনও চিন্তাভাবনা ; β = 2 ? জেলা সাধারণ থেকে খুব দূরে, তবে এর Qnorm বেশ কাছাকাছি। αβα=2β=2
ডেভিড রবিনসন

1
@whuber যেমন চেষ্টা hist(replicate(1000, shapiro.test(rbeta(5000, 2, 2))$p.value)), তারপর hist(replicate(1000, shapiro.test(qnorm(rbeta(5000, 2, 2)))$p.value))। অন্য কথায়, যখন এটা স্বাভাবিক কারণ বিটা, অভিন্ন যখন α এবং β উচ্চ কারণ বিটা মোটামুটিভাবে normal- এটা কিন্তু কেন এটা কাজ যখন তারা সমান এবং ইন-মধ্যবর্তী এটা ত্ত এর কোথায় সাধারণ না ইউনিফর্ম? α=β=1αβ
ডেভিড রবিনসন

5
এটি অবশ্যই আরও আকর্ষণীয়! আপনি ঠিক বলেছেন যে বিটা স্বাভাবিকের খুব কাছাকাছি নয় তবে রূপান্তর আনুমানিক স্বাভাবিক, এমনকি বিটার ছোট প্যারামিটারের জন্যও is স্বাভাবিকতা থেকে প্রাপ্ত বিচ্যুতিগুলি প্রায় = বা তার বেশি এর লেজগুলিতে স্পষ্ট হয়ে ওঠে , তবে বিতরণের পুরো অংশ জুড়েই এটি অল্প পরিমাণে। শেষ পর্যন্ত এটি বিটা লেজের পাওয়ার-আইন আচরণের সন্ধান করতে পারে। Z=±3
whuber

উত্তর:


7

সংক্ষিপ্তসার

আপনি নমুনা মিডিয়ানদের জন্য কেন্দ্রীয় সীমাবদ্ধ উপপাদ্যটিতে বর্ণিত নির্মাণের অংশটি পুনরায় আবিষ্কার করেছেন , যা একটি নমুনার মধ্যকের বিশ্লেষণকে চিত্রিত করে। (বিশ্লেষণটি স্পষ্টতই প্রযোজ্য, মিট্যাটিস মিউটানডিস , যে কোনও কোয়ান্টাইলের জন্য, কেবল মধ্যস্থ নয়)। সুতরাং এটি বিস্ময়কর নয় যে বৃহত বিটা প্যারামিটারগুলির জন্য (বৃহত নমুনাগুলির সাথে মিল রেখে) প্রশ্নের মধ্যে বর্ণিত রূপান্তরের অধীনে একটি সাধারণ বিতরণ দেখা দেয়। আগ্রহের বিষয়টি হল ছোট বিটা পরামিতিগুলির এমনকি সাধারণ বিতরণটি কতটা কাছাকাছি । এটি একটি ব্যাখ্যা প্রাপ্য।

আমি নীচে একটি বিশ্লেষণ স্কেচ করব। এই পোস্টটি যুক্তিসঙ্গত দৈর্ঘ্যে রাখার জন্য, এতে হাতের মোড়কে প্রচুর পরিমাণে পরামর্শ দেওয়া হয়েছে: আমি কেবল মূল ধারণাগুলি দেখানো লক্ষ্য করি। অতএব আমাকে এখানে ফলাফলগুলি সংক্ষিপ্তসার দিন:

  1. যখন পাসে হবে বিটা , সবকিছু প্রতিসম হয়। এর ফলে রূপান্তরিত বিতরণ ইতিমধ্যে সাধারণ দেখায়।αβ

  2. ফর্ম কার্যাবলী বর্ণন মোটামুটি প্রথম স্থানে সাধারন, এমনকি ছোট মানের জন্য α এবং β (প্রদত্ত উভয় অতিক্রম 1 এবং তাদের অনুপাত খুব নয় থেকে বন্ধ 0 বা 1 )।Φα1(x)(1Φ(x))β1αβ101

  3. রুপান্তরিত বিতরণের আপাত স্বাভাবিকতা এই কারণে যে এর ঘনত্বটি একটি সাধারণ ঘনত্ব নিয়ে গঠিত যা একটি ফাংশন (2) দ্বারা গুণিত হয়েছিল।

  4. এবং β বৃদ্ধি হিসাবে , স্বাভাবিকতা থেকে প্রস্থান লগের ঘনত্বের জন্য টেলর সিরিজের বাকী পদগুলিতে পরিমাপ করা যেতে পারে। আদেশের মেয়াদ এন অনুপাতে কমে যায় ( এন - 2 ) / 2 এর ক্ষমতা α এবং β । এর দ্বারা বোঝা যাচ্ছে যে শেষ পর্যন্ত যথেষ্ট পরিমাণে α এবং β এর জন্য , n = 3 বা তারও বেশি পাওয়ারের সমস্ত পদ অপেক্ষাকৃত ছোট হয়ে গেছে, কেবল একটি চতুর্ভুজকে রেখে গেছে: এটি সাধারণ বিতরণের লগ ঘনত্ব অবিকল।αβn(n2)/2αβαβn=3

সম্মিলিতভাবে, এই আচরণগুলি খুব ভালভাবে ব্যাখ্যা করে যে এমনকি ছোট β কোনও আইআইডি নরমাল নমুনার অ-চরম কোয়ান্টাইলগুলিও প্রায় সাধারণ দেখায়।αβ


বিশ্লেষণ

কারণ এটা সাধারণীকরণ করা উপযোগী হতে পারে যাক হতে কোন বণ্টনের ফাংশনের, যদিও আমরা মনে আছে এফ = ΦFF=Φ

বিটার ( α , β ) ভেরিয়েবলের ঘনত্ব ফাংশন , সংজ্ঞা অনুসারে, আনুপাতিকg(y)(α,β)

yα1(1y)β1dy.

লেটিং সম্ভাব্যতা অবিচ্ছেদ্য এর রুপান্তর হতে এক্স এবং লেখার ডেরিভেটিভ জন্য এফ , এটা অবিলম্বে যে এক্স একটি ঘনত্ব আছে সমানুপাতিক করতেy=F(x)xfFx

G(x;α,β)=F(x)α1(1F(x))β1f(x)dx.

কারণ এটি দৃ strongly়ভাবে অবিমোচনীয় বিতরণ (একটি বিটা) এর একঘেয়ে রূপান্তর, যদি না অদ্ভুত হয় তবে রূপান্তরিত বিতরণটিও সর্বমোচনীয় হবে। এটি সাধারণের কতটা কাছাকাছি হতে পারে তা অধ্যয়নের জন্য, আসুন এর ঘনত্বের লগারিদম পরীক্ষা করি,F

(1)logG(x;α,β)=(α1)logF(x)+(β1)log(1F(x))+logf(x)+C

যেখানে হ'ল সাধারণীকরণের অপ্রাসঙ্গিক ধ্রুবক।C

টেলর সিরিজে এর উপাদানগুলি প্রসারিত করুন একটি মান x 0 (যা একটি মোডের কাছাকাছি থাকবে ) এর চারদিকে তিনটি অর্ডার করতে। উদাহরণ হিসেবে বলা যায়, আমরা সম্প্রসারণ লিখতে পারে লগ এফ যেমনlogG(x;α,β)x0logF

logF(x)=c0F+c1F(xx0)+c2F(xx0)2+c3Fh3

কিছু সঙ্গে | এইচ | | x - x 0 | লগের জন্য অনুরূপ স্বরলিপি ব্যবহার করুন ( 1 - এফ ) এবং লগ এফh|h||xx0|log(1F)logf

লিনিয়ার পদ

মধ্যে রৈখিক শব্দটি যার ফলে হয়ে(1)

g1(α,β)=(α1)c1F+(β1)c11F+c1f.

যখন জি এর একটি মোড (x0 , এই অভিব্যক্তিটি শূন্য। নোট করুন যেহেতু সহগগুলি x 0 এর ক্রমাগত ফাংশন, যেমন α এবং β বিবিধ হয়, মোড x 0 অবিচ্ছিন্নভাবেও পরিবর্তিত হবে। তদতিরিক্ত , একবার onceএবং β পর্যাপ্ত পরিমাণে বড়হয়ে গেলে, সি এফ 1 পদটি তুলনামূলকভাবে অসম্পূর্ণ হয়ে যায়। আমরা যত সীমা অধ্যয়ন লক্ষ্য রাখি তাহলে α এবং β , যার জন্য α : β ধ্রুবক অনুপাতে থাকার বিষয়টি মতেই γG(;α,β)x0αβx0αβc1fαβ α:βγ, তাই আমরা একবার এবং সবার জন্য একটি বেস পয়েন্ট forx0

γc1F+c11F=0.

একটি সুন্দর ক্ষেত্রে কোথায় , যেখানে α = β সর্বত্র, এবং এফ সম্পর্কে প্রতিসম হয় 0 । যে ক্ষেত্রে এটা সুস্পষ্ট এক্স 0 = এফ ( 0 ) = 1 / 2γ=1α=βF0x0=F(0)=1/2

আমরা একটি পদ্ধতি অর্জন করেছি যার মাধ্যমে (ক) সীমাবদ্ধভাবে, টেলর সিরিজের প্রথম-আদেশের শর্তটি অদৃশ্য হয়ে যায় এবং (খ) সুনির্দিষ্ট বর্ণিত বিশেষ ক্ষেত্রে প্রথম আদেশের মেয়াদ সর্বদা শূন্য থাকে।

Quadratic terms

These are the sum

g2(α,β)=(α1)c2F+(β1)c21F+c2f.

একটি সাধারণ বন্টনের, যার দ্বিঘাত শব্দ তুলনায় , আমরা অনুমান করতে পারে যে - 1 / ( 2 G 2 ( α , β ) ) প্রায় ভ্যারিয়েন্স হয় জি । আমাদের প্রমিত যাক জি rescaling দ্বারা এক্স তার বর্গমূল দ্বারা। আমাদের সত্যিই বিশদ প্রয়োজন নেই; এটি বোঝার পক্ষে যথেষ্ট যে এই পুনরুদ্ধারটি ( x এর সহগ) গুণ করে চলেছে(1/2)(xx0)2/σ21/(2g2(α,β))GGx(xx0)n in the Taylor expansion by (1/(2g2(α,β)))n/2.

Remainder term

Here's the punchline: the term of order n in the Taylor expansion is, according to our notation,

gn(α,β)=(α1)cnF+(β1)cn1F+cnf.

After standardization, it becomes

gn(α,β)=gn(α,β)(2g2(α,β))n/2).

Both of the gi are affine combination of α and β. By raising the denominator to the n/2 power, the net behavior is of order (n2)/2 in each of α and β. As these parameters grow large, then, each term in the Taylor expansion after the second decreases to zero asymptotically. In particular, the third-order remainder term becomes arbitrarily small.

The case when F is normal

The vanishing of the remainder term is particularly fast when F is standard Normal, because in this case f(x) is purely quadratic: it contributes nothing to the remainder terms. Consequently, the deviation of G from normality depends solely on the deviation between Fα1(1F)β1 and normality.

This deviation is fairly small even for small α and β. To illustrate, consider the case α=β. G is symmetric, whence the order-3 term vanishes altogether. The remainder is of order 4 in xx0=x.

Here is a plot showing how the standardized fourth order term changes with small values of α>1:

Figure

The value starts out at 0 for α=β=1, because then the distribution obviously is Normal (Φ1 applied to a uniform distribution, which is what Beta(1,1) is, gives a standard Normal distribution). Although it increases rapidly, it tops off at less than 0.008--which is practically indistinguishable from zero. After that the asymptotic reciprocal decay kicks in, making the distribution ever closer to Normal as α increases beyond 2.


2

Convergence

Suppose that α=β and let α and take any small ε>0. Then var(X)0. By Chebyshev's inequality we have P[|X0.5|>ε]0 and P[|Y|>ε]0. This means that Y converges in probability (not in distribution actually it converges in distribution - to singleton).

Exact distribution

Denote by fX the density of beta distribution. Then your variable Y has density

fY(y)=fX(Φ(y))ϕ(y).
Since Φ does not have a closed form I believe that this is the furthest you can get (analytically). You can try to put it into FullSimplify function in Wolfram Mathematica to see if it finds some better form.

Here is the density in R so you can plot it instead of histogram.

f_y <- function(x, alpha, beta) {
  dbeta(pnorm(x), alpha, beta) * dnorm(x)
}

Modification

However, you are maybe interested in distribution of

Z=Φ1(αX)
α=βvar(αX)1/8

1

kNk2. Let XBeta(k,k). I want to argue that Y=Φ1(X) is approximately normal.

Now let n=2k1. We start by drawing n i.i.d. uniformly distributed random variables U1,,Un. Next, form the order statistics U(1)U(n).

It is well known that U(k)Beta(k,n+1k), thus:

U(k)Beta(k,k)

In other words: The sample median of n i.i.d. uniformly distributed random variables is Beta(k,k) distributed.

Now let's transform by Zi=Φ1(Ui). Then by the probability integral transform, the Zi are i.i.d. normally distributed. Also form the order statistics of the Zi (Z(1)Z(n)). Since Φ1 is strictly increasing, it follows that:

Φ1(U(k))=Z(k)

Therefore, to show that Y is approximately normal, we just have to argue that the sample median of n i.i.d. normal random variables is approximately normal.

For k large, this can be made precise by a central limit theorem for sample medians. For k small, say k=2, I will let everyone's gut feeling do the speaking.

For ab (but not too different) one can argue similarly by using corresponding quantiles.

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.