এই ফলাফলটির জন্য যা উদ্বেগজনক তা হ'ল এটি কতটা নির্ভর করে একটি সহসম্পূর্ণ সহগের বিতরণ। একটি কারণ আছে।
ধরুন শূন্য পারস্পরিক সম্পর্ক এবং সাধারণ ভ্যারিয়েন্স সঙ্গে bivariate স্বাভাবিক σ 2 উভয় ভেরিয়েবল জন্য। একটি আইডির নমুনা আঁকুন ( x 1 , y 1 ) , … , ( x n , y n ) । এটি সুপরিচিত, এবং সহজেই জ্যামিতিকভাবে প্রতিষ্ঠিত হয়েছিল (যেমন ফিশার এক শতাব্দী আগে করেছিলেন) যে নমুনা পারস্পরিক সম্পর্ক সহগের বিতরণ(X,Y)σ2(x1,y1),…,(xn,yn)
r=∑ni=1(xi−x¯)(yi−y¯)(n−1)SxSy
হয়
f(r)=1B(12,n2−1)(1−r2)n/2−2, −1≤r≤1.
(Here, as usual, x¯ and y¯ are sample means and Sx and Sy are the square roots of the unbiased variance estimators.) B is the Beta function, for which
1B(12,n2−1)=Γ(n−12)Γ(12)Γ(n2−1)=Γ(n−12)π−−√Γ(n2−1).(1)
গনা , আমরা মধ্যে ঘুর্ণন অধীনে তার invariance কাজে লাগান পারে আর এন দ্বারা উত্পন্ন লাইন প্রায় ( 1 , 1 , ... , 1 ) , একই ঘুর্ণন অধীনে নমুনা বিতরণের invariance সহ, এবং পছন্দ করে নিন Y আমি / এস y এমন কোনও ইউনিট ভেক্টর হতে হবে যার উপাদানগুলি শূন্য। এ জাতীয় একটি ভেক্টর v = এর সাথে আনুপাতিক ( এন - 1 , - 1 , … , -rRn(1,1,…,1)yi/Sy। এটির আদর্শ বিচ্যুতিv=(n−1,−1,…,−1)
Sv=1n−1((n−1)2+(−1)2+⋯+(−1)2)−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√=n−−√.
ফলস্বরূপ, এর একই বন্টন থাকতে হবেr
∑ni=1(xi−x¯)(vi−v¯)(n−1)SxSv=(n−1)x1−x2−⋯−xn(n−1)Sxn−−√=n(x1−x¯)(n−1)Sxn−−√=n−−√n−1Z.
Therefore all we need to is rescale r to find the distribution of Z:
fZ(z)=∣∣n−−√n−1∣∣f(n−−√n−1z)=1B(12,n2−1)n−−√n−1(1−n(n−1)2z2)n/2−2
for |z|≤n−1n√. Formula (1) shows this is identical to that of the question.
Not entirely convinced? Here is the result of simulating this situation 100,000 times (with n=4, where the distribution is uniform).
The first histogram plots the correlation coefficients of (xi,yi),i=1,…,4 while the second histogram plots the correlation coefficients of (xi,vi),i=1,…,4) for a randomly chosen vector vi that remains fixed for all iterations. They are both uniform. The QQ-plot on the right confirms these distributions are essentially identical.
Here's the R
code that produced the plot.
n <- 4
n.sim <- 1e5
set.seed(17)
par(mfrow=c(1,3))
#
# Simulate spherical bivariate normal samples of size n each.
#
x <- matrix(rnorm(n.sim*n), n)
y <- matrix(rnorm(n.sim*n), n)
#
# Look at the distribution of the correlation of `x` and `y`.
#
sim <- sapply(1:n.sim, function(i) cor(x[,i], y[,i]))
hist(sim)
#
# Specify *any* fixed vector in place of `y`.
#
v <- c(n-1, rep(-1, n-1)) # The case in question
v <- rnorm(n) # Can use anything you want
#
# Look at the distribution of the correlation of `x` with `v`.
#
sim2 <- sapply(1:n.sim, function(i) cor(x[,i], v))
hist(sim2)
#
# Compare the two distributions.
#
qqplot(sim, sim2, main="QQ Plot")
Reference
R. A. Fisher, Frequency-distribution of the values of the correlation coefficient in samples from an indefinitely large population. Biometrika, 10, 507. See Section 3. (Quoted in Kendall's Advanced Theory of Statistics, 5th Ed., section 16.24.)