আসুন সর্বাধিক অন্তর্দৃষ্টি সরবরাহ করার চেষ্টা করার জন্য সহজ কেসটি পরিচালনা করি। যাক সঙ্গে একটি বিযুক্ত বন্টন থেকে একটি IID নমুনা হতে ট ফলাফল। Particular 1 , … , π কে প্রতিটি নির্দিষ্ট ফলাফলের সম্ভাবনা হয়ে উঠুক । আমরা চি-স্কোয়ার স্ট্যাটিস্টিক এক্স 2 = কে ∑ i = 1 ( এস আই - এন π i ) 2 এর বিতরণ (অ্যাসিপটোটিক) এ আগ্রহী
X1,X2,…,Xnkπ1,…,πk
এখানে n π i
X2=∑i=1k(Si−nπi)2nπi.
nπi এর গন্য প্রত্যাশিত নম্বর
তম পরিণতি।
i
একটি পরামর্শমূলক heuristic
U i = ( S i - n π i ) / Def নির্ধারণ করুন √ , যাতেএক্স2=∑iইউ 2 i =‖ইউ‖ 2 2 যেখানেইউ=(ইউ1,…,ইউকে)।Ui=(Si−nπi)/nπi−−−√X2=∑iU2i=∥U∥22U=(U1,…,Uk)
যেহেতু হ'ল বি আই এন ( এন , π i ) , তারপরে কেন্দ্রীয় সীমাবদ্ধ উপপাদ্য দ্বারা ,
টি আই =SiBin(n,πi)
Ti=Ui1−πi−−−−−√=Si−nπinπi(1−πi)−−−−−−−−−√→dN(0,1),
Ui→dN(0,1−πi)
Ti∑iT2iχ2kTk(T1,…,Tk−1)Ti ভেরিয়েবলগুলি সম্ভবত স্বাধীন হতে পারে না।
UiUχ2k to what is, in fact, a χ2k−1.
Some details on this follow.
A more rigorous treatment
It is not hard to check that, in fact,
Cov(Ui,Uj)=−πiπj−−−−√ for i≠j.
So, the covariance of U is
A=I−π−−√π−−√T,
where
π−−√=(π1−−√,…,πk−−√). Note that
A is symmetric and idempotent, i.e.,
A=A2=AT. So, in particular, if
Z=(Z1,…,Zk) has iid standard normal components, then
AZ∼N(0,A). (
NB The multivariate normal distribution in this case is
degenerate.)
Now, by the Multivariate Central Limit Theorem, the vector U has
an asymptotic multivariate normal distribution with mean 0 and
covariance A.
So, U has the same asymptotic distribution as AZ, hence, the same asymptotic distribution of
X2=UTU is the same as the distribution of ZTATAZ=ZTAZ by the continuous mapping theorem.
But, A is symmetric and idempotent, so (a) it has orthogonal
eigenvectors, (b) all of its eigenvalues are 0 or 1, and (c)
the multiplicity of the eigenvalue of 1 is rank(A). This means that A can be decomposed as A=QDQT where Q is orthogonal and D is a diagonal matrix with rank(A) ones on the diagonal and the remaining diagonal entries being zero.
Thus, ZTAZ must be χ2k−1 distributed since
A has rank k−1 in our case.
Other connections
The chi-square statistic is also closely related to likelihood ratio
statistics. Indeed, it is a Rao score statistic and can be viewed as a
Taylor-series approximation of the likelihood ratio statistic.
References
This is my own development based on experience, but obviously influenced by classical texts. Good places to look to learn more are
- G. A. F. Seber and A. J. Lee (2003), Linear Regression Analysis, 2nd ed., Wiley.
- E. Lehmann and J. Romano (2005), Testing Statistical Hypotheses, 3rd ed., Springer. Section 14.3 in particular.
- D. R. Cox and D. V. Hinkley (1979), Theoretical Statistics, Chapman and Hall.