চি-স্কোয়ার পরীক্ষা কেন প্রত্যাশিত গণনাটিকে বৈকল্পিক হিসাবে ব্যবহার করে?


18

ইন χ2 টেস্টিং, স্বাভাবিক ডিস্ট্রিবিউশন প্রতিটি স্ট্যান্ডার্ড ডেভিয়েশন (অর্থাত প্রত্যাশিত গন্য ভেরিয়ানস হিসাবে) যেমন প্রত্যাশিত গন্য বর্গমূল ব্যবহার করার জন্য ভিত্তি কি? আমি কেবল এই বিষয়ে আলোচনা করতে পেলাম কেবলমাত্র http://www.physics.csbsju.edu/stats/chi-square.html এবং এটি কেবল পোইসন বিতরণের উল্লেখ করেছে।

আমার বিভ্রান্তির একটি সাধারণ চিত্র হিসাবে, যদি আমরা পরীক্ষা করে যাচ্ছিলাম যে দুটি প্রক্রিয়া উল্লেখযোগ্যভাবে পৃথক কিনা, একটি যা খুব ছোট বৈচিত্র সহ 500 এএস এবং 500 বিএস উত্পন্ন করে এবং অন্যটি 550 এএস এবং 450 বিএস খুব ছোট বৈকল্পিক দিয়ে উত্পন্ন করে (খুব কমই উত্পন্ন হয়) 551 হিসাবে এবং 449 বিএস)? এখানে বৈকল্পিক স্পষ্টভাবে কেবল প্রত্যাশিত মান নয়?

(আমি কোনও পরিসংখ্যানবিদ নই, তাই অ-বিশেষজ্ঞের কাছে অ্যাক্সেসযোগ্য এমন উত্তরটি সত্যিই সন্ধান করছি))


এটি সম্ভবত ঘটনা এই যে কোনো ভ্যারিয়েন্স সঙ্গে কি কিছু আছে χk2 র্যান্ডম পরিবর্তনশীল 2k এবং সত্য যে পরিসংখ্যাত সঠিক বন্টন (সম্ভাবনা অনুপাত পরীক্ষা হিসাবে) আছে 2 দ্বারা গুন করতে হবে না। সম্ভবত কেউ এ সম্পর্কে আরও আনুষ্ঠানিকভাবে জানেন।
ম্যাক্রো

উত্তর:


16

অনেক পরীক্ষার পরিসংখ্যানের জন্য সাধারণ ফর্ম

observedexpectedstandarderror

একটি সাধারণ ভেরিয়েবলের ক্ষেত্রে স্ট্যান্ডার্ড ত্রুটি হয় পরিচিত জনসংখ্যার বৈচিত্র (জেড-স্ট্যাটাস) বা নমুনা (টি-স্ট্যাটাস) থেকে প্রাপ্ত প্রাক্কলনের উপর ভিত্তি করে। দ্বিপদী সঙ্গে মান ত্রুটি অনুপাতের উপর ভিত্তি করে (পরীক্ষার জন্য অনুমানযুক্ত অনুপাত)।

একটি জরুরী টেবিলে প্রতিটি কক্ষের গণনাটি পোয়েসন বিতরণ থেকে প্রত্যাশিত মানের সমান গড় (শূন্যের নীচে) সমান হিসাবে বিবেচনা করা যেতে পারে। পোইসন বিতরণের জন্য বৈকল্পিক গড়ের সমান, তাই আমরা স্ট্যান্ডার্ড ত্রুটি গণনার জন্যও প্রত্যাশিত মানটি ব্যবহার করি। আমি এমন একটি পরিসংখ্যান দেখেছি যা পরিবর্তে পর্যবেক্ষণগুলি ব্যবহার করে তবে এটিতে তাত্ত্বিক ন্যায়সঙ্গততা কম রয়েছে এবং এটি বিতরণে রূপান্তরিত করে না ।χ2


1
আমি পইসনের সাথে সংযোগে আটকে যাচ্ছি / বুঝতে পারছি কেন প্রতিটি কক্ষ একটি পইসন থেকে আগত বলে মনে করা যেতে পারে। আমি পয়েসনের গড় / বৈচিত্রটি জানি এবং আমি জানি যে তারা একটি হার দেওয়া ইভেন্টের সংখ্যাকে উপস্থাপন করে। আমি আরও জানি যে চি-স্কোয়ার বিতরণগুলি স্ট্যান্ডার্ড (ভেরিয়েন্স 1) নরমালগুলির বর্গের যোগফলকে উপস্থাপন করে। আমি কেবলমাত্র প্রতিটি সাধারণের "স্প্রেড" এর অনুমান হিসাবে প্রত্যাশিত মানটিকে পুনরায় ব্যবহারের ন্যায্যতার চারপাশে আমার মাথা গুটিয়ে দেওয়ার চেষ্টা করছি। এটি কি সবকিছুকে চি-বর্গ বিতরণের সাথে "মান-আইজ" নরমাল অনুসারে তৈরি করতে হয়?
ইয়াং

3
কয়েকটি বিষয় আছে, যখন বিষয়গুলি মোটামুটি স্বতন্ত্র থাকে তখন পইসন বিতরণ গণনাগুলির পক্ষে সাধারণ। একটি নির্দিষ্ট মোট হিসাবে টেবিলটি চিন্তা করার পরিবর্তে এবং আপনি টেবিলের কোষগুলির মধ্যে মানগুলি বিতরণ করছেন, টেবিলের কেবল একটি ঘর সম্পর্কে চিন্তা করুন এবং সেই ঘরের মধ্যে কতগুলি প্রতিক্রিয়া আসে তা দেখার জন্য আপনি একটি নির্দিষ্ট সময়ের জন্য অপেক্ষা করছেন এটি পয়েসনের সাধারণ ধারণার সাথে খাপ খায়। বৃহত্তর উপায়ে আপনি একটি সাধারণ বিতরণ দিয়ে একটি পয়সন আনুমানিক করতে পারেন, তাই পরীক্ষার পরিসংখ্যানগুলি পোইসনের সাথে একটি সাধারণ অনুমান হিসাবে বিবেচনা করে, তারপরে রূপান্তর করে । χ2
গ্রেগ তুষার

1
(+1) ধরুন কক্ষটি গণনা করেছে, যার অর্থ n π i সহ স্বাধীন পোইসন র্যান্ডম ভেরিয়েবল ছিল । তারপরে, অবশ্যই, k i = 1 ( X i - n π i ) 2Xi,,Xknπi বিতরণ। তবে, এর সাথে সমস্যা হ'লএনএকটিপ্যারামিটারএবং প্রকৃত পর্যবেক্ষণ গণনা নয়। মোট পর্যবেক্ষণের গণনাগুলি হলN= k i = 1 XiPoi(n)। যদিওএন/এন1প্রায় SLLN দ্বারা নিশ্চয়, কিছু আরো কাজ কিছু কার্যকর মধ্যে অনুসন্ধানমূলক ঘুরে কাজ করতে হবে। i=1k(Xinπi)2nπiχk2nN=i=1kXiPoi(n)N/n1
কার্ডিনাল

আমার বিভ্রান্তির একটি সাধারণ চিত্র হিসাবে, যদি আমরা পরীক্ষা করে যাচ্ছিলাম যে দুটি প্রক্রিয়া উল্লেখযোগ্যভাবে পৃথক কিনা, একটি যা খুব ছোট বৈচিত্র সহ 500 এএস এবং 500 বিএস উত্পন্ন করে এবং অন্যটি 550 এএস এবং 450 বিএস খুব ছোট বৈকল্পিক দিয়ে উত্পন্ন করে (খুব কমই উত্পন্ন হয়) 551 হিসাবে এবং 449 বিএস)? এখানে বৈকল্পিক স্পষ্টভাবে কেবল প্রত্যাশিত মান নয়?
ইয়াং

1
@ ইয়াং: এটি আপনার ডেটা বলে মনে হচ্ছে --- যা আপনি বর্ণনা করেন নি --- চি-স্কোয়ার স্ট্যাটিস্টিক ব্যবহারের অন্তর্নিহিত মডেলটির সাথে খাপ খায় না। মানক মডেলটি বহু-জাতীয় নমুনাগুলির মধ্যে একটি । কড়া কথায় বলতে গেলে, এমনকি (নিঃশর্ত) পোইসন স্যাম্পলিংও আচ্ছাদিত নয়, যা গ্রেগের উত্তর অনুমান করে। আমি আমার পূর্ববর্তী মন্তব্যে এটির (সম্ভবত একটি অবলম্বন) রেফারেন্স করি।
কার্ডিনাল

17

আসুন সর্বাধিক অন্তর্দৃষ্টি সরবরাহ করার চেষ্টা করার জন্য সহজ কেসটি পরিচালনা করি। যাক সঙ্গে একটি বিযুক্ত বন্টন থেকে একটি IID নমুনা হতে ফলাফল। Particular 1 , , π কে প্রতিটি নির্দিষ্ট ফলাফলের সম্ভাবনা হয়ে উঠুক । আমরা চি-স্কোয়ার স্ট্যাটিস্টিক এক্স 2 = কে i = 1 ( এস আই - এন π i ) 2 এর বিতরণ (অ্যাসিপটোটিক) এ আগ্রহী X1,X2,,Xnkπ1,,πk এখানে n π i

X2=i=1k(Sinπi)2nπi.
nπi এর গন্য প্রত্যাশিত নম্বর তম পরিণতি।i

একটি পরামর্শমূলক heuristic

U i = ( S i - n π i ) / Def নির্ধারণ করুন , যাতেএক্স2=iইউ 2 i =ইউ 2 2 যেখানেইউ=(ইউ1,,ইউকে)Ui=(Sinπi)/nπiX2=iUi2=U22U=(U1,,Uk)

যেহেতু হ'ল বি আই এন ( এন , π i ) , তারপরে কেন্দ্রীয় সীমাবদ্ধ উপপাদ্য দ্বারা , টি আই =SiBin(n,πi)

Ti=Ui1πi=Sinπinπi(1πi)dN(0,1),
UidN(0,1πi)

TiiTi2χk2Tk(T1,,Tk1)Ti ভেরিয়েবলগুলি সম্ভবত স্বাধীন হতে পারে না।

UiUχk2 to what is, in fact, a χk12.

Some details on this follow.

A more rigorous treatment

It is not hard to check that, in fact, Cov(Ui,Uj)=πiπj for ij.

So, the covariance of U is

A=IππT,
where π=(π1,,πk). Note that A is symmetric and idempotent, i.e., A=A2=AT. So, in particular, if Z=(Z1,,Zk) has iid standard normal components, then AZN(0,A). (NB The multivariate normal distribution in this case is degenerate.)

Now, by the Multivariate Central Limit Theorem, the vector U has an asymptotic multivariate normal distribution with mean 0 and covariance A.

So, U has the same asymptotic distribution as AZ, hence, the same asymptotic distribution of X2=UTU is the same as the distribution of ZTATAZ=ZTAZ by the continuous mapping theorem.

But, A is symmetric and idempotent, so (a) it has orthogonal eigenvectors, (b) all of its eigenvalues are 0 or 1, and (c) the multiplicity of the eigenvalue of 1 is rank(A). This means that A can be decomposed as A=QDQT where Q is orthogonal and D is a diagonal matrix with rank(A) ones on the diagonal and the remaining diagonal entries being zero.

Thus, ZTAZ must be χk12 distributed since A has rank k1 in our case.

Other connections

The chi-square statistic is also closely related to likelihood ratio statistics. Indeed, it is a Rao score statistic and can be viewed as a Taylor-series approximation of the likelihood ratio statistic.

References

This is my own development based on experience, but obviously influenced by classical texts. Good places to look to learn more are

  1. G. A. F. Seber and A. J. Lee (2003), Linear Regression Analysis, 2nd ed., Wiley.
  2. E. Lehmann and J. Romano (2005), Testing Statistical Hypotheses, 3rd ed., Springer. Section 14.3 in particular.
  3. D. R. Cox and D. V. Hinkley (1979), Theoretical Statistics, Chapman and Hall.

(+1) I think it is hard to find this proof in standard categorical data analysis texts like Agresti, A. (2002). Categorical Data Analysis. John-Wiley.
suncoolsu

Thanks for the comment. I know there is some treatment of the chi-squared statistic in Agresti, but don't recall how far he takes it. He may just appeal to the asymptotic equivalence with the likelihood ratio statistic.
cardinal

I don't know if you'll find the proof above in any text. I haven't seen the use of the full (degenerate) covariance matrix and its properties elsewhere. The usual treatment looks at the (nondegenerate) distribution of the first k1 coordinates and then uses the inverse covariance matrix (which has a nice form, but one which is not immediately obvious) and some (somewhat) tedious algebra to establish the result.
cardinal

Your answer begins by defining a set of X's but then defines the statistic in terms of S's. Can you include something in the answer that indicates how the variables you define at the start and the variables in the statistic are related?
Glen_b -Reinstate Monica
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.