কোভেরিয়েন্স অনুমানের ডিনোমিনিটারটি এন -1 এর পরিবর্তে এন -2 হওয়া উচিত নয় কেন?


36

(নিরপেক্ষ) ভেরিয়েন্স অনুমানের ডিনোমেনেটর হ'ল সেখানে পর্যবেক্ষণ রয়েছে এবং কেবলমাত্র একটি পরামিতি অনুমান করা হচ্ছে।এনn1n

V(X)=i=1n(XiX¯)2n1

একই টোকেন দিয়ে আমি ভাবছি যে যখন দুটি পরামিতি অনুমান করা হচ্ছে তখন কেন কোভারিয়েন্সের ডিনোমিনিটারটি হওয়া উচিত নয় ?n2

Cov(X,Y)=i=1n(XiX¯)(YiY¯)n1

15
যদি আপনি এটি করেন, আপনার বৈকল্পিকতার জন্য দুটি দ্বন্দ্বপূর্ণ সংজ্ঞা থাকবে: একটি হ'ল প্রথম সূত্র এবং অন্যটি হবে সাথে প্রয়োগ করা দ্বিতীয় সূত্র । Y=X
whuber

3
একটি দ্বি / মাল্টিভারিয়েট গড় (প্রত্যাশা) এক, 2 পরামিতি নয়।
ttnphns

14
@ttnphns এটি সত্য নয়: দ্বিপরিচালিত গড়টি অবশ্যই দুটি পরামিতি কারণ এটি প্রকাশের জন্য এটিতে দুটি বাস্তব সংখ্যা প্রয়োজন requires (প্রকৃতপক্ষে এটি একটি একক ভেক্টর প্যারামিটার, তবে এটি বলার ফলে এটির দুটি উপাদান রয়েছে কেবল তা ছদ্মবেশ ধারণ করে)) এটি পুল-ভেরিয়েন্স টি-পরীক্ষার জন্য স্বাধীনতার ডিগ্রিতে স্পষ্টভাবে প্রদর্শিত হয়, উদাহরণস্বরূপ, যেখানে বিয়োগ করা হয়, 1 নয় । এই প্রশ্নটি সম্পর্কে আকর্ষণীয় বিষয়টি হ'ল এটি কীভাবে অস্পষ্ট, অযৌক্তিক এবং সম্ভাব্য বিভ্রান্তিকর সেই সাধারণ "ব্যাখ্যা" যা আমরা n থেকে 1 বিয়োগ করি কারণ একটি প্যারামিটার অনুমান করা হয়েছে। 211n
whuber

@ হুবুহু, আপনি ঠিক এই মুহূর্তে। যদি এটি শুধুমাত্র (স্বতন্ত্র পর্যবেক্ষণ) থাকে তবে আমরা অবিবাহিত পরীক্ষাগুলির চেয়ে বহুগুণ পরীক্ষায় বেশি ডিএফ ব্যয় করব না। n
ttnphns

3
@ ভুবার: আমি সম্ভবত বলব যে এটি দেখায় যে "পরামিতি" হিসাবে গণনা করা পরিস্থিতিটির উপর নির্ভর করে। এক্ষেত্রে ভেরিয়েন্সটিকে এন পর্যবেক্ষণগুলির মধ্যে গণনা করা হয়n এবং তাই প্রতিটি পর্যবেক্ষণ - বা মোট গড় - একটি প্যারামিটার হিসাবে দেখা যায়, যদিও এটি মাল্টিভারিয়েট গড় হয়, যেমন টিটিএনফান্স বলেছে। যাইহোক, অন্যান্য ক্ষেত্রে যখন উদাহরণস্বরূপ একটি পরীক্ষা মাত্রার লিনিয়ার সংমিশ্রণ বিবেচনা করে, প্রতিটি পর্যবেক্ষণের প্রতিটি মাত্রা "প্যারামিটার" হয়ে যায় becomes আপনি ঠিক বলেছেন যে এটি একটি জটিল সমস্যা।
অ্যামিবা বলেছেন 21

উত্তর:


31

কোভেরিয়েন্সগুলি বিভিন্ন রূপ।

যেহেতু মেরুকরণ পরিচয় দ্বারা

Cov(X,Y)=Var(X+Y2)Var(XY2),

ডিনোমিনেটরদের অবশ্যই একই হতে হবে।


20

একটি বিশেষ ক্ষেত্রে আপনাকে অন্তর্দৃষ্টি দেওয়া উচিত; নিম্নলিখিত সম্পর্কে চিন্তা করুন:

Cov^(X,X)=V^(X)

আপনি খুশি যে পরেরটি বেসেল সংশোধনের কারণে।i=1n(XiX¯)2n1

কিন্তু প্রতিস্থাপন দ্বারা এক্স মধ্যে ^ সি বনাম ( এক্স , ওয়াই ) সাবেক জন্য দেয় Σ এন আমি = 1 ( এক্স আমি - ¯ এক্স ) ( এক্স আমি - ¯ এক্স )YXCov^(X,Y) , এখন আপনি কী মনে করেন সবচেয়ে ভাল খালিটি পূরণ করতে পারে?i=1n(XiX¯)(XiX¯)mystery denominator


1
ঠিক আছে. তবে ওপি জিজ্ঞাসা করতে পারে "কোভ (এক্স, এক্স) এবং কোভ (এক্স, ওয়াই) কে যুক্তির এক লাইনে কেন বিবেচনা করবেন? আপনি কেন Y এর পরিবর্তে কোভ () এ কোয়ার্টে স্থান নিচ্ছেন? কোভ (এক্স, ওয়াই) আলাদা পরিস্থিতি কি? " আপনি তা
এড়ান

7

একটি দ্রুত এবং ময়লা উত্তর ... প্রথম বিবেচনা করা যাক ; যদি আপনি ছিল এন পর্যবেক্ষণ পরিচিত প্রত্যাশিত মান সঙ্গে ( এক্স ) = 0 আপনি ব্যবহার করেন 1var(X)n E(X)=0 প্রকরণটি অনুমান করতে।1ni=1nXi2

প্রত্যাশিত মান হচ্ছে অজানা, আপনি আপনার রুপান্তর করতে পারেন পর্যবেক্ষণ মধ্যে এন - 1 পরিচিত প্রত্যাশিত মান সঙ্গে পর্যবেক্ষণ গ্রহণ করে একজন আমি = এক্স আমি - এক্স 1 জন্য আমি = 2 , ... , এন । ডিনোমিনেটরে একটি এন - 1 দিয়ে আপনি একটি সূত্র পাবেন - তবে আমি স্বাধীন নই এবং আপনাকে এটি বিবেচনায় নিতে হবে; শেষে আপনি সাধারণ সূত্রটি খুঁজে পাবেন।nn1Ai=XiX1i=2,,nn1Ai

এখন সহভেদাংক জন্য আপনাকে একই ধারণা ব্যবহার করতে পারেন: যদি প্রত্যাশিত মান ছিল ( 0 , 0 ) , আপনি একটি ছিল চাই 1(X,Y)(0,0)সূত্রে এন । অন্যান্য সমস্ত পর্যবেক্ষণকৃত মানগুলিতে(এক্স1,ওয়াই1)বিয়োগ করেআপনিপরিচিত প্রত্যাশিত মান সহn-1 টিপর্যবেক্ষণ পাবেন ... এবং একটি11n(X1,Y1)n1সূত্রের n - 1 - আবারও, এটি বিবেচনায় নেওয়ার জন্য কিছুটা নির্ভরশীলতার পরিচয় দেয়।1n1

দ্রষ্টব্য যে কাজ করতে পরিচ্ছন্ন উপায় একটি orthonormal ভিত্তিতে নির্বাচন হয় হলো, এন - 1 ভেক্টর 1 , ... , N - 1আর এন যেমন যে(1,,1)n1c1,,cn1Rn

  • সকলের জন্য আমি ,jcij2=1i
  • আমি সকলের জন্য,jcij=0i
  • সকলের জন্য আমি 1আমি 2jci1jci2j=0i1i2

তারপরে আপনি ভেরিয়েবলগুলি A i = j c i j X j এবং B i = j c i j Y j সংজ্ঞায়িত করতে পারেন । ( একটি আমি , বি আমি ) স্বাধীন, প্রত্যাশিত আছে মান ( 0 , 0 ) এবং মূল ভেরিয়েবল চেয়ে একই ভ্যারিয়েন্স / সহভেদাংক আছে।n1Ai=jcijXjBi=jcijYj(Ai,Bi)(0,0)

সমস্ত বিষয় হ'ল আপনি যদি অজানা প্রত্যাশা থেকে মুক্তি পেতে চান তবে আপনি একটি (এবং শুধুমাত্র একটি) পর্যবেক্ষণ বাদ দিন। এটি উভয় ক্ষেত্রে একই কাজ করে।


6

Here is a proof that the p-variate sample covariance estimator with denominator 1n1 is an unbiased estimator of the covariance matrix:

x=(x1,...,xp).

Σ=E((xμ)(xμ))

S=1n(xix¯)(xix¯)

To show: E(S)=n1nΣ

Proof: S=1nxixix¯x¯

Next:

E(xixi)=Σ+μμ

E(x¯x¯)=1nΣ+μμ

E(S)=Σ+μμ(1nΣ+μμ)=n1nΣ

Su=nn1S, with the final denominator 1n1, is unbiased. The off-diagonal elements of Su are your individual sample covariances.

Additional remarks:

  1. The n draws are independent. This is used in (2) to calculate the covariance of the sample mean.

  2. Step (1) and (2) use the fact that Cov(x)=E[xx]μμ

  3. Step (2) uses the fact that Cov(x¯)=1nΣ


The difficulty being in step 2 ! :)
Elvis

@Elvis It's messy. One needs to apply the rule Cov(X+Y,Z)=Cov(X,Z) + Cov(Y,Z) and recognize that the different draws are independent. Then it's basically summing up the covariance n times and scaling it down by 1/n²
statchrist

4

I guess one way to build intuition behind using 'n-1' and not 'n-2' is - that for calculating co-variance we do not need to de-mean both X and Y, but either of the two, i.e.


Could you elaborate on how this bears on the question of what denominator to use? The algebraic relation in evidence derives from the fact that the residuals relative to the mean sum to zero, but otherwise is silent about which denominator is relevant.
whuber

5
I came here because I had the same question as the OP. I think this answer gets at the nub of the point @whuber pointed out above: that the rule of thumb is that df ~= n - (parameters estimated) can be "vague, unrigorous, and potentially misleading." This points out the fact that though it looks like you need to estimate two parameters (xbar and ybar), you really only estimate one (xbar or ybar). Since the df should be the same in both cases, it must be the lower of the two. I think that is the intent here.
mpettis

1

1) Start df=2n.

2) Sample covariance is proportional to Σi=1n(XiX¯)(YiY¯). Lose two df; one from X¯, one from Y¯ resulting in df=2(n1).

3) However, Σi=1n(XiX¯)(YiY¯) only contains n separate terms, one from each product. When two numbers are multiplied together the independent information from each separate number disappears.

As a trite example, consider that

24=124=212=38=46=64=83=122=241,

and that does not include irrationals and fractions, e.g. 24=2626, so that when we multiply two number series together and examine their product, all we see are the df=n1 from one number series, as we have lost half of the original information, that is, what those two numbers were before the pair-wise grouping into one number (i.e., multiplication) was performed.

In other words, without loss of generality we can write

(XiX¯)(YiY¯)=ziz¯ for some zi and z¯,

i.e., zi=XiYiX¯YiXiY¯, and, z¯=X¯Y¯. From the z's, which then clearly have df=n1, the covariance formula becomes

Σi=1nziz¯n1=

Σi=1n[(XiX¯)(YiY¯)]n1=

1n1Σi=1n(XiX¯)(YiY¯).

Thus, the answer to the question is that the df are halved by grouping.


@whuber How on earth did I get the same thing posted twice and deleted once? What gives? Can we get rid of one of them? For future reference, is there any way to permanently delete such duplicates? I have a few hanging around and it's annoying.
Carl

As far as I can tell, you reposted your answer from the duplicate to here. (Nobody else has the power to post answers in your name.) The system strongly discourages posting identical answers in multiple threads, so when I saw that, it convinced me these two threads are perfect duplicates and I "merged" them. This is a procedure that moves all comments and answers from the source thread to the target thread. I then deleted your duplicate post here in the target thread. It will remain permanently deleted, but will be visible to you as well as to people of sufficiently high reputation.
whuber

@whuber I didn't know what happens in a merge, that a merge was taking place or what many of the rules are, despite looking things up constantly. It takes time to learn, be patient, BTW, would you consider taking stats.stackexchange.com/questions/251700/… off of Hold?
Carl
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.