কেন্দ্রীকরণ মানে কি covariance হ্রাস?


11

ধরে নিচ্ছি আমার কাছে দুটি স্বতঃস্ফূর্ত র্যান্ডম ভেরিয়েবল রয়েছে এবং আমি খুব বেশি "সিগন্যাল" না ছাড়াই তাদের মধ্যে যতটা সম্ভব সাম্প্রদায়িকতা হ্রাস করতে চাই, কেন সহায়তা কেন্দ্রিক? আমি কোথাও পড়েছি যার অর্থ কেন্দ্রীভূতকরণ একটি উল্লেখযোগ্য ফ্যাক্টর দ্বারা পারস্পরিক সম্পর্ক হ্রাস করে, তাই আমি ভাবছি যে এটি সম্প্রচারের জন্য একই করা উচিত।

উত্তর:


30

যদি X এবং Y এলোমেলো ভেরিয়েবল হয় এবং a এবং b ধ্রুবক হয় তবে

Cov(X+a,Y+b)=E[(X+aE[X+a])(Y+bE[Y+b])]=E[(X+aE[X]E[a])(Y+bE[Y]E[b])]=E[(X+aE[X]a)(Y+bE[Y]b)]=E[(XE[X])(Y[ওয়াই])]=Cov(এক্স,ওয়াই)
কেন্দ্রবিন্দু হ'ল বিশেষ ক্ষেত্রএকটি=-[এক্স]এবং=-[ওয়াই], সুতরাং কেন্দ্রিককরণ সমবায়কে প্রভাবিত করে না।


এছাড়াও, যেহেতু পারস্পরিক সম্পর্ককে করর ( এক্স , ওয়াই ) = কোভ ( এক্স , ওয়াই ) হিসাবে সংজ্ঞায়িত করা হয়েছে

Corr(এক্স,ওয়াই)=Cov(এক্স,ওয়াই)var(এক্স)var(ওয়াই),
আমরা দেখতে পাব যে
Corr(এক্স+ +একটি,ওয়াই+ +)=Cov(এক্স+ +একটি,ওয়াই+ +)var(এক্স+ +একটি)var(ওয়াই+ +)=Cov(এক্স,ওয়াই)var(এক্স)var(ওয়াই),
সুতরাং বিশেষত, পারস্পরিক সম্পর্ক কোনওটি কেন্দ্র করে প্রভাবিত হয় না।


এটি ছিল গল্পের জনসংখ্যা সংস্করণ। নমুনা সংস্করণটি একই: আমরা যদি

Cov^(এক্স,ওয়াই)=1এনΣআমি=1এন(এক্সআমি-1এনΣ=1এনএক্স)(ওয়াইআমি-1এনΣ=1এনওয়াই)
জুড়িযুক্ত নমুনা(এক্স1,ওয়াই1),,(এক্সএন,ওয়াইএন)থেকেএক্সএবংY মধ্যকার সমপরিমাণের অনুমান হিসাবে, তারপর ^ কোভ (এক্স+,ওয়াই+))(X1,Y1),,(Xn,Yn)
Cov^(X+a,Y+b)=1ni=1n(Xi+a1nj=1n(Xj+a))(Yi+b1nj=1n(Yj+b))=1ni=1n(Xi+a1nj=1nXjnna)(Yi+b1nj=1nYjnnb)=1ni=1n(Xi1nj=1nXj)(Yi1nj=1nYj)=Cov^(X,Y)
for any a and b.


thanks for the detailed answer. Does it mean that for sample covariance the sample size doesn't have any impact either? i.e. reducing the sample size does not reduce the sample covariance?
lvdp

3
@lvdp That should probably be a separate question.
Acccumulation

A reduced sample size can only come with a different sample. A different sample could show different covariance, therefore. But as sample covariance is defined as an average, sample size is scaled for in principle.
Nick Cox

5

The definition of the covariance of X and Y is E[(XE[X])(YE[Y])]. The expression XE[X] in that formula is the centered version of X. So we already center X when we take the covariance, and centering is an idempotent operator; once a variable is centered, applying the centering process further times doesn't change it. If the formula didn't take the centered versions of the variables, then there would all sort of weird effects, such as the covariance between temperature and another variable being different depending on whether we measure temperature in Celsius or Kelvin.


3

"somewhere" tends to be a rather unreliable source...

Covariance/correlation are defined with explicit centering. If you don't center the data, then you are not computing covariance/correlation. (Precisely: Pearson correlation)

The main difference is whether you center based on a theoretical model (e.g., the expected value is supposed to be exactly 0) or based on the data (arithmetic mean). It is easy to see that the arithmetic mean will yield smaller Covariance than any different center.

যাইহোক, ছোট সমবায়ুতা আরও ছোট পারস্পরিক সম্পর্ক বা বিপরীত বোঝায় না। ধরে নিন যে আমাদের কাছে এক্স = (1,2) এবং ওয়াই = (2,1) ডেটা রয়েছে। এটি সহজেই দেখতে পাওয়া যায় যে পাটিগণিতের গড় কেন্দ্রিককরণের সাথে এটি পুরোপুরি নেতিবাচক পারস্পরিক সম্পর্ক অর্জন করবে, যখন আমরা যদি জানি যে উত্পাদন প্রক্রিয়া গড়ে গড়ে 0 উত্পাদন করে তবে ডেটা আসলে ইতিবাচকভাবে সম্পর্কিত হয়। সুতরাং এই উদাহরণে, আমরা কেন্দ্রিক - তবে 0 এর তাত্ত্বিক প্রত্যাশিত মান সহ।

এটি সহজেই উত্থিত হতে পারে। বিবেচনা করুন আমাদের কাছে একটি সেন্সর অ্যারে, 11x11 রয়েছে, যার সাথে -5 থেকে +5 নম্বর রয়েছে cells গাণিতিক গড় গ্রহণের পরিবর্তে, সেন্সর ইভেন্টগুলির পারস্পরিক সম্পর্ক খোঁজার জন্য এখানে আমাদের সেন্সর অ্যারের "শারীরিক" গড়টি ব্যবহার করা বোধগম্য হবে (যদি আমরা 0 থেকে 10 কোষগুলিকে গণনা করি তবে আমরা 5 টি স্থির গড় হিসাবে ব্যবহার করব, এবং আমরা ঠিক একই ফলাফল পেতে পারি, যাতে সূচক পছন্দ বিশ্লেষণ থেকে অদৃশ্য হয়ে যায় - চমৎকার)।


ধন্যবাদ @ অ্যানি-মউস, নমুনা সমবায় কী নমুনার আকারের উপর নির্ভর করবে? উদাহরণস্বরূপ, ছোট আকারের নমুনার আকারটি আরও ছোট ছোট সমবায় উৎপন্ন করবে (কেন্দ্র করার আগে)।
lvdp

1
স্পষ্টতই নমুনার উপর নির্ভর করে। গড় - আমি জানি না। আমি ছোট নমুনাগুলি বেশিরভাগ ক্ষেত্রে আরও বেশি পরিবর্তনশীল হওয়ার প্রত্যাশা করতাম, তাই সম্ভবত প্রায়শই চরম মান হয়। তবে এটি কেবল স্বজ্ঞাততা।
কিট আছে - অ্যানি-মৌসে
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.