কোভারিয়েন্স ম্যাট্রিক্স থেকে "বৈকল্পিকতা" একটি পরিমাপ?


17

যদি ডেটা 1 ডি হয়, ভেরিয়েন্সটি দেখায় যে পরিমাণে ডেটা পয়েন্টগুলি একে অপরের থেকে আলাদা। যদি ডেটা বহুমাত্রিক হয় তবে আমরা একটি সমবায় ম্যাট্রিক্স পাব।

মাল্টি-ডাইমেনশনাল ডেটার জন্য কীভাবে ডেটা পয়েন্টগুলি একে অপরের থেকে পৃথক হয় তার একক সংখ্যা দেয় এমন কোনও পরিমাপ রয়েছে?

আমি মনে করি ইতিমধ্যে অনেকগুলি সমাধান হতে পারে তবে আমি তাদের সম্পর্কে অনুসন্ধানের জন্য সঠিক শব্দটি ব্যবহার করার বিষয়ে নিশ্চিত নই।

সম্ভবত আমি কোভেরিয়েন্স ম্যাট্রিক্সের ইগেনভ্যালুগুলি যুক্ত করার মতো কিছু করতে পারি, এটি কি বোধগম্য?


2
কোভেরিয়েন্স ম্যাট্রিক্স নির্ধারণকারী। আমি শীঘ্রই আরও একটি উত্তর পোস্ট পোস্ট করব।
ব্যবহারকারী 60

5
ট্রেস খুব প্রায়ই ব্যবহৃত হয়। পিসিএ যেমন, প্রতিটি উপাদান দ্বারা ব্যাখ্যা করা বৈকল্পিক ভগ্নাংশটি "মোট বৈকল্পিক" এর একটি ভগ্নাংশ যা কোভারিয়েন্স ম্যাট্রিক্সের ট্রেস হিসাবে সংজ্ঞায়িত করা হয়। @ ইউজার 603 আপনার উত্তরের অপেক্ষায় আছে।
অ্যামিবা বলছেন 22

2
adding up the eigenvalues of the covariance matrixঠিক উপরে উল্লিখিত ট্রেস অ্যামিবার সমান।
ttnphns

পরিমাপটি কী / ব্যবহার করা হবে?
হ্যালো গুডবাই

@ হেলো গুডবি হাই হাই আমার কাছে লেবেলগুলির সাথে কিছু [শোরগোলের] ডেটা রয়েছে এবং আমি আগে থেকেই ধরে নিয়েছি যে একই বিভাগের মধ্যে [সত্য] ডেটা পয়েন্টগুলি খুব আলাদা হওয়া উচিত নয়। আমি প্রতিটি বিভাগের মধ্যে ডেটা পয়েন্টের ডিফারেন্সের ডিগ্রিটি পরিমাপ করার একটি উপায় অনুসন্ধান করছি, যাতে আমি প্রতিটি বিভাগের জন্য ডেটা কত গোলমাল তা একটি ধারণা পেতে পারি।

উত্তর:


16

(নীচের উত্তরটি কেবলমাত্র [0]-তে প্রমাণিত উপপাদ্যকে পরিচয় করিয়েছে এবং জানিয়েছে সবমিলিয়ে, আসল উত্সটি পরীক্ষা করুন)।

যে কোনও পরিস্থিতিতে যেখানে ডেটার মাল্টিভারিয়েট প্যাটার্ন k ভেরিয়েট উপবৃত্তাকারী বিতরণ দ্বারা বর্ণনা করা যেতে পারে , পরিসংখ্যান অনুসারে পরিসংখ্যান অনুসারে ফিটিংয়ের সমস্যা (এবং বৈশিষ্ট্যযুক্তকরণ) k ভেরিয়েট অবস্থান ভেক্টর (বলুন θ ) এবং k দ্বারা কেটে যাবে k প্রতিসাম্য আধা-পজিটিভ নির্দিষ্ট ম্যাট্রিক্স (বলুন Σ ) ডেটা। কারণে আমি নীচে ব্যাখ্যা (কিন্তু যা আপনি ইতিমধ্যে প্রাঙ্গনে যেমন অনুমান) এটা প্রায়ই আরও বেশি অর্থবহ পচা হবে Σ একটি আকৃতি উপাদান (হিসাবে একই আকারের একটি SPSD ম্যাট্রিক্স মধ্যে Σ ) আপনার বহুচলকীয় বন্টন ঘনত্ব contours এবং আকৃতি হিসাববিদ্যা এবং একটি স্কেলারσS এই আকারের স্কেল প্রকাশ।

অদ্বিতীয় ডেটাতে ( ), , আপনার ডেটার কোভেরিয়েন্স ম্যাট্রিক্স একটি স্কেলার এবং নীচের আলোচনার পরে অনুসরণ করবে, আকারের আকার 1 যাতে সমান হয় এর স্কেল উপাদান সর্বদা এবং কোনও অস্পষ্টতা সম্ভব নয়।Σ Σ Σ Σ = σ এসk=1ΣΣΣΣ=σS

মাল্টিভিয়ারেট ডেটাতে, স্কেলিং ফাংশনগুলির অনেক পছন্দ সম্ভব। বিশেষত একজন ( ) একটি কী আকাঙ্ক্ষিত । এটি উপবৃত্তাকারী পরিবারগুলির প্রসঙ্গে স্কেলিং ফ্যাক্টরের পছন্দসই পছন্দ করে তোলে।σ এস = | ΣσSσS=|ΣΣ|1/k


এমভি পরিসংখ্যানে অনেক সমস্যা, একটি ছিটান ম্যাট্রিক্স প্রাক্কলন জড়িত একটি ফাংশন (AL) হিসাবে সংজ্ঞায়িত করা মধ্যে প্রতিসম আধা ইতিবাচক নির্দিষ্ট আর × এবং পরিতৃপ্ত:ΣRk×k

(জন্য অ একবচন ম্যাট্রিক্স একটি এবং ভেক্টর )। উদাহরণস্বরূপ কোভেরিয়েন্সের শাস্ত্রীয় অনুমানটি সন্তুষ্ট করে (0) তবে এটি কোনওভাবেই একমাত্র নয়।

(0)Σ(AX+b)=AΣ(X)A
Ab

উপবৃত্তাকারে বিতরণ করা তথ্যের উপস্থিতিতে, যেখানে সমস্ত ঘনত্বের রূপগুলি একই আকারের ম্যাট্রিক্স দ্বারা বর্ণিত উপবৃত্তাকার হয়, কোনও স্কেলারের দ্বারা বহুগুণ পর্যন্ত, ফর্মের এর স্বাভাবিক সংস্করণগুলি বিবেচনা করা স্বাভাবিক :Σ

VS=Σ/S(Σ)

যেখানে হ'ল 1-সম্মানজনক কার্য সন্তোষজনক:S

(1)S(λΣ)=λS(Σ)

সব জন্য । তারপরে, ভি এসকে স্ক্যাটার ম্যাট্রিক্সের (শর্ট শেপ ম্যাট্রিক্সের) আকার এবং কে স্ক্যাটার ম্যাট্রিক্সের স্কেল উপাদান বলা হয়। মাল্টিভারিয়েট অনুমানের সমস্যার উদাহরণ যেখানে ক্ষতির ক্রিয়াটি কেবলমাত্র তার আকৃতির উপাদানটির মাধ্যমে উপর নির্ভর করে মধ্যে , পিসিএ এবং সিসিএ পরীক্ষার অন্তর্ভুক্ত।λ>0VSΣ ভী এসσS=S1/2(Σ)ΣVS

অবশ্যই, অনেকগুলি সম্ভাব্য স্কেলিং ফাংশন রয়েছে তাই এটি এখনও সাধারণকরণের ফাংশন এর কয়েকটি পছন্দগুলির মধ্যে কোনটি (যদি কোনও হয়) কিছুটা অনুকূল থাকে তবে এই প্রশ্নটি উন্মুক্ত করে দেয় । উদাহরণ স্বরূপ:S

  • S=tr(Σ)/k (উদাহরণস্বরূপ, ওপি-র প্রশ্নের নীচের মন্তব্যে @ অ্যামিবা প্রস্তাবিত একটি। এছাড়াও দেখুন [1], [2], [3])
  • S=|Σ|1/k ([4], [5], [6], [7], [8])
  • Σ11 (কোভেরিয়েন্স ম্যাট্রিক্সের প্রথম এন্ট্রি)
  • Σλ1(Σ) ( প্রথম )Σ

তবে, the একমাত্র স্কেলিং ফাংশন, যার জন্য স্থানীয়ভাবে asympototically স্বাভাবিক পরিবারগুলিতে স্কেল এবং আকারের সম্পর্কিত অনুমানের জন্য ফিশার ইনফরমেশন ম্যাট্রিক্স হ'ল ব্লক তির্যক (এটি স্কেল এবং অনুমানের সমস্যার আকারগুলি asympototically orthogonal) [0]। এর অর্থ, অন্যান্য বিষয়গুলির মধ্যে, স্কেল কার্যকরী এর একমাত্র পছন্দ যার জন্য এর অ স্পেসিফিকেশন কোনও কার্যকারিতা হ্রাস করে না যখন অনুমানের কাজ সম্পাদন করার সময় ।S=|Σ|1/kS=|Σ|1/kSσSVS

আমি সন্তুষ্ট সম্ভাব্য অনেকগুলি পছন্দের (1) যে কোনওটির তুলনামূলক শক্তিশালী অনুকূলতম বৈশিষ্ট্য সম্পর্কে জানি না ।S

  • [0] পাইন্ডাভাইন, ডি।, আকৃতির একটি প্রমিত সংজ্ঞা, পরিসংখ্যান ও সম্ভাবনা পত্র, খণ্ড 78, ইস্যু 14, 1 অক্টোবর 2008, পৃষ্ঠা 2240-2247। সংযুক্ত লিঙ্ক
  • [1] ডাম্বজেন, এল। (1998)। উচ্চ মাত্রায় টাইলারের এম-ক্রিয়াকলাপে, আন। Inst। পরিসংখ্যানবিৎ। ম্যাথ। 50, 471–491।
  • [২] অলিলা, ই।, টিপি হেটম্যানস্পার্গার এবং এইচ। ওজা (2004)। আফাইন সমতুল্য মাল্টিভারিয়েট সাইন পদ্ধতিগুলি। প্রিপ্রিন্ট, জাইভস্কিলা বিশ্ববিদ্যালয় ky
  • [3] টিলার, ডিই (1983)। বিক্ষিপ্ত ম্যাট্রিক্সের দৃust়তা এবং দক্ষতার বৈশিষ্ট্য, বায়োমেটিকার 70, 411–420।
  • [4] ডাম্বজেন, এল।, এবং ডিই টেলার (2005)। কিছু মাল্টিভিয়ারেট এম-ফাংশনালস, স্ক্যান্ডের ভাঙ্গনের বৈশিষ্ট্যগুলিতে। জে স্ট্যাটিস্ট 32, 247–264।
  • [5] হলিন, এম এবং ডি। পাইন্ডাভাইন (২০০৮)। স্ক্যাটারের একজাতীয়তার জন্য সর্বোত্তম র‌্যাঙ্ক ভিত্তিক পরীক্ষাগুলি, আন। পরিসংখ্যান।, উপস্থিত।
  • []] স্যালিবিয়ান-ব্যারেরা, এম।, এস ভ্যান অ্যালস্ট এবং জি। উইলিয়ামস (২০০২)। দ্রুত এবং শক্তিশালী বুটস্ট্র্যাপ, জে আমের এর সাহায্যে মাল্টিভারিয়েট এমএম-অনুমানকারীগুলির ভিত্তিতে প্রধান উপাদানগুলির বিশ্লেষণ। পরিসংখ্যানবিৎ। অ্যাসো। 101, 1198–1211।
  • []] তাসকিনেন, এস। সি। ক্রাউক্স, এ। কঙ্কাইনেন, ই। ওলিলা এবং এইচ। ও জা (2006)। স্ক্যানার এবং শেপ ম্যাট্রিক্সের উপর ভিত্তি করে ক্যানোনিকাল পারস্পরিক সম্পর্ক এবং ভেক্টর অনুমানের প্রভাব ফাংশন এবং দক্ষতা J 97, 359–384।
  • [8] তাতসুওকা, কেএস, এবং ডিই টাইলার (2000)। অযৌক্তিক বিতরণের অধীনে এস-ক্রিয়াকলাপ এবং এম-ক্রিয়াকলাপগুলির স্বতন্ত্রতার বিষয়ে আন। পরিসংখ্যানবিৎ। 28, 1219–1243।

1
এছাড়াও, the স্কেল উপাদানগুলির জন্য একটি অদ্ভুত পছন্দ কারণ এটি ঘূর্ণন-আক্রমণকারী নয় ...Σ11
অ্যামিবা বলেছেন

ইচ্ছাকৃত উত্তরের জন্য ধন্যবাদ! এটা আমার সম্পূর্ণরূপে হতে কিছু সময় লাগতে করব এটা বুঝতে যদিও :)
dontloo

@amoeba: প্রয়োগ এক্সΣ । আমি এক্স ড্রপXX বাকি উত্তরে এক্স কারণ কোনও বিভ্রান্তি সম্ভব নয়। আমি সম্মত একটু কদাকার হয় তাই আমি এখন ব্যবহার Σ ( এক্সXX । আমি আপনার দ্বিতীয় মন্তব্যে একমত। একই টোকেন দ্বারা λ 1 ( Σ ) পুনরুদ্ধারের জন্য আক্রমণাত্মকনয়। এই অর্থে এস এর উপর স্থাপন করা একজাতীয় বাধাখুব কম বার। Σ(XX)λ1(Σ)S
ব্যবহারকারী 60

অপেক্ষা করুন; কেন কেউ স্কেল উপাদানটি পুনরুদ্ধারের জন্য অদম্য হয়ে উঠতে চায় বা আশা করবে ??
অ্যামিবা বলছেন

দুঃখিত, আমি বোঝাতে চাইছি যদি আপনি কে স্কেলিং ফাংশন হিসাবে ব্যবহার করেন তবে ফলাফল আকৃতির ম্যাট্রিক্স পুনরুদ্ধারের সমতুল্য নয়। λ1(Σ)
ব্যবহারকারী 60

11

স্কেলার ভেরিয়েবলের প্রকরণটি তার গড় থেকে পরিবর্তনশীলটির স্কোয়ার বিচ্যুতি হিসাবে সংজ্ঞায়িত হয়:

Var(X)=E[(XE[X])2]

ভেক্টর-মূল্যবান র্যান্ডম ভেরিয়েবলের জন্য একটি স্কেলার-মূল্যবান প্রকরণটির এক সাধারণকরণ ইউক্যালিডিয়ান দূরত্ব হিসাবে বিচ্যুতিটি ব্যাখ্যা করে পাওয়া যায় :

Vars(X)=E[XE[X]22]

এই এক্সপ্রেশন হিসাবে আবার লিখতে পারেন

Vars(X)=E[(XE[X])(XE[X])]=E[i=1n(XiE[Xi])2]=i=1nE[(XiE[Xi])2]=i=1nVar(Xi)=i=1nCii

যেখানে হল কোভেরিয়েন্স ম্যাট্রিক্স। অবশেষে, এটিকে সরল করা যায়C

Vars(X)=tr(C)

যা কোভেরিয়েন্স ম্যাট্রিক্সের ট্রেস


4

যদিও কোভেরিয়েন্স ম্যাট্রিক্স, টিআর (সি) এর ট্রেস আপনাকে মোট বৈকল্পিকের একটি পরিমাপ দেয় তবে এটি ভেরিয়েবলের মধ্যে পারস্পরিক সম্পর্ককে বিবেচনায় নেয় না।

আপনার যদি ভেরিয়েবলগুলি একে অপরের থেকে স্বতন্ত্র থাকে এবং ভেরিয়েবলগুলি খুব বেশি সংযুক্ত থাকে তখন খুব ছোট হয় তবে সামগ্রিক বৈকল্পের একটি পরিমাপের প্রয়োজন হয়, আপনি কোভারিয়েন্স ম্যাট্রিক্সের নির্ধারক ব্যবহার করতে পারেন , | সি |

আরও ভাল স্পষ্টতার জন্য দয়া করে এই নিবন্ধটি দেখুন ।


4

আপনার যদি কেবল একটি নম্বর প্রয়োজন, তবে আমি একটি সমবায় ম্যাট্রিক্সের বৃহত্তম ইগেন মান প্রস্তাব করছি। এটি পিসিএতে প্রথম প্রধান উপাদানটির একটি ব্যাখ্যাযোগ্য বৈকল্পিক। এটি আপনাকে জানায় যে আপনি যদি আপনার ভেক্টরের মাত্রিকতা একটিকে কমিয়ে দেন তবে মোট বৈকল্পিকতা কীভাবে ব্যাখ্যা করা যায়। এই উত্তরটি গণিত এসই তে দেখুন ।

ধারণাটি হ'ল আপনি সমস্ত ভেরিয়েবলকে একটি সিরিজে রৈখিকভাবে একত্রিত করে আপনার ভেক্টরটিকে কেবল একটি মাত্রায় ভেঙেছেন। আপনি 1 ডি সমস্যাটি শেষ করেছেন।

বর্ণিত বৈকল্পিকটি সম্পূর্ণ বৈকল্পিক ক্ষেত্রে% পদে প্রতিবেদন করা যেতে পারে। এক্ষেত্রে সিরিজের মধ্যে অনেক লিনিয়ার পারস্পরিক সম্পর্ক রয়েছে কিনা তা আপনি অবিলম্বে দেখতে পাবেন। কিছু অ্যাপ্লিকেশনগুলিতে এই সংখ্যাটি 80% এবং উচ্চতর হতে পারে, যেমন ফিনান্সে সুদের হার বক্ররেখা। এর অর্থ হ'ল আপনি ভেরিয়েবলের রৈখিক সংমিশ্রণটি তৈরি করতে পারেন যা সমস্ত ভেরিয়েবলের 80 এর বৈকল্পিকতা ব্যাখ্যা করে।


3

H(X)=p(x)logp(x)dx.

p(x)μΣ

H(X)=12log((2πe)ndet(Σ))
where n is the number of dimensions. Since multivariate Gaussian is the distribution that maximizes the differential entropy for given covariance, this formula gives an entropy upper bound for an unknown distribution with a given variance.

And it depends on the determinant of the covariance matrix, as @user603 suggests.


This answer doesn't seem to be in the same spirit as the question. Covariances and variances are properties of any distribution (although they might be infinite or undefined in some cases), whereas this answer focuses on an exceedingly special case of a multivariate Normal distribution. It therefore doesn't apply to most of the situations implicitly envisioned in the question. Could you perhaps elaborate on the sense in which your answer could be construed as providing some useful guidance in the general case where the data aren't necessarily Normal?
whuber

@whuber thanks for the suggestion i guess maybe i should rewrite Gaussian as "the distribution that maximizes the entropy given a variance"? then the result will become some upper bound. what do you think?
dontloo

That sounds like it's going somewhere useful and more general.
whuber

1
I guess there are many ways to skin a cat;). I actually thing the link between your answer and mine are very strong. I have a minor quibble; I think the determinant has some optimality property for the problem you try to solve (and need not just be chosen on grounds of familiarity) and I think these optimality properties extend beyond covariance matrices (they hold for the determinant of whatever scatter functional you happen to chose and there are many out there) and extend beyond the Gaussian distribution (to the whole elliptical family).
user603
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.