মাল্টিভারিয়েট গাউসিয়ান ডেটাগুলির পিসিএ উপাদানগুলি কি পরিসংখ্যানগতভাবে স্বাধীন?


16

যদি পিসিএ উপাদানগুলি (মূল উপাদান বিশ্লেষণে) পরিসংখ্যানগতভাবে স্বতন্ত্র থাকে তবে আমাদের ডেটাগুলি মাল্টিভারেট করে সাধারণত বিতরণ করা হয়? যদি তা হয় তবে কীভাবে এটি প্রদর্শিত / প্রমাণিত হতে পারে?

আমি জিজ্ঞাসা করি কারণ আমি এই পোস্টটি দেখেছি , যেখানে শীর্ষ উত্তরগুলি বলে:

পিসিএ একটি সুস্পষ্ট গাউসীয়ত্ব অনুমান করে না। এটি ডেটাতে বর্ণিত বৈকল্পিককে সর্বাধিকীকরণকারী ইগেনভেেক্টরগুলি সন্ধান করে। প্রধান উপাদানগুলির অরথোগোনালটির অর্থ এটি ডেটাতে যতটা সম্ভব তারতম্য ব্যাখ্যা করার জন্য সর্বাধিক অসংরক্ষিত উপাদানগুলি খুঁজে পায়। মাল্টিভারিয়েট গাউসীয় বিতরণগুলির জন্য, উপাদানগুলির মধ্যে শূন্য পারস্পরিক সম্পর্ক বলতে স্বতন্ত্রতা বোঝায় যা বেশিরভাগ বিতরণের ক্ষেত্রে সত্য নয়।

উত্তরটি কোনও প্রমাণ ছাড়াই বলা হয়েছে, এবং বোঝা যাচ্ছে যে ডেটা মাল্টিভারিয়েট স্বাভাবিক হলে পিসিএ স্বাধীন উপাদান তৈরি করে।

বিশেষত, আমাদের ডেটা নমুনা থেকে বলুন:

xN(μ,Σ)

আমরা করা নমুনা নমুনার আমাদের ম্যাট্রিক্সের সারি মধ্যে , তাই হয় । (কেন্দ্রের পরে) ফলনের এসভিডি গণনা করা হচ্ছেএক্স এক্স এক্স এন × এম এক্সnxXXn×mX

X=USVT

আমরা কি বলতে পারি যে of এর কলামগুলি পরিসংখ্যানগতভাবে স্বতন্ত্র, তারপরেও এর সারি রয়েছে ? এটি কি সাধারণভাবে সত্য, কেবলমাত্র , বা আদৌ সত্য নয়?ভি টি এক্সএন ( μ , Σ )UVTxN(μ,Σ)


1
stats.stackexchange.com/q/110508/3277 একটি অনুরূপ প্রশ্ন।
ttnphns

1
আমি দেখছি না যে পিসিগুলি সম্ভবত একাধিক মাত্রায় "পরিসংখ্যানগতভাবে স্বতন্ত্র" হিসাবে বিবেচিত হতে পারে। সর্বোপরি, সংজ্ঞা অনুসারে প্রত্যেকেই অন্য সকলের কাছে অর্থেগোনাল; এই কার্যনির্বাহী নির্ভরতা খুব শক্তিশালী পরিসংখ্যান নির্ভরতা তৈরি করে।
whuber

1
@ অ্যামিবা আমি আশাবাদী যে আমি ধারাবাহিকভাবে পরিষ্কার ছিলাম এবং সেই প্রশ্নের প্রতি বিশ্বস্ত ছিলাম, যা আমি পরিষ্কারভাবে বিবৃত এবং দ্ব্যর্থহীন বলে মনে করেছি: কারণ ডেটা X এলোমেলো, তাই এর সমস্ত এন্ট্রিও রয়েছেU । আমি তাদের কাছে পরিসংখ্যানগত স্বাধীনতার সংজ্ঞা প্রয়োগ করেছি। এখানেই শেষ. আপনার সমস্যাটি মনে হয় যে আপনি দুটি অত্যন্ত ভিন্ন ইন্দ্রিয়তে আপাতদৃষ্টিতে উপলব্ধি না করেই "অসংযুক্ত" শব্দটি ব্যবহার করছেন: কলামগুলি কীভাবে তৈরি করা হয়েছে তার কারণে U, তারা আর এন-তে ভেক্টর হিসাবে জ্যামিতিকভাবে অরথোগোনাল , তবে সেগুলি কোনওভাবেইRn নেই মানে স্বাধীন র্যান্ডম ভেক্টর!
whuber

1
@ অ্যামিবা আপনি ঠিক বলেছেন - অনুকরণটি বেশ দৃinc়তার সাথে দেখায় যে পারস্পরিক সম্পর্ক (দৃ strongly়ভাবে) ননজারো হতে পারে। তবে আমি "পিসিএ উপাদানগুলি" সম্পর্কহীন "=" অর্থেগোনাল "অর্থে বিতর্ক করছি না বা বলছি না যে কোনও নির্দিষ্ট পাঠ্যপুস্তকটি ভুল। আমার উদ্বেগ হ'ল এ জাতীয় বক্তব্য, যথাযথভাবে বোঝা যায়, প্রশ্নের সাথে এতটাই অপ্রাসঙ্গিক যে এটি যা করতে পারে তা (এবং এটি করেছে) বর্তমান প্রসঙ্গে ব্যাপক বিভ্রান্তি বপন করছে।
হোবার

1
@ হুবুহু, আমি নিশ্চিত আপনি আমার উত্তরের আর একটি সংস্করণের সন্ধান করছেন! এটা এখানে. আমি নির্ভরশীলতা সম্পর্কে আপনার পয়েন্টগুলি স্পষ্টভাবে স্বীকৃতি দিয়েছি এবং একটি বিবৃতি দিয়েছি যে U এর কলামগুলি আমার মূল বক্তব্য হিসাবে তাত্পর্যপূর্ণভাবে স্বতন্ত্র are এখানে "asyptotically" পর্যবেক্ষণ (সারি) সংখ্যা বোঝায় n। আমি খুব আশা করি আমরা তাতে একমত হতে পারব! আমি আরও যুক্তি দিয়েছি যে কোনও যুক্তিসঙ্গত n , যেমন n=100 কলামগুলির মধ্যে নির্ভরতা "কার্যত অপ্রাসঙ্গিক"। আমার ধারণা এটি আরও বিতর্কিত বিষয়, তবে আমি আমার উত্তরে এটিকে যথাযথভাবে সুনির্দিষ্ট করার চেষ্টা করি।
অ্যামিবা

উত্তর:


23

আমি একটি স্বজ্ঞাত বিক্ষোভ দিয়ে শুরু করব।

আমি দৃ = ়ভাবে অ-গাউশিয়ান 2 ডি বিতরণ এবং (খ) 2 ডি গাউসীয় বিতরণ থেকে পর্যবেক্ষণ (ক) তৈরি করেছি । উভয় ক্ষেত্রেই আমি ডেটা কেন্দ্রিক এবং একবচন মান পচানি সঞ্চালিত এক্স = ইউ এস ভি । তারপরে প্রতিটি মামলার জন্য আমি ইউ এর প্রথম দুটি কলামের একটি বিচ্ছুরক প্লট তৈরি করেছি , একে অপরের বিরুদ্ধে। দ্রষ্টব্য যে এটি সাধারণত ইউ এস এর কলামগুলি হয় "প্রিন্সিপাল উপাদানগুলি" (পিসি); ইউ এর কলামগুলি পিসিগুলিকে ইউনিট আদর্শ হিসাবে মাপানো হয়; এখনও, এই উত্তরে আমি ইউ এর কলামগুলিতে ফোকাস করছি । এখানে ছড়িয়ে ছিটিয়ে থাকা প্লটগুলি রয়েছে:n=100X=USVUUSUU

গাউসিয়ান এবং অ-গাওসিয়ান ডেটার পিসিএ

আমি মনে করি যে "পিসিএ উপাদানগুলি সম্পর্কযুক্ত নয় " বা "পিসিএ উপাদানগুলি নির্ভরশীল / স্বতন্ত্র" এর মতো বিবৃতি সাধারণত একটি নির্দিষ্ট নমুনা ম্যাট্রিক্স সম্পর্কে তৈরি করা হয় এবং সারিগুলিতে পারস্পরিক সম্পর্ক / নির্ভরতা বোঝায় (যেমন @ টিটিএনফোনের উত্তর এখানে দেখুন ) ns পিসিএ একটি রূপান্তরিত ডেটা ম্যাট্রিক্স ইউ দেয় , যেখানে সারিগুলি পর্যবেক্ষণ এবং কলামগুলি পিসি ভেরিয়েবল হয়। অর্থাৎ আমরা ইউ কে একটি নমুনা হিসাবে দেখতে পারি এবং জিজ্ঞাসা করতে পারি যে পিসি ভেরিয়েবলের মধ্যে নমুনা সম্পর্ক রয়েছে। এই নমুনা পারস্পরিক সম্পর্ক ম্যাট্রিক্স অবশ্যই UU = I দ্বারা প্রদত্তXইউইউইউইউ=আমি, অর্থাত পিসি ভেরিয়েবলের মধ্যে নমুনা পারস্পরিক সম্পর্ক শূন্য। লোকেরা যখন বলে যে "পিসিএ সমবায় ম্যাট্রিক্সকে তির্যক করে তোলে" ইত্যাদি This

উপসংহার 1: পিসিএ স্থানাঙ্কগুলিতে, কোনও ডেটার শূন্য সম্পর্ক রয়েছে।

এটি উপরের দুটি স্ক্রেটারপ্লটের জন্য সত্য। তবে এটি তাত্ক্ষণিকভাবে স্পষ্ট যে দুটি পিসি ভেরিয়েবল এবং y বাম দিকে (নন-গাউসিয়ান) স্ক্রেটারপ্লোট স্বাধীন নয়; যদিও তাদের শূন্য সম্পর্ক রয়েছে, তারা দৃ strongly়ভাবে নির্ভরশীল এবং বাস্তবে y fact a ( x - b ) 2 দ্বারা সম্পর্কিত । এবং প্রকৃতপক্ষে, এটি সুপরিচিত যে অসংগঠিত মানে স্বাধীন নয়xyya(xb)2

বিপরীতে, ডানদিকের দুটি এবং পিসি ভেরিয়েবল এবং y (গাউসিয়ান) স্ক্রেটারপ্লোটকে "বেশ কিছু স্বাধীন" বলে মনে হচ্ছে। তাদের মধ্যে পারস্পরিক তথ্য গণনা করা (যা পরিসংখ্যান নির্ভরতার একটি পরিমাপ: স্বতন্ত্র ভেরিয়েবলগুলির শূন্য পারস্পরিক তথ্য রয়েছে) কোনও মানক অ্যালগোরিদম দ্বারা শূন্যের খুব কাছাকাছি একটি মান অর্জন করবে। এটি একেবারে শূন্য হবে না, কারণ এটি কোনও সীমাবদ্ধ আকারের জন্য কখনই ঠিক শূন্য হয় না (সূক্ষ্মভাবে সুরক্ষিত না হলে); তদ্ব্যতীত, দুটি নমুনার পারস্পরিক তথ্য গণনা করার বিভিন্ন পদ্ধতি রয়েছে, কিছুটা ভিন্ন উত্তর দেওয়া। তবে আমরা আশা করতে পারি যে কোনও পদ্ধতিতে পারস্পরিক তথ্যের একটি অনুমান পাওয়া যাবে যা শূন্যের খুব কাছাকাছি।xy

উপসংহার 2: পিসিএ স্থানাঙ্কগুলিতে, গাউসিয়ান ডেটাগুলি "বেশ অনেকগুলি স্বাধীন", যার অর্থ নির্ভরতার স্ট্যান্ডার্ড অনুমান শূন্যের কাছাকাছি হবে।

প্রশ্নটি অবশ্য আরও জটিল, মন্তব্যগুলির দীর্ঘ শৃঙ্খলে দেখানো হয়েছে। প্রকৃতপক্ষে, @ হুবুহু সঠিকভাবে উল্লেখ করেছেন যে পিসিএ ভেরিয়েবল এবং y ( ইউ কলাম ) অবশ্যই পরিসংখ্যানগতভাবে নির্ভরশীল: কলামগুলি ইউনিট দৈর্ঘ্যের হতে হবে এবং অরথোগোনাল হতে হবে, এবং এটি একটি নির্ভরতার পরিচয় দেয়। উদাহরণস্বরূপ, যদি প্রথম কলামে কিছু মান 1 এর সমান হয় , তবে দ্বিতীয় কলামে সংশ্লিষ্ট মানটি 0 হতে হবে ।xyU10

এটি সত্য, তবে কেবলমাত্র খুব ছোট জন্য ব্যবহারিকভাবে প্রাসঙ্গিক , যেমন যেমন এন = 3 ( কেন্দ্রের পরে কেবলমাত্র একটি পিসি রয়েছে এন = 2 সহ )। যে কোনও যুক্তিসঙ্গত নমুনার আকারের জন্য, যেমন উপরে আমার চিত্রে এন = 100 দেখানো হয়েছে, নির্ভরতার প্রভাব নগণ্য হবে; ইউ কলামগুলি গাউসিয়ান ডেটাগুলির (মাপা) অনুমানগুলি রয়েছে, সুতরাং এগুলি গাউসিয়ানও, যা একটি মানের 1 এর কাছাকাছি হওয়া ব্যবহারিকভাবে অসম্ভব করে তোলে (এটি অন্যান্য সমস্ত এন - 1 উপাদানগুলির 0 এর নিকটবর্তী হতে পারে , যা খুব কমই হয় একটি গাউসীয় বিতরণ)।nn=3n=2n=100U1n10

উপসংহার 3: কঠোরভাবে বলতে গেলে যে কোনও সীমাবদ্ধ , পিসিএ স্থানাঙ্কগুলিতে গাউসিয়ান ডেটা নির্ভরশীল; তবে এই নির্ভরতা কোনও এন 1 এর জন্য কার্যত অপ্রাসঙ্গিক ।nn1

আমরা এই বিবেচনায় কি সীমা ঘটবে দ্বারা সুনির্দিষ্ট করতে পারেন । অসীম নমুনা আকার সীমা সালে নমুনা সহভেদাংক ম্যাট্রিক্স জনসংখ্যা সহভেদাংক ম্যাট্রিক্স সমান Σ । তথ্য ভেক্টর তাই আপনি যদি এক্স থেকে নমুনা হয় এক্স ~ এন ( 0 , Σ ) , তারপর পিসি ভেরিয়েবল ওয়াই = Λ - 1 / 2 ভী এক্স / ( এন - 1 ) (যেখানে Λ এবং ভীnΣXXN(0,Σ)Y=Λ1/2VX/(n1)ΛV ) এবং ওয়াইএন ( 0 , আই / ( এন - 1 ) ) এর ইগ্যালভ্যালু এবং আইজেনভেেক্টর । অর্থাত পিসি ভেরিয়েবলগুলি একাধিক গাউসিয়ান থেকে তির্যক কোভেরিয়েন্স সহ আসে। তবে তির্যক কোভরিয়েন্স ম্যাট্রিক্সযুক্ত যে কোনও মাল্টিভিয়ারেট গাউসিয়ান অবিচ্ছিন্ন গাউসিয়ানদের পণ্য হিসাবে বিভক্ত হয়ে যায় এবং এটি পরিসংখ্যানগত স্বাধীনতার সংজ্ঞা :ΣYN(0,I/(n1))

N(0,diag(σi2))=1(2π)k/2det(diag(σi2))1/2exp[xdiag(σi2)x/2]=1(2π)k/2(i=1kσi2)1/2exp[i=1kσi2xi2/2]=1(2π)1/2σiexp[σi2xi2/2]=N(0,σi2).

উপসংহার 4: অ্যাসিপোটোটিক্যালি ( ) পিসি ভেরিয়েবল গাউসিয়ান ডেটাগুলির পরিসংখ্যানগতভাবে এলোমেলো ভেরিয়েবল হিসাবে স্বতন্ত্র এবং নমুনা পারস্পরিক তথ্য জনসংখ্যার মান শূন্য দেবে।n

আমি মনে রাখতে হবে এটা ভিন্নভাবে এই প্রশ্নের বুঝতে (@whuber মন্তব্য দেখুন) সম্ভব: পুরো ম্যাট্রিক্স বিবেচনা একটি এলোপাতাড়ি ভেরিয়েবলের (র্যান্ডম ম্যাট্রিক্স থেকে প্রাপ্ত এক্স একটি নির্দিষ্ট অপারেশন এর মাধ্যমে) এবং জিজ্ঞাসা যদি থাকে দুই নির্দিষ্ট উপাদানের ইউ আমি দুটি ভিন্ন কলামের j এবং U k l এক্স এর বিভিন্ন অঙ্কনগুলিতে পরিসংখ্যানগতভাবে স্বতন্ত্র । আমরা এই প্রশ্নটি পরবর্তী থ্রেডে অন্বেষণ করেছি ।UXUijUklX


উপরে থেকে চারটি অন্তর্বর্তীকালীন সিদ্ধান্ত এখানে রয়েছে:

  • পিসিএ স্থানাঙ্কগুলিতে যে কোনও তথ্যের শূন্য সম্পর্ক রয়েছে।
  • পিসিএ স্থানাঙ্কগুলিতে, গাউসিয়ান ডেটাগুলি "বেশ কিছুটা স্বতন্ত্র", মানে নির্ভরতার স্ট্যান্ডার্ড অনুমান শূন্যের কাছাকাছি হবে।
  • কঠোরভাবে বলতে গেলে যে কোনও সীমাবদ্ধ , পিসিএ স্থানাঙ্কগুলিতে গাউসিয়ান ডেটা নির্ভরশীল; তবে এই নির্ভরতা কোনও এন 1 এর জন্য কার্যত অপ্রাসঙ্গিক ।nn1
  • Asyptotically ( ) পিসি ভেরিয়েবল গাউসিয়ান ডেটাগুলির পরিসংখ্যানগতভাবে এলোমেলো ভেরিয়েবল হিসাবে স্বতন্ত্র এবং নমুনা পারস্পরিক তথ্য জনসংখ্যার মান শূন্য দেবে।n

আপনি লিখুন "তবে, যদি ডেটাগুলি মাল্টিয়ারিয়েট গাউসিয়ান হয় তবে সেগুলি প্রকৃতপক্ষে স্বতন্ত্র"। 'তারা' প্রধান উপাদান, এবং তাদের সহগ? পিসিএ দ্বারা কোভারিয়েন্স ম্যাট্রিক্সকে তির্যক করে তোলার অর্থ কী? আপনার প্রতিক্রিয়ার জন্য আপনাকে ধন্যবাদ!
বিল_ই

SU

শীতল, আপনাকে ধন্যবাদ! আপনার উত্তর এবং এই মন্তব্যের সংমিশ্রণটি আমার পক্ষে অনেক কিছুই পরিষ্কার করতে সহায়তা করে। আমি কি আপনার মন্তব্যে আপনার উত্তরটি সম্পাদনা করতে পারি?
বিল_ই

আমি মন্তব্যটি সংযুক্ত করে উত্তরটি প্রসারিত করেছি; আপনি এখন এটি দিয়ে খুশি কিনা দেখুন।
অ্যামিবা বলছেন

2
আকর্ষণীয় আলোচনা! আমি যখন প্রশ্নটি জিজ্ঞাসা করি, তখন আমার পরিসংখ্যান নির্ভরতা সম্পর্কে চিন্তাভাবনাটি ছিল "আপনি যদি পিসি 1 জানেন তবে পিসি 2 কি অনুমান করা সম্ভব?, ইত্যাদি" আমি এখন পারস্পরিক তথ্যের উপর ভিত্তি করে স্বাধীনতা পরীক্ষাগুলিতে আরও নজর রাখব।
বিল_ই
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.