আমি একটি স্বজ্ঞাত বিক্ষোভ দিয়ে শুরু করব।
আমি দৃ = ়ভাবে অ-গাউশিয়ান 2 ডি বিতরণ এবং (খ) 2 ডি গাউসীয় বিতরণ থেকে পর্যবেক্ষণ (ক) তৈরি করেছি । উভয় ক্ষেত্রেই আমি ডেটা কেন্দ্রিক এবং একবচন মান পচানি সঞ্চালিত এক্স = ইউ এস ভি ⊤ । তারপরে প্রতিটি মামলার জন্য আমি ইউ এর প্রথম দুটি কলামের একটি বিচ্ছুরক প্লট তৈরি করেছি , একে অপরের বিরুদ্ধে। দ্রষ্টব্য যে এটি সাধারণত ইউ এস এর কলামগুলি হয় "প্রিন্সিপাল উপাদানগুলি" (পিসি); ইউ এর কলামগুলি পিসিগুলিকে ইউনিট আদর্শ হিসাবে মাপানো হয়; এখনও, এই উত্তরে আমি ইউ এর কলামগুলিতে ফোকাস করছি । এখানে ছড়িয়ে ছিটিয়ে থাকা প্লটগুলি রয়েছে:এন = 100এক্স = ইউ এস ভি⊤ইউইউ এসইউইউ
আমি মনে করি যে "পিসিএ উপাদানগুলি সম্পর্কযুক্ত নয় " বা "পিসিএ উপাদানগুলি নির্ভরশীল / স্বতন্ত্র" এর মতো বিবৃতি সাধারণত একটি নির্দিষ্ট নমুনা ম্যাট্রিক্স সম্পর্কে তৈরি করা হয় এবং সারিগুলিতে পারস্পরিক সম্পর্ক / নির্ভরতা বোঝায় (যেমন @ টিটিএনফোনের উত্তর এখানে দেখুন ) ns পিসিএ একটি রূপান্তরিত ডেটা ম্যাট্রিক্স ইউ দেয় , যেখানে সারিগুলি পর্যবেক্ষণ এবং কলামগুলি পিসি ভেরিয়েবল হয়। অর্থাৎ আমরা ইউ কে একটি নমুনা হিসাবে দেখতে পারি এবং জিজ্ঞাসা করতে পারি যে পিসি ভেরিয়েবলের মধ্যে নমুনা সম্পর্ক রয়েছে। এই নমুনা পারস্পরিক সম্পর্ক ম্যাট্রিক্স অবশ্যই U ⊤ U = I দ্বারা প্রদত্তএক্সইউইউইউ⊤ইউ = আই, অর্থাত পিসি ভেরিয়েবলের মধ্যে নমুনা পারস্পরিক সম্পর্ক শূন্য। লোকেরা যখন বলে যে "পিসিএ সমবায় ম্যাট্রিক্সকে তির্যক করে তোলে" ইত্যাদি This
উপসংহার 1: পিসিএ স্থানাঙ্কগুলিতে, কোনও ডেটার শূন্য সম্পর্ক রয়েছে।
এটি উপরের দুটি স্ক্রেটারপ্লটের জন্য সত্য। তবে এটি তাত্ক্ষণিকভাবে স্পষ্ট যে দুটি পিসি ভেরিয়েবল এবং y বাম দিকে (নন-গাউসিয়ান) স্ক্রেটারপ্লোট স্বাধীন নয়; যদিও তাদের শূন্য সম্পর্ক রয়েছে, তারা দৃ strongly়ভাবে নির্ভরশীল এবং বাস্তবে y fact ≈ a ( x - b ) 2 দ্বারা সম্পর্কিত । এবং প্রকৃতপক্ষে, এটি সুপরিচিত যে অসংগঠিত মানে স্বাধীন নয় ।xyy≈a(x−b)2
বিপরীতে, ডানদিকের দুটি এবং পিসি ভেরিয়েবল এবং y (গাউসিয়ান) স্ক্রেটারপ্লোটকে "বেশ কিছু স্বাধীন" বলে মনে হচ্ছে। তাদের মধ্যে পারস্পরিক তথ্য গণনা করা (যা পরিসংখ্যান নির্ভরতার একটি পরিমাপ: স্বতন্ত্র ভেরিয়েবলগুলির শূন্য পারস্পরিক তথ্য রয়েছে) কোনও মানক অ্যালগোরিদম দ্বারা শূন্যের খুব কাছাকাছি একটি মান অর্জন করবে। এটি একেবারে শূন্য হবে না, কারণ এটি কোনও সীমাবদ্ধ আকারের জন্য কখনই ঠিক শূন্য হয় না (সূক্ষ্মভাবে সুরক্ষিত না হলে); তদ্ব্যতীত, দুটি নমুনার পারস্পরিক তথ্য গণনা করার বিভিন্ন পদ্ধতি রয়েছে, কিছুটা ভিন্ন উত্তর দেওয়া। তবে আমরা আশা করতে পারি যে কোনও পদ্ধতিতে পারস্পরিক তথ্যের একটি অনুমান পাওয়া যাবে যা শূন্যের খুব কাছাকাছি।xy
উপসংহার 2: পিসিএ স্থানাঙ্কগুলিতে, গাউসিয়ান ডেটাগুলি "বেশ অনেকগুলি স্বাধীন", যার অর্থ নির্ভরতার স্ট্যান্ডার্ড অনুমান শূন্যের কাছাকাছি হবে।
প্রশ্নটি অবশ্য আরও জটিল, মন্তব্যগুলির দীর্ঘ শৃঙ্খলে দেখানো হয়েছে। প্রকৃতপক্ষে, @ হুবুহু সঠিকভাবে উল্লেখ করেছেন যে পিসিএ ভেরিয়েবল এবং y ( ইউ কলাম ) অবশ্যই পরিসংখ্যানগতভাবে নির্ভরশীল: কলামগুলি ইউনিট দৈর্ঘ্যের হতে হবে এবং অরথোগোনাল হতে হবে, এবং এটি একটি নির্ভরতার পরিচয় দেয়। উদাহরণস্বরূপ, যদি প্রথম কলামে কিছু মান 1 এর সমান হয় , তবে দ্বিতীয় কলামে সংশ্লিষ্ট মানটি 0 হতে হবে ।xyU10
এটি সত্য, তবে কেবলমাত্র খুব ছোট জন্য ব্যবহারিকভাবে প্রাসঙ্গিক , যেমন যেমন এন = 3 ( কেন্দ্রের পরে কেবলমাত্র একটি পিসি রয়েছে এন = 2 সহ )। যে কোনও যুক্তিসঙ্গত নমুনার আকারের জন্য, যেমন উপরে আমার চিত্রে এন = 100 দেখানো হয়েছে, নির্ভরতার প্রভাব নগণ্য হবে; ইউ কলামগুলি গাউসিয়ান ডেটাগুলির (মাপা) অনুমানগুলি রয়েছে, সুতরাং এগুলি গাউসিয়ানও, যা একটি মানের 1 এর কাছাকাছি হওয়া ব্যবহারিকভাবে অসম্ভব করে তোলে (এটি অন্যান্য সমস্ত এন - 1 উপাদানগুলির 0 এর নিকটবর্তী হতে পারে , যা খুব কমই হয় একটি গাউসীয় বিতরণ)।nn=3n=2n=100U1n−10
উপসংহার 3: কঠোরভাবে বলতে গেলে যে কোনও সীমাবদ্ধ , পিসিএ স্থানাঙ্কগুলিতে গাউসিয়ান ডেটা নির্ভরশীল; তবে এই নির্ভরতা কোনও এন ≫ 1 এর জন্য কার্যত অপ্রাসঙ্গিক ।nn≫1
আমরা এই বিবেচনায় কি সীমা ঘটবে দ্বারা সুনির্দিষ্ট করতে পারেন । অসীম নমুনা আকার সীমা সালে নমুনা সহভেদাংক ম্যাট্রিক্স জনসংখ্যা সহভেদাংক ম্যাট্রিক্স সমান Σ । তথ্য ভেক্টর তাই আপনি যদি এক্স থেকে নমুনা হয় → এক্স ~ এন ( 0 , Σ ) , তারপর পিসি ভেরিয়েবল → ওয়াই = Λ - 1 / 2 ভী ⊤ → এক্স / ( এন - 1 ) (যেখানে Λ এবং ভীn→∞ΣXX⃗ ∼N(0,Σ)Y⃗ =Λ−1/2V⊤X⃗ /(n−1)ΛV ) এবং → ওয়াই ∼ এন ( 0 , আই / ( এন - 1 ) ) এর ইগ্যালভ্যালু এবং আইজেনভেেক্টর । অর্থাত পিসি ভেরিয়েবলগুলি একাধিক গাউসিয়ান থেকে তির্যক কোভেরিয়েন্স সহ আসে। তবে তির্যক কোভরিয়েন্স ম্যাট্রিক্সযুক্ত যে কোনও মাল্টিভিয়ারেট গাউসিয়ান অবিচ্ছিন্ন গাউসিয়ানদের পণ্য হিসাবে বিভক্ত হয়ে যায় এবং এটি পরিসংখ্যানগত স্বাধীনতার সংজ্ঞা :ΣY⃗ ∼N(0,I/(n−1))
N(0,diag(σ2i))=1(2π)k/2det(diag(σ2i))1/2exp[−x⊤diag(σ2i)x/2]=1(2π)k/2(∏ki=1σ2i)1/2exp[−∑i=1kσ2ix2i/2]=∏1(2π)1/2σiexp[−σ2ix2i/2]=∏N(0,σ2i).
উপসংহার 4: অ্যাসিপোটোটিক্যালি ( ) পিসি ভেরিয়েবল গাউসিয়ান ডেটাগুলির পরিসংখ্যানগতভাবে এলোমেলো ভেরিয়েবল হিসাবে স্বতন্ত্র এবং নমুনা পারস্পরিক তথ্য জনসংখ্যার মান শূন্য দেবে।n→∞
আমি মনে রাখতে হবে এটা ভিন্নভাবে এই প্রশ্নের বুঝতে (@whuber মন্তব্য দেখুন) সম্ভব: পুরো ম্যাট্রিক্স বিবেচনা একটি এলোপাতাড়ি ভেরিয়েবলের (র্যান্ডম ম্যাট্রিক্স থেকে প্রাপ্ত এক্স একটি নির্দিষ্ট অপারেশন এর মাধ্যমে) এবং জিজ্ঞাসা যদি থাকে দুই নির্দিষ্ট উপাদানের ইউ আমি দুটি ভিন্ন কলামের j এবং U k l এক্স এর বিভিন্ন অঙ্কনগুলিতে পরিসংখ্যানগতভাবে স্বতন্ত্র । আমরা এই প্রশ্নটি পরবর্তী থ্রেডে অন্বেষণ করেছি ।UXUijUklX
উপরে থেকে চারটি অন্তর্বর্তীকালীন সিদ্ধান্ত এখানে রয়েছে:
- পিসিএ স্থানাঙ্কগুলিতে যে কোনও তথ্যের শূন্য সম্পর্ক রয়েছে।
- পিসিএ স্থানাঙ্কগুলিতে, গাউসিয়ান ডেটাগুলি "বেশ কিছুটা স্বতন্ত্র", মানে নির্ভরতার স্ট্যান্ডার্ড অনুমান শূন্যের কাছাকাছি হবে।
- কঠোরভাবে বলতে গেলে যে কোনও সীমাবদ্ধ , পিসিএ স্থানাঙ্কগুলিতে গাউসিয়ান ডেটা নির্ভরশীল; তবে এই নির্ভরতা কোনও এন ≫ 1 এর জন্য কার্যত অপ্রাসঙ্গিক ।nn≫1
- Asyptotically ( ) পিসি ভেরিয়েবল গাউসিয়ান ডেটাগুলির পরিসংখ্যানগতভাবে এলোমেলো ভেরিয়েবল হিসাবে স্বতন্ত্র এবং নমুনা পারস্পরিক তথ্য জনসংখ্যার মান শূন্য দেবে।n→∞