এটি @ttnphns দ্বারা একটি মন্তব্যে প্রদত্ত অন্তর্দৃষ্টিপূর্ণ ইঙ্গিতটি প্রকাশ করে।
প্রায় পারস্পরিক সম্পর্কযুক্ত ভেরিয়েবল যুক্ত করে পিসিএতে তাদের সাধারণ অন্তর্নিহিত কারণের অবদান বৃদ্ধি করে। আমরা এটি জ্যামিতিকভাবে দেখতে পারি। পয়েন্ট ক্লাউড হিসাবে দেখানো XY বিমানের এই ডেটাগুলি বিবেচনা করুন:
এখানে সামান্য পারস্পরিক সম্পর্ক রয়েছে, প্রায় সমান কোভেরিয়েন্স এবং ডেটা কেন্দ্রিক: পিসিএ (কোনওভাবেই পরিচালিত হয় না) প্রায় দুটি সমান অংশের প্রতিবেদন করবে।
আসুন এখন তৃতীয় ভেরিয়েবল সমান পাশাপাশি ছোট্ট পরিমাণ এলোমেলো ত্রুটি নিক্ষেপ করি । এর পারস্পরিক সম্পর্কের ম্যাট্রিক্সটি দ্বিতীয় এবং তৃতীয় সারি এবং কলামগুলির মধ্যে ( এবং ) বাদে ছোট অফ-ডায়াগোনাল সহগ সহ এটি দেখায় :ওয়াই ( এক্স , ওয়াই , জেড ) ওয়াই জেডজেডওয়াই( এক্স, Y, জেড)ওয়াইজেড
⎛⎝⎜1।- 0.0344018- 0.046076- 0.03440181।0.941829- 0.0460760.9418291।⎞⎠⎟
জ্যামিতিকভাবে, আমরা পূর্বের চিত্রটি পৃষ্ঠার সমতল থেকে ঠিক উপরে তুলে প্রায় উল্লম্বভাবে সমস্ত মূল পয়েন্টগুলি স্থানচ্যুত করেছি। এই সিউডো 3 ডি পয়েন্ট ক্লাউডটি পার্শ্ব দৃষ্টিকোণ দর্শন দিয়ে উত্তোলনের চিত্র তুলে ধরার চেষ্টা করেছে (আগের মতো একইভাবে উত্পন্ন হলেও ভিন্ন ডেটাসেটের উপর ভিত্তি করে):
পয়েন্টগুলি মূলত নীল বিমানের মধ্যে থাকে এবং লাল বিন্দুতে তোলা হয়। মূল অক্ষটি ডানদিকে নির্দেশ করে। ফলস্বরূপ ঝুঁকও YZ নির্দেশাবলী বরাবর পয়েন্টগুলি প্রসারিত করে, যার ফলে প্রকরণে তাদের অবদান দ্বিগুণ হয় । ফলস্বরূপ, এই নতুন তথ্যগুলির একটি পিসিএ এখনও দুটি প্রধান প্রধান উপাদান সনাক্ত করতে পারে, তবে এখন তাদের মধ্যে একটির অন্যটির দ্বিগুণ বৈচিত্র হবে।ওয়াই
এই জ্যামিতিক প্রত্যাশাটি কিছু সিমুলেশন সহ বহন করে R
। এর জন্য আমি দ্বিতীয়, তৃতীয়, চতুর্থ এবং পঞ্চমবার দ্বিতীয় ভেরিয়েবলের নিকটবর্তী কলিনারি অনুলিপি তৈরি করে "উত্তোলন" পদ্ধতির পুনরাবৃত্তি করে মাধ্যমে তাদের নামকরণ করেছি । এখানে একটি স্ক্যাটারপ্ল্লট ম্যাট্রিক্স দেখানো হচ্ছে যে শেষ চারটি ভেরিয়েবলগুলি কীভাবে সুসম্পর্কযুক্ত:এক্স 5X2X5
পিসিএটি প্রথম দুটি ভেরিয়েবল, তারপরে তিনটি, ..., এবং শেষ পর্যন্ত পাঁচটি ব্যবহার করে পারস্পরিক সম্পর্ক (যদিও এটি এই ডেটারগুলির জন্য সত্যিই কিছু যায় আসে না) ব্যবহার করে সম্পন্ন হয়। আমি মূল বৈকল্পিকের জন্য মূল উপাদানগুলির অবদানের প্লট ব্যবহার করে ফলাফলগুলি দেখায়।
প্রাথমিকভাবে দুটি প্রায় অসম্পৃক্ত ভেরিয়েবলের সাথে অবদানগুলি প্রায় সমান (উপরের বাম কোণে)। একটি ভেরিয়েবলের সাথে দ্বিতীয়টির সাথে সম্পর্কিত হওয়ার পরে - ঠিক জ্যামিতিক চিত্রের মতো - এখনও মাত্র দুটি প্রধান উপাদান রয়েছে, একটি এখন অন্যটির আকারের দ্বিগুণ। (তৃতীয় উপাদানটি নিখুঁত পারস্পরিক সম্পর্কের অভাবকে প্রতিফলিত করে; এটি থ্রিডি স্ক্যাটারপ্লোটে প্যানকেকের মতো মেঘের "বেধ" পরিমাপ করে)) আরেকটি ভেরিয়েবল ( ) যুক্ত করার পরে , প্রথম উপাদানটি এখন মোট তিন চার ভাগ ; পঞ্চম যোগ হওয়ার পরে, প্রথম উপাদানটি মোটের প্রায় চার-পঞ্চমাংশ। চারটি ক্ষেত্রেই দ্বিতীয়টির পরের উপাদানগুলি সম্ভবত বেশিরভাগ পিসিএ ডায়াগনস্টিক পদ্ধতি দ্বারা অসম্পূর্ণ হিসাবে বিবেচিত হবে; শেষ ক্ষেত্রে এটি 'X4বিবেচনা করার মতো একটি প্রধান উপাদান।
আমরা এখন দেখতে পাচ্ছি যে ভেরিয়েবলগুলির সংগ্রহের একই অন্তর্নিহিত (তবে "প্রচ্ছন্ন") দিকটি পরিমাপ করার কথা ভাবা যায় , কারণ প্রায় অপ্রয়োজনীয় ভেরিয়েবলগুলি পিসিএকে তাদের অবদানকে ছাড়িয়ে যেতে পারে। এই জাতীয় পদ্ধতি সম্পর্কে গাণিতিকভাবে সঠিক (বা ভুল) কিছুই নেই ; এটি বিশ্লেষণমূলক উদ্দেশ্য এবং ডেটা জ্ঞানের উপর ভিত্তি করে একটি রায় কল তবে এটি প্রচুর পরিমাণে পরিষ্কার হওয়া উচিত যে অন্যদের সাথে দৃ strongly়ভাবে সম্পর্কযুক্ত হিসাবে পরিচিত ভেরিয়েবলগুলি আলাদা করা পিসিএ ফলাফলগুলিতে যথেষ্ট প্রভাব ফেলতে পারে।
R
কোডটি এখানে ।
n.cases <- 240 # Number of points.
n.vars <- 4 # Number of mutually correlated variables.
set.seed(26) # Make these results reproducible.
eps <- rnorm(n.vars, 0, 1/4) # Make "1/4" smaller to *increase* the correlations.
x <- matrix(rnorm(n.cases * (n.vars+2)), nrow=n.cases)
beta <- rbind(c(1,rep(0, n.vars)), c(0,rep(1, n.vars)), cbind(rep(0,n.vars), diag(eps)))
y <- x%*%beta # The variables.
cor(y) # Verify their correlations are as intended.
plot(data.frame(y)) # Show the scatterplot matrix.
# Perform PCA on the first 2, 3, 4, ..., n.vars+1 variables.
p <- lapply(2:dim(beta)[2], function(k) prcomp(y[, 1:k], scale=TRUE))
# Print summaries and display plots.
tmp <- lapply(p, summary)
par(mfrow=c(2,2))
tmp <- lapply(p, plot)