পিসিএ করার আগে কারও কি খুব বেশি সম্পর্কযুক্ত ভেরিয়েবলগুলি অপসারণ করা উচিত?


111

আমি একটি কাগজ পড়ছি যেখানে লেখক পিসিএ করার আগে অন্যান্য ভেরিয়েবলের সাথে উচ্চ সম্পর্কের কারণে বেশ কয়েকটি ভেরিয়েবল বাতিল করে দেয়। ভেরিয়েবলের মোট সংখ্যা প্রায় 20 টি।

এটি কি কোনও সুবিধা দেয়? এটি আমার কাছে ওভারহেডের মতো দেখাচ্ছে কারণ পিসিএ এটি স্বয়ংক্রিয়ভাবে হ্যান্ডেল করা উচিত।


26
শুধু একটি ইঙ্গিত। ভেবে দেখুন, কোন একটি ভেরিয়েবলের আরও বেশি করে অনুলিপি (বা নিকটবর্তী অনুলিপি) যুক্ত করলে পিসিএর ফলাফল কীভাবে পরিবর্তিত হবে।
ttnphns

@ টাইপ 2 আপনি যে কাগজটি পড়ছিলেন তা নামকরণ করতে পারেন?
অমাত্য

উত্তর:


123

এটি @ttnphns দ্বারা একটি মন্তব্যে প্রদত্ত অন্তর্দৃষ্টিপূর্ণ ইঙ্গিতটি প্রকাশ করে।

প্রায় পারস্পরিক সম্পর্কযুক্ত ভেরিয়েবল যুক্ত করে পিসিএতে তাদের সাধারণ অন্তর্নিহিত কারণের অবদান বৃদ্ধি করে। আমরা এটি জ্যামিতিকভাবে দেখতে পারি। পয়েন্ট ক্লাউড হিসাবে দেখানো XY বিমানের এই ডেটাগুলি বিবেচনা করুন:

Scatterplot

এখানে সামান্য পারস্পরিক সম্পর্ক রয়েছে, প্রায় সমান কোভেরিয়েন্স এবং ডেটা কেন্দ্রিক: পিসিএ (কোনওভাবেই পরিচালিত হয় না) প্রায় দুটি সমান অংশের প্রতিবেদন করবে।

আসুন এখন তৃতীয় ভেরিয়েবল সমান পাশাপাশি ছোট্ট পরিমাণ এলোমেলো ত্রুটি নিক্ষেপ করি । এর পারস্পরিক সম্পর্কের ম্যাট্রিক্সটি দ্বিতীয় এবং তৃতীয় সারি এবং কলামগুলির মধ্যে ( এবং ) বাদে ছোট অফ-ডায়াগোনাল সহগ সহ এটি দেখায় :ওয়াই ( এক্স , ওয়াই , জেড ) ওয়াই জেডZY(X,Y,Z)YZ

(1.0.03440180.0460760.03440181.0.9418290.0460760.9418291.)

জ্যামিতিকভাবে, আমরা পূর্বের চিত্রটি পৃষ্ঠার সমতল থেকে ঠিক উপরে তুলে প্রায় উল্লম্বভাবে সমস্ত মূল পয়েন্টগুলি স্থানচ্যুত করেছি। এই সিউডো 3 ডি পয়েন্ট ক্লাউডটি পার্শ্ব দৃষ্টিকোণ দর্শন দিয়ে উত্তোলনের চিত্র তুলে ধরার চেষ্টা করেছে (আগের মতো একইভাবে উত্পন্ন হলেও ভিন্ন ডেটাসেটের উপর ভিত্তি করে):

3 ডি প্লট

পয়েন্টগুলি মূলত নীল বিমানের মধ্যে থাকে এবং লাল বিন্দুতে তোলা হয়। মূল অক্ষটি ডানদিকে নির্দেশ করে। ফলস্বরূপ ঝুঁকও YZ নির্দেশাবলী বরাবর পয়েন্টগুলি প্রসারিত করে, যার ফলে প্রকরণে তাদের অবদান দ্বিগুণ হয় । ফলস্বরূপ, এই নতুন তথ্যগুলির একটি পিসিএ এখনও দুটি প্রধান প্রধান উপাদান সনাক্ত করতে পারে, তবে এখন তাদের মধ্যে একটির অন্যটির দ্বিগুণ বৈচিত্র হবে।Y

এই জ্যামিতিক প্রত্যাশাটি কিছু সিমুলেশন সহ বহন করে R। এর জন্য আমি দ্বিতীয়, তৃতীয়, চতুর্থ এবং পঞ্চমবার দ্বিতীয় ভেরিয়েবলের নিকটবর্তী কলিনারি অনুলিপি তৈরি করে "উত্তোলন" পদ্ধতির পুনরাবৃত্তি করে মাধ্যমে তাদের নামকরণ করেছি । এখানে একটি স্ক্যাটারপ্ল্লট ম্যাট্রিক্স দেখানো হচ্ছে যে শেষ চারটি ভেরিয়েবলগুলি কীভাবে সুসম্পর্কযুক্ত:এক্স 5X2X5

স্ক্যাটারপ্ল্লট ম্যাট্রিক্স

পিসিএটি প্রথম দুটি ভেরিয়েবল, তারপরে তিনটি, ..., এবং শেষ পর্যন্ত পাঁচটি ব্যবহার করে পারস্পরিক সম্পর্ক (যদিও এটি এই ডেটারগুলির জন্য সত্যিই কিছু যায় আসে না) ব্যবহার করে সম্পন্ন হয়। আমি মূল বৈকল্পিকের জন্য মূল উপাদানগুলির অবদানের প্লট ব্যবহার করে ফলাফলগুলি দেখায়।

পিসিএ ফলাফল

প্রাথমিকভাবে দুটি প্রায় অসম্পৃক্ত ভেরিয়েবলের সাথে অবদানগুলি প্রায় সমান (উপরের বাম কোণে)। একটি ভেরিয়েবলের সাথে দ্বিতীয়টির সাথে সম্পর্কিত হওয়ার পরে - ঠিক জ্যামিতিক চিত্রের মতো - এখনও মাত্র দুটি প্রধান উপাদান রয়েছে, একটি এখন অন্যটির আকারের দ্বিগুণ। (তৃতীয় উপাদানটি নিখুঁত পারস্পরিক সম্পর্কের অভাবকে প্রতিফলিত করে; এটি থ্রিডি স্ক্যাটারপ্লোটে প্যানকেকের মতো মেঘের "বেধ" পরিমাপ করে)) আরেকটি ভেরিয়েবল ( ) যুক্ত করার পরে , প্রথম উপাদানটি এখন মোট তিন চার ভাগ ; পঞ্চম যোগ হওয়ার পরে, প্রথম উপাদানটি মোটের প্রায় চার-পঞ্চমাংশ। চারটি ক্ষেত্রেই দ্বিতীয়টির পরের উপাদানগুলি সম্ভবত বেশিরভাগ পিসিএ ডায়াগনস্টিক পদ্ধতি দ্বারা অসম্পূর্ণ হিসাবে বিবেচিত হবে; শেষ ক্ষেত্রে এটি 'X4বিবেচনা করার মতো একটি প্রধান উপাদান।

আমরা এখন দেখতে পাচ্ছি যে ভেরিয়েবলগুলির সংগ্রহের একই অন্তর্নিহিত (তবে "প্রচ্ছন্ন") দিকটি পরিমাপ করার কথা ভাবা যায় , কারণ প্রায় অপ্রয়োজনীয় ভেরিয়েবলগুলি পিসিএকে তাদের অবদানকে ছাড়িয়ে যেতে পারে। এই জাতীয় পদ্ধতি সম্পর্কে গাণিতিকভাবে সঠিক (বা ভুল) কিছুই নেই ; এটি বিশ্লেষণমূলক উদ্দেশ্য এবং ডেটা জ্ঞানের উপর ভিত্তি করে একটি রায় কল তবে এটি প্রচুর পরিমাণে পরিষ্কার হওয়া উচিত যে অন্যদের সাথে দৃ strongly়ভাবে সম্পর্কযুক্ত হিসাবে পরিচিত ভেরিয়েবলগুলি আলাদা করা পিসিএ ফলাফলগুলিতে যথেষ্ট প্রভাব ফেলতে পারে।


Rকোডটি এখানে ।

n.cases <- 240               # Number of points.
n.vars <- 4                  # Number of mutually correlated variables.
set.seed(26)                 # Make these results reproducible.
eps <- rnorm(n.vars, 0, 1/4) # Make "1/4" smaller to *increase* the correlations.
x <- matrix(rnorm(n.cases * (n.vars+2)), nrow=n.cases)
beta <- rbind(c(1,rep(0, n.vars)), c(0,rep(1, n.vars)), cbind(rep(0,n.vars), diag(eps)))
y <- x%*%beta                # The variables.
cor(y)                       # Verify their correlations are as intended.
plot(data.frame(y))          # Show the scatterplot matrix.

# Perform PCA on the first 2, 3, 4, ..., n.vars+1 variables.
p <- lapply(2:dim(beta)[2], function(k) prcomp(y[, 1:k], scale=TRUE))

# Print summaries and display plots.
tmp <- lapply(p, summary)
par(mfrow=c(2,2))
tmp <- lapply(p, plot)

5
+1, সুন্দর পরিসংখ্যান। আপনি শীর্ষ 2 জন্য কী ব্যবহার করেছেন? 1 ম দেখে মনে হচ্ছে এটি নিজের হাতে আঁকা।
গুং

14
@ গুং আমি প্রথম চিত্রটির জন্য ম্যাথমেটিকা.স্ট্যাকেক্সেঞ্জাওয়েজ / প্রশ্নস / ১১৩৫০/xkcd- স্টাইল- অনুচ্ছেদে কোডের একটি বৈকল্পিক ব্যবহার করেছি । এটি বহু আগে থেকেই জানা যায় যে পাঠ্য বা কোনও চিত্রের সাথে কিছুটা এলোমেলোভাবে জ্বলজ্বল করা এটিকে আরও গরম এবং আরও অ্যাক্সেসযোগ্য দেখায় look ( নিজেই মূলত মেটাফন্টে নির্মিত হয়েছিল , যা ডোনাল্ড নথ টাইপোগ্রাফির গভীর অধ্যয়নের পরে ডিজাইন করেছিলেন; তিনি এর মধ্যে অন্তর্নির্মিত বৈচিত্রটি অন্তর্ভুক্ত করেছিলেন।) দ্বিতীয় চিত্রটিতে সিউডো থ্রিডি স্ক্র্যাটারপ্লোটের মতো কিছু গ্রাফিকের জন্য, বিড়বিড় কৌশলটি সামান্য যোগ করেছে বা বিভ্রান্ত করছে, তাই আমি এটি সেখানে ব্যবহার করিনি। TEX
whuber

2
এটি খুব আলোকিত, হুঙ্কুর। আমি নতুন কিছু শিখেছি।
স্পেসি

7
@ হুবহু হিপ্পেস্ট স্ট্যাটিস্টিশিয়ানদের মতো - এক্সকেসিডি প্লট ব্যবহার করে প্রো হিসাবে।
ক্যাম.ড্যাভিডসন.পিলন

2
@ লোগান অন্য কথায়, না। আমাকে এই পোস্টের শেষের দিকে একটি বাক্যটির দিকে আপনার দৃষ্টি আকর্ষণ করার মঞ্জুরি দিন: "এই জাতীয় পদ্ধতি সম্পর্কে গাণিতিকভাবে সঠিক (বা ভুল) কিছুই নেই; এটি বিশ্লেষণাত্মক উদ্দেশ্য এবং তথ্যের জ্ঞানের উপর ভিত্তি করে রায় দেওয়ার আহ্বান।"
whuber

42

আমি @ হুবারের মতো একই প্রক্রিয়া এবং ধারণাটি আরও চিত্রিত করব , তবে লোডিং প্লটগুলির সাথে - কারণ লোডিংগুলি পিসিএ ফলাফলের প্রয়োজনীয়তা।

এখানে তিনটি বিশ্লেষণ দেওয়া আছে। প্রথমটিতে, আমাদের দুটি ভেরিয়েবল রয়েছে, এবং (এই উদাহরণে তারা পারস্পরিক সম্পর্ক রাখে না)। দ্বিতীয়টিতে, আমরা যুক্ত যা প্রায় একটি অনুলিপি এবং অতএব এটির সাথে সম্পর্কিত। তৃতীয়, আমরা এখনও একইভাবে এর আরও 2 "অনুলিপি" যুক্ত করেছি: এবং ।এক্স 2 এক্স 3 এক্স 2 এক্স 4 এক্স 5X1X2X3X2X4X5

প্রথম 2 মূল উপাদানগুলির লোডিংয়ের প্লটগুলি পরে যান। প্লটগুলিতে লাল স্পাইকগুলি ভেরিয়েবলগুলির মধ্যে পারস্পরিক সম্পর্কের কথা বলে, যাতে বেশ কয়েকটি স্পাইকের গোছা থাকে যেখানে শক্তভাবে সংযোগযুক্ত ভেরিয়েবলগুলির একটি গুচ্ছ পাওয়া যায়। উপাদানগুলি ধূসর রেখাগুলি; কোনও উপাদানটির আপেক্ষিক "শক্তি" (তার সম্পর্কিত ইগেনভ্যালু প্রস্থ) রেখার ওজন দ্বারা দেওয়া হয়।

এখানে চিত্র বর্ণনা লিখুন

"অনুলিপিগুলি" যুক্ত করার দুটি প্রভাব লক্ষ্য করা যায়:

  1. উপাদান 1 আরও শক্তিশালী এবং শক্তিশালী হয় এবং 2 উপাদান দুর্বল ও দুর্বল হয়।
  2. উপাদানগুলির ওরিয়েন্টেশন পরিবর্তিত হয়: প্রথমে, 1 অংশটি এবং এর মাঝখানে চলে গেছে ; আমরা যেমন কে উপাদান 1 এ যুক্ত করেছি তত্ক্ষণাত ভেরিয়েবলগুলির উদীয়মান গুচ্ছ অনুসরণ করতে পুনরায় ওরিয়েন্টেড; এবং আপনি নিশ্চিত হতে পারেন যে আমরা আরও দুটি ভেরিয়েবল যোগ করার পরে আরও দুটি পরিবর্তনশীল সংযোজন 1 সংযুক্তি সংযুক্তি ঘনিষ্ঠভাবে সম্পর্কযুক্ত ভেরিয়েবল এর গুচ্ছ আরও অবিসংবাদিত হয়ে ওঠে।এক্স 2 এক্স 3 এক্স 2X1X2X3X2

আমি নৈতিক পুনরায় শুরু করব না কারণ @ শুভ ইতোমধ্যে এটি করে ফেলেছে।


সংযোজন । নীচে @ হোবারের মন্তব্যের প্রতিক্রিয়াতে কয়েকটি ছবি দেওয়া হল। এটি "ভেরিয়েবল স্পেস" এবং "সাবজেক্ট স্পেস" এর মধ্যে পার্থক্য সম্পর্কে এবং কীভাবে উপাদানগুলি এখানে এবং সেখানে তাদেরকে কেন্দ্র করে। তিনটি বিভাজন পিসিএ উপস্থাপন করা হয়েছে: প্রথম সারিতে , দ্বিতীয় সারিতে এবং তৃতীয় সারির বিশ্লেষণ করা হয়েছে । বাম কলামটি স্ক্রেটারপ্লট (মানকৃত ডেটার) এবং ডান কলামটি প্লট লোড করছে।আর = 0.62 আর = 0.77r=0r=0.62r=0.77

একটি স্ক্যাটারপ্লোটে, এবং মধ্যে পারস্পরিক সম্পর্ক মেঘের প্রাচুর্য হিসাবে উপস্থাপিত হয়। একটি উপাদান এবং একটি ভেরিয়েবল লাইনের মধ্যবর্তী কোণটি (এর কোসাইন) হ'ল সংশ্লিষ্ট ইগেনভেেক্টর উপাদান। তিনটি বিশ্লেষণে ইগেনভেেক্টরগুলি অভিন্ন (সুতরাং সমস্ত 3 গ্রাফের কোণগুলি একই)। [তবে, এটি সত্য, ঠিক দিয়ে , আইজেনভেেক্টর (এবং সেইজন্য কোণগুলি) তাত্ত্বিকভাবে স্বেচ্ছাসেবী; কারণ মেঘ পুরোপুরি "বৃত্তাকার" উত্সটির মধ্য দিয়ে আসা রেখাগুলি দুটি উপাদান হিসাবে পরিবেশন করতে পারে - এমনকি এবংএক্স 2 আর = 0 এক্স 1 এক্সX1X2r=0 X1X2লাইনগুলি সেগুলি উপাদান হিসাবে বেছে নেওয়া যেতে পারে]] উপকরণের উপর ডেটা পয়েন্টের (200 বিষয়) স্থানাঙ্কগুলি উপাদান স্কোর এবং 200-1 দ্বারা বিভক্ত তাদের স্কোয়ারগুলির যোগফলটি উপাদানটির ইগেনভ্যালু হয়

একটি লোডিং প্লটে, পয়েন্টগুলি (ভেক্টরগুলি) ভেরিয়েবল হয়; তারা স্পেসটি ছড়িয়ে দেয় যা দ্বি-মাত্রিক (কারণ আমাদের 2 পয়েন্ট + উত্স রয়েছে) তবে বাস্তবে হ'ল 200-মাত্রিক (বিষয় সংখ্যা) "বিষয় স্থান"। এখানে লাল ভেক্টরগুলির মধ্যে কোণ (কোসাইন) হ'ল । ভেক্টরগুলি সমান, এককের দৈর্ঘ্যের, কারণ ডেটা মানক করা হয়েছিল। প্রথম উপাদানটি এই স্থানটিতে এমন একটি মাত্রা অক্ষ যা পয়েন্টগুলির ওভারাল জমে যাওয়ার দিকে ধাবিত হয়; মাত্র ২ টি ভেরিয়েবলের ক্ষেত্রে এটি সর্বদা এবং মধ্যে দ্বিখণ্ডকএক্স 1 এক্স 2rX1X2(তবে তৃতীয় ভেরিয়েবল যুক্ত করা যেকোন উপায়ে এটি ডিফল্ট করতে পারে)। একটি ভেরিয়েবল ভেক্টর এবং একটি উপাদান রেখার মধ্যে কোণ (কোসাইন) হ'ল তাদের মধ্যে পারস্পরিক সম্পর্ক এবং কারণ ভেক্টরগুলি ইউনিট দৈর্ঘ্য এবং উপাদানগুলি অর্থোগোনাল হয়, এটি স্থানাঙ্ক, লোডিং ছাড়া আর কিছুই নয় । উপাদানটির উপর স্কোয়ারড লোডিংয়ের যোগফলটি এর ইজেনভ্যালু হয় (উপাদানটি কেবলমাত্র এই বিষয়টিতে সজ্জিত করে তাই এটি সর্বাধিকতর করে তোলে )

এখানে চিত্র বর্ণনা লিখুন


Addition2। ইন সংযোজন উপরে আমি "পরিবর্তনশীল স্থান" এবং "বিষয় স্থান" সম্বন্ধে বলছিলেন যেন তারা একসাথে পানি এবং তেল মত বেমানান। আমাকে এটি নিয়ে পুনর্বিবেচনা করতে হয়েছিল এবং এটি বলতে পারি - কমপক্ষে যখন আমরা পিসিএ সম্পর্কে কথা বলি - উভয় স্থানই শেষ পর্যন্ত আইসোমর্ফিক হয় এবং সেই গুণ দ্বারা আমরা সমস্ত পিসিএ বিশদ সঠিকভাবে প্রদর্শন করতে পারি - ডেটা পয়েন্ট, ভেরিয়েবল অক্ষ, উপাদান অক্ষ, ভেরিয়েবল হিসাবে পয়েন্ট, - একটি একক অবিস্তৃত বাইপ্লট উপর।

নীচে স্ক্যাটারপ্ল্লট (ভেরিয়েবল স্পেস) এবং লোডিং প্লট (উপাদান স্থান, যা এর জিনগত উত্স অনুসারে স্পেস স্পেস) রয়েছে are সমস্ত কিছু যা একটিতে প্রদর্শিত হতে পারে, অন্যটিতেও প্রদর্শিত হতে পারে। ছবিগুলি অভিন্ন , কেবল 45 ডিগ্রি দ্বারা ঘোরানো (এবং প্রতিবিম্বিত হয়, এই বিশেষ ক্ষেত্রে) একে অপরের সাথে সম্পর্কিত। যে ভেরিয়েবল v1 এ এবং v2 এর একটি পিসিএ ছিল (প্রমিত, এইভাবে এটি ছিল যে বিশ্লেষণ হয়)। ছবিগুলিতে কালো রেখাগুলি অক্ষ হিসাবে পরিবর্তনশীল; সবুজ / হলুদ লাইনগুলি অক্ষ হিসাবে উপাদান; নীল পয়েন্টগুলি হ'ল ডেটা ক্লাউড (বিষয়); লাল পয়েন্টগুলি হল ভেরিয়েবলগুলি পয়েন্ট (ভেক্টর) হিসাবে প্রদর্শিত হয়।

এখানে চিত্র বর্ণনা লিখুন


1
+1 আকর্ষণীয় চিত্র। বিটিডাব্লু, আপনার দ্বিতীয় পর্যবেক্ষণটি ডেটাগুলির একটি নিদর্শন: অভিমুখ পরিবর্তন হয়েছে কারণ প্রথম ক্ষেত্রে পারস্পরিক সম্পর্কটি নিখুঁত ছিল , দ্বি-মাত্রিক ইগেনস্পেস দেওয়া হয়েছিল sp (এটি বাস্তব ডেটাতে অত্যন্ত বিরল; এর অর্থ সাধারণত একটি ডাটাবেস ভুল হয়েছিল এবং একটি ভেরিয়েবল অপরটির রৈখিক পুনঃপ্রকাশ হয় The) সফটওয়্যারটি নির্বিচারে সেই জায়গার জন্য যে কোনও অরথোগোনাল ভিত্তি বেছে নিতে পারে। সংক্ষিপ্ত পরিমাণের মধ্যে কেবল এই ক্ষয়ক্ষতিটি মুছে ফেলা হত। আমি মনে করি, সুতরাং, আপনি এই পুনঃসংশ্লিষ্ট ঘটনাটির অতিরিক্ত ব্যাখ্যা করেন।
whuber

@ শুভ্র, সম্ভবত আমি আপনাকে বুঝতে পারি না। "পারফেক্ট" পারস্পরিক সম্পর্ক কী? r bw X1 এবং X2 ছিল .003; এবং এটি কোনও হতে পারে, উদাহরণস্বরূপ .503। যে হবে কোসাইন্ চক্রান্ত দুটি লাল ভেক্টর BW কোণের। যাই হোক না কেন , 1 ম পিসি সবসময় দ্বিখণ্ডক যখন শুধুমাত্র 2 ভেরিয়েবল বিশ্লেষণে হয়। আমি অনুমান করি যে আপনার নোটটি ভেরিয়েবল স্পেসেরThe software was free to choose any orthogonal basis for that space, arbitrarily বৃত্তাকার মেঘের জন্য প্রযোজ্য (যেমন আপনার উত্তরের প্রথম চিত্রের মতো ডেটা স্ক্র্যাটারপ্লট), তবে লোডিং প্লট বিষয়বস্তু যেখানে ভেরিয়েবলগুলি নয়, পয়েন্টগুলি (ভেক্টর)।
ttnphns

1
দুঃখিত; আমি পারস্পরিক সম্পর্কের নিখুঁত অভাব বলতে চাইছি । আপনার বিশ্লেষণগুলিতে, আপনি কি কোভারিয়েন্স বা পারস্পরিক সম্পর্ক ব্যবহার করেছেন বা অন্যথায় ডেটা সারি বা কলামগুলিকে মানক করেছেন? (সম্ভবত আমি ভুল বুঝেছি, তবে "প্রসঙ্গ" এবং "পরিবর্তনশীল" স্পেসগুলির মধ্যে এই প্রসঙ্গে অর্থবহ আমি খুঁজে পাই না: মূল ভিত্তি ভেক্টর এবং ডেটা উভয়ই এর উপাদান, বলে,, ; the " আমি একটি scatterplot সঙ্গে যে ছবি আঁকা করা হয়নি): লোড চক্রান্ত বিষয় "স্পেস আমার সিমুলেশন মধ্যে 240 মাত্রা আছে"। প্রথম দুই পিসিতে দ্বারা উত্পন্ন subspace সম্মুখের দিকে একটি অভিক্ষেপ আমি বিশ্বাস করি অধিকাংশ লোক লাগবে হয় "R5
whuber

আমি পারস্পরিক সম্পর্ক ব্যবহার করেছি (ম্যাট্রিক্স এবং লাল ভেক্টরগুলি মূলত একই দৈর্ঘ্যের যে বিষয়টি লক্ষ্য করুন)। হ্যাঁ, সাবজেক্ট স্পেস হ'ল এন অক্ষ (বিষয়) এবং পি পয়েন্ট (ভেরিয়েবল) সহ একটি টিউপসি-টর্ভি স্ক্যাটারপ্ল্লট । অবশ্যই, সমস্ত এনপি মাত্রা অপ্রয়োজনীয় এবং পি ভেরিয়েবলের কোনও সেট পি-ডাইমেনশনাল সাবজেক্ট স্পেসে প্লট করা যেতে পারে, তবে এটি এটিকে একটি ভেরিয়েবল স্পেসে রূপান্তরিত করে না! আমি আমার উত্তরে একটি ছবি যুক্ত করব।
ttnphns

5
+1, অতিরিক্ত অবদানের জন্য ধন্যবাদ, @ttnphns ns আমি মূলত যা ভেবেছিলাম তা থেকে এটি পুরোপুরি সরল প্রশ্নটিকে পুরোপুরি তথ্যপূর্ণ থ্রেডে পরিণত করছে।
গাং

4

আপনার কাগজ থেকে বিশদ ছাড়াই, আমি অনুমান করব যে উচ্চ-সংযুক্তিযুক্ত ভেরিয়েবলগুলির এই বিলোপটি কেবল গণনামূলক শক্তি বা কাজের চাপকে বাঁচানোর জন্য করা হয়েছিল। পিসিএ কেন অত্যন্ত সংযুক্ত ভেরিয়েবলগুলির জন্য 'ব্রেক' করবে তার কারণ আমি দেখতে পাচ্ছি না। পিসিএ-র প্রাপ্ত বেসগুলিতে ডেটা প্রজেক্ট করার ফলে ডেটা সাদা করার (বা সেগুলি ডি-রিলেক্টেটিং) প্রভাব রয়েছে। এটিই পিসিএর পেছনে পুরো পয়েন্ট।


4
আপনি কি @ttnphns দ্বারা ইঙ্গিতটি পড়েছেন? পিসিএ কেবলমাত্র ইগেনভেেক্টরগুলিতে (যা আপনি আলোচনা করেন) তা নয়, তবে ইগেনভ্যালুগুলিতেও (যা আপনি উপেক্ষা করছেন) মনোযোগ দেয়। এটি সমালোচনামূলক, কারণ ইগেনভ্যালুগুলি কোন উপাদানগুলি বজায় রাখতে হবে এবং কোনটি বাদ দিতে হবে তা নির্ধারণ করতে ব্যবহৃত হয়।
whuber

2
@ হ্যাঁ হ্যাঁ ... হ্যাঁ আমি মনে করি এটি এখনই পেয়েছি। সুতরাং মূলত, আরও সংযুক্ত ভেরিয়েবলগুলি নির্দিষ্ট ইগেনভেেক্টরগুলিকে (দিকনির্দেশগুলি) অতিরিক্ত জোর দেয় এবং যদি এখানে অনেকগুলি সম্পর্কযুক্ত ভেরিয়েবল থাকে তবে সেখানে আরও অনেক বেশি 'জাল' দিকনির্দেশ থাকবে, যা একটি 'আসল' ইগেনভেেক্টর / দিককে ডুবিয়ে দেবে অন্যথায় সহজেই দেখা গেছে। আমি কি তোমাকে ঠিক বুঝতে পারছি?
স্পেসি

2
বেশ কাছাকাছি, মোহাম্মদ। বাস্তবতাটি হ'ল পারস্পরিক সম্পর্কযুক্ত ভেরিয়েবলগুলির একটি সেট বিভিন্ন প্রধান উপাদানগুলির ("ইগেনভেেক্টর)" -এ "লোড" হতে পারে, সুতরাং এই জাতীয় সেট থেকে অনেকগুলি ভেরিয়েবলগুলি পৃথকভাবে অনেকগুলি আইজেনভেেক্টরকে ওজন করতে পারে - এবং এর ফলে সমস্ত ইগেনভেেক্টরগুলির দিকও পরিবর্তন করে।
হোবার

1

আমার বুঝতে পারস্পরিক সম্পর্কযুক্ত ভেরিয়েবলগুলি ঠিক আছে, কারণ পিসিএ অর্টোগোনাল ভেক্টরকে আউটপুট করে।


5
আপনি ঠিকই বলেছেন, তবে কেন আগে থেকেই ভেরিয়েবলগুলি বাতিল করার বিষয়ে অরথোগোনালটির কোনও প্রভাব রয়েছে তা বোঝাতে আপনি কি আপত্তি করবেন?
হোবার

-1

ঠিক আছে, এটি আপনার অ্যালগরিদমের উপর নির্ভর করে। উচ্চতর সম্পর্কযুক্ত ভেরিয়েবলগুলির অর্থ অসুস্থ শর্তযুক্ত ম্যাট্রিক্স হতে পারে। আপনি যদি এমন একটি অ্যালগরিদম ব্যবহার করেন যা এটি সংবেদনশীল যে এটি সংবেদনশীল হতে পারে। তবে আমি সাহস করে বলতে পারি যে ইগেনালুগুলি এবং ইগেনভেেক্টরগুলি ক্র্যাঙ্ক করার জন্য ব্যবহৃত আধুনিক আলগোরিদিমগুলির বেশিরভাগই এটি দৃ rob়। উচ্চতর সম্পর্কযুক্ত ভেরিয়েবলগুলি অপসারণ করার চেষ্টা করুন। ইগেনভ্যালু এবং ইগেনভেক্টর কি অনেক বেশি বদলে যায়? যদি তারা তা করে, তবে অসুস্থতার উত্তর হতে পারে যেহেতু উচ্চতর সংযুক্ত ভেরিয়েবলগুলি তথ্য যোগ করে না, পিসিএ পচে যাওয়া উচিত নয়


4
দুর্ভাগ্যবশত, পিসিএ করে পরিবর্তন করুন: এটা প্রায় নিশ্চিত এর।
শুক্র

1
@ হু হু ওয়াউ, বিপুল পরিমাণে প্রতিক্রিয়া এবং খুব তথ্যপূর্ণ। আমার মন্তব্যের জন্য দুঃখিত, এটি সম্পূর্ণ ভুল ছিল। আমার খারাপ। খুব তথ্যমূলক উত্তর
বিটিডাব্লু

4
আমি সম্পূর্ণ ভুল উত্তরগুলি থেকে সবচেয়ে বেশি শিখি, জুয়ানাসেন্ট্রো - বিশেষত আমার নিজের, যা ভাগ্যক্রমে জনসাধারণের কাছে খুব কমই পাওয়া যায় :-)। @Ttnphns একটি মন্তব্য না দেওয়া পর্যন্ত আমার মত আপনার মত ধারণা ছিল।
whuber

-1

আপনি কোন নীতি উপাদান নির্বাচন পদ্ধতি ব্যবহার করেন তা নির্ভর করে?

আমি কোনও ইগেনভ্যালু> 1 সহ কোনও নীতি উপাদান ব্যবহার করার প্রবণতা রাখি So সুতরাং এটি আমার প্রভাব ফেলবে না।

এবং উপরের উদাহরণগুলি থেকে এমনকি স্ক্রি প্লটের পদ্ধতিটিও সাধারণত সঠিকটি বেছে নেবে। আপনি যদি সমস্ত কিছু পূর্বেই রাখেন তবে। তবে আপনি যদি কেবল 'প্রভাবশালী' ইগন্যাল্যুয়ের সাথে মূল উপাদানটি বেছে নেন তবে আপনি বিপথগামী হবেন। তবে এটি কোনও স্ক্রি প্লট ব্যবহারের সঠিক উপায় নয়!


5
ক্রিস, সাইটে আপনাকে স্বাগতম। দুর্ভাগ্যক্রমে, এই অ্যাড-হক পদ্ধতিগুলির কোনওটিই বিশেষভাবে ডিফেন্সেবল নয়। লক্ষ্য করুন যে প্রথম ক্ষেত্রে আপনি সব সময়ে আপনার ডেটার আকৃতি পরিবর্তন এবং নির্বাচন থেকে যান না পারে সব নির্বাচন করার তাদের কেউ (ঠিক একটি ধ্রুবক দ্বারা সবকিছু গুন দ্বারা) তাদের।
কার্ডিনাল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.