পিসিএ এবং পিএলএসে "লোডিংস" এবং "পারস্পরিক সম্পর্ক লোডিংয়ের" মধ্যে পার্থক্য কী?

প্রিন্সিপাল কম্পোনেন্ট অ্যানালাইসিস (পিসিএ) করার সময় একটি সাধারণ জিনিস হ'ল ভেরিয়েবলের মধ্যে সম্পর্কগুলি তদন্ত করতে একে অপরের বিরুদ্ধে দুটি লোড প্লট করা। প্রিন্সিপাল কম্পোনেন্ট রিগ্রেশন এবং পিএলএস রিগ্রেশন করার জন্য পিএলএস আর প্যাকেজ সহ পেপারে একটি আলাদা প্লট রয়েছে, যার নাম পারস্পরিক সম্পর্ক লোডিংস প্লট (কাগজে চিত্র 7 এবং পৃষ্ঠা 15 দেখুন)। পারস্পরিক সম্পর্ক লোড , যেমন ব্যাখ্যা করা হয়, (পিসিএ থেকে বা পিএলএস) স্কোর মধ্যে পারস্পরিক এবং প্রকৃত পর্যবেক্ষিত তথ্য।

আমার কাছে মনে হয় লোডিংস এবং পারস্পরিক সম্পর্কের লোডগুলি বেশ কিছুটা অনুরূপ, ব্যতীত সেগুলি কিছুটা আলাদাভাবে ছোট করে দেওয়া হয়। আর্টে একটি পুনরুত্পাদনযোগ্য উদাহরণ, ডেটা সেট এম্টকার্স অন্তর্নির্মিত সহ নিম্নরূপ:

data(mtcars)
pca <- prcomp(mtcars, center=TRUE, scale=TRUE)

#loading plot
plot(pca$rotation[,1], pca$rotation[,2],
     xlim=c(-1,1), ylim=c(-1,1),
     main='Loadings for PC1 vs. PC2')

#correlation loading plot
correlationloadings <- cor(mtcars, pca$x)
plot(correlationloadings[,1], correlationloadings[,2],
     xlim=c(-1,1), ylim=c(-1,1),
     main='Correlation Loadings for PC1 vs. PC2')

loadingplot correlationloadinsplot

এই প্লটগুলির ব্যাখ্যার মধ্যে পার্থক্য কী? এবং কোন প্লটটি (যদি থাকে) বাস্তবে ব্যবহার করা ভাল?

— user1593755
সূত্র

পিসিএর আরও ভাল দেখার জন্য, বাইপ্লট (পিসিএ) ব্যবহার করুন এটি আপনাকে পিসিএর লোডিং এবং স্কোরগুলি দেখায় এবং যাতে আপনি এটি আরও ভালভাবে ব্যাখ্যা করতে পারেন।

— পল

R prcompপ্যাকেজ বেপরোয়াভাবে ইগেনভেেক্টরগুলিকে "লোডিং" বলে calls আমি এই শর্তগুলি পৃথক রাখতে পরামর্শ দিই । লোডিংগুলি সম্পর্কিত ইগেনভ্যালুগুলি পর্যন্ত মাপসই করা আইজেনভেেক্টর।

— ttnphns

লোডিং প্লটের জ্যামিতির ব্যাখ্যা: stats.stackexchange.com/a/119758/3277

— ttnphns

সতর্কতা: Rবিভ্রান্তিকর উপায়ে "লোডিং" শব্দটি ব্যবহার করে। আমি এটি নীচে ব্যাখ্যা।

কলামগুলিতে (কেন্দ্রিক) ভেরিয়েবল এবং সারিগুলিতে ডাটা পয়েন্ট সহ ডেটাসেট Consider বিবেচনা করুন । এই ডেটাসেটের পিসিএ সম্পাদন করা একক মান । কলামগুলি মূল উপাদান (পিসি "স্কোর") এবং of এর কলামগুলি মূল অক্ষ হয়। কোভারিয়েন্স ম্যাট্রিক্স given , সুতরাং প্রধান অক্ষগুলি the কোভারিয়েন্স ম্যাট্রিক্সের ইগেনভেেক্টর। $\mathbf{X}$ $N$ $\mathbf{X} = \mathbf{U} \mathbf{S} \mathbf{V}^\top$ $\mathbf{US}$ $\mathbf{V}$ $\frac{1}{N-1}\mathbf{X}^\top\mathbf{X} = \mathbf{V}\frac{\mathbf{S}^2}{{N-1}}\mathbf{V}^\top$ $\mathbf{V}$

"লোডিংস" কে rac কলাম হিসাবে সংজ্ঞায়িত করা হয়েছে , অর্থাত এগুলি সম্পর্কিত eigenvalues এর বর্গমূল দ্বারা স্কেল করা eigenvectors। এরা আইজেনভেেক্টর থেকে আলাদা! অনুপ্রেরণার জন্য আমার উত্তর এখানে দেখুন । $\mathbf{L}=\mathbf{V}\frac{\mathbf S}{\sqrt{N-1}}$

এই আনুষ্ঠানিকতা ব্যবহার করে, আমরা আসল ভেরিয়েবল এবং মানকৃত পিসিগুলির মধ্যে ক্রস-কোভেরিয়েন্স ম্যাট্রিক্স গণনা করতে পারি: অর্থাৎ এটি লোডিং দ্বারা দেওয়া হয়। মূল ভেরিয়েবল এবং পিসিগুলির মধ্যে ক্রস-সম্পর্ক সম্পর্কিত ম্যাট্রিক্সটি মূল ভেরিয়েবলগুলির মান বিচ্যুতির (পারস্পরিক সম্পর্কের সংজ্ঞা দ্বারা) দ্বারা বিভক্ত একই অভিব্যক্তি দ্বারা দেওয়া হয়। মূল ভেরিয়েবলগুলি পিসিএ সম্পাদনের পূর্বে যদি মানক করা হয় (যেমন পিসিএ পারস্পরিক সম্পর্ক ম্যাট্রিক্সে সঞ্চালিত হয়েছিল) তবে এগুলি সমস্ত সমান । এই শেষ যদি ক্রস কোরিলেশন ম্যাট্রিক্স আবার কেবল দেওয়া হয় ।

\frac{1}{N - 1} X^{⊤} (\sqrt{N - 1} U) = \frac{1}{\sqrt{N - 1}} V S U^{⊤} U = \frac{1}{\sqrt{N - 1}} V S = L,

$\frac{1}{N-1}\mathbf{X}^\top(\sqrt{N-1}\mathbf{U}) = \frac{1}{\sqrt{N-1}}\mathbf{V}\mathbf{S}\mathbf{U}^\top\mathbf{U} = \frac{1}{\sqrt{N-1}}\mathbf{V}\mathbf{S}=\mathbf{L},$

1

$1$

L

$\mathbf{L}$

পরিভাষাজনিত বিভ্রান্তি দূর করতে: আর প্যাকেজটি "লোডিংস" কে মূল অক্ষ হিসাবে চিহ্নিত করে এবং এটি "পারস্পরিক সম্পর্ক লোডিংস" বলে যা সত্য বিষয়গুলির লোডিংগুলিতে (পারস্পরিক সম্পর্ক ম্যাট্রিক্সে করা পিসিএর জন্য)। আপনি যেমন লক্ষ্য করেছেন, সেগুলি কেবল স্কেলিংয়ের ক্ষেত্রেই পৃথক। কি চক্রান্ত করা ভাল, আপনি কি দেখতে চান তার উপর নির্ভর করে। নিম্নলিখিত সাধারণ উদাহরণ বিবেচনা করুন:

Biplots

বাম সাবপ্ল্লট একটি মূলক 2D ডেটাসেট দেখায় (প্রতিটি ভেরিয়েবলের ইউনিট ভেরিয়েন্স থাকে), মূল তির্যকটি প্রসারিত। মিডল সাবপ্লট একটি বাইপ্লট : এটি পিসি বনাম পিসি 2 এর একটি বিক্ষিপ্ত প্লট (এই ক্ষেত্রে কেবল ডেটাসেটটি 45 ডিগ্রি দ্বারা আবর্তিত) ভেক্টর হিসাবে শীর্ষে প্লট করা হয়েছে of এর সারি দ্বারা । নোট করুন যে এবং ভেক্টরগুলি 90 ডিগ্রি পৃথক; তারা আপনাকে জানায় যে কীভাবে মূল অক্ষগুলি ওরিয়েন্টেড। রাইট উপকাহিনী একই biplot, কিন্তু এখন ভেক্টর সারি দেন । নোট করুন যে এখন এবং ভেক্টরগুলির মধ্যে একটি তীব্র কোণ রয়েছে; তারা আপনাকে জানিয়ে দেয় যে কতগুলি মূল ভেরিয়েবলগুলি পিসি, এবং উভয় এবং সাথে সম্পর্কিত lated $\mathbf{V}$ $x$ $y$ $\mathbf{L}$ $x$ $y$ $x$ $y$ পিসি 2 এর তুলনায় পিসি 1 এর সাথে অনেক বেশি শক্তিশালী সম্পর্কযুক্ত। আমি অনুমান করি যে বেশিরভাগ লোকেরা প্রায়শই সঠিক ধরণের বাইপ্লট দেখতে পছন্দ করেন।

লক্ষ্য করুন যে উভয় ক্ষেত্রেই এবং ভেক্টরের উভয় ইউনিটের দৈর্ঘ্য রয়েছে। এটি কেবলমাত্র ঘটেছিল কারণ ডেটাসেটটি শুরু করতে 2D ছিল; যদি আরও ভেরিয়েবল থাকে তবে পৃথক ভেক্টরগুলির দৈর্ঘ্য কম হতে পারে তবে তারা কখনও ইউনিট বৃত্তের বাইরে পৌঁছতে পারে না। এই সত্যের প্রমাণ আমি একটি অনুশীলন হিসাবে ছেড়ে চলেছি। $x$ $y$ $1$

আসুন এখন আমরা এমটিকার্স ডেটাসেটের উপর অন্য নজর রাখি । পারস্পরিক সম্পর্ক মেট্রিক্সে করা পিসিএর একটি বাইপ্লট এখানে রয়েছে:

এমটিকার্স পিসিএ বাইপ্লট

কালো রেখা ব্যবহার অঙ্কিত হয় , লাল লাইন ব্যবহার অঙ্কিত হয় । $\mathbf{V}$ $\mathbf{L}$

এবং এখানে সমবায় ম্যাট্রিক্সে করা পিসিএর একটি বাইপ্লট রয়েছে:

এমটিকার্স পিসিএ বাইপ্লট

এখানে আমি সমস্ত ভেক্টর এবং ইউনিট বৃত্তটিকে দ্বারা , কারণ অন্যথায় এটি দৃশ্যমান হবে না (এটি একটি ব্যবহৃত ব্যবহৃত কৌশল)। আবার, কালো রেখাগুলি of এর সারি দেখায় এবং লাল রেখাগুলি ভেরিয়েবল এবং পিসিগুলির মধ্যে পারস্পরিক সম্পর্ক দেখায় (যা by দ্বারা আর দেওয়া হয় না, উপরে দেখুন)। লক্ষ্য করুন যে কেবল দুটি কালো রেখা দৃশ্যমান; এটি কারণ দুটি ভেরিয়েবলের খুব উচ্চতম বৈকল্পিক থাকে এবং এমটকার্স ডেটাসেটে আধিপত্য থাকে । অন্যদিকে, সমস্ত লাল রেখা দেখা যায়। উভয় উপস্থাপনা কিছু দরকারী তথ্য বহন করে। $100$ $\mathbf{V}$ $\mathbf{L}$

PS পিসিএ বাইপলটগুলির বিভিন্ন রূপ রয়েছে, আরও কিছু ব্যাখ্যা এবং একটি ওভারভিউয়ের জন্য আমার উত্তরটি এখানে দেখুন: পিসিএ বাইপ্লটের উপর তীর স্থাপন করা । ক্রসভিলেটেডে পোস্ট করা সবচেয়ে সুন্দর বাইপলট এখানে পাওয়া যাবে ।

— জীবাণুবিশেষ
সূত্র

যদিও এটি একটি খুব ভাল উত্তর (+1), এটির মধ্যে কেবলমাত্র একটি বৈজ্ঞানিক দুর্বলতা রয়েছে, এটি প্রাথমিকভাবে এক্সের সারিগুলিতে ভেরিয়েবলগুলি রাখে, এক্সের কলামগুলিতে নয় যা traditionতিহ্যগতভাবে পরিসংখ্যানগত ডেটাসেট / উদাহরণগুলিতে যায়। সেই ট্রান্সপোজের কারণে, ইউ ভেক্টরগুলি ক্ষেত্রে ভেরিয়েবল এবং ভি সম্পর্কে উত্তরের হয়ে ওঠে। পিসিএ জানার বেশিরভাগ লোক বিপরীত বিন্যাসে অভ্যস্ত; সুতরাং এটি উপলব্ধি বাধা দেয়, কিছুটা।

— ttnphns

আমি স্ক্যানের "অক্ষগুলি বিপ্লট" এবং "লোডিং বিপ্লট" এর মধ্যে পার্থক্যটির মৌখিকভাবে "নৈতিক" চাপ দেওয়ার পরামর্শ দিতে পারি। প্রথমটিতে, পরিবর্তনশীলতা (= স্কেল, = প্রশস্ততা, = জড়তা, = ভর) উপস্থাপন করা হয় নি: এটি ইজেনভ্যালুতে সঞ্চিত। দ্বিতীয়টিতে, এটি ভেরিয়েবলগুলির প্রতিনিধিত্বকারী ইগেনভেেক্টরগুলিকে সম্পূর্ণরূপে দেওয়া হয়েছিল; সেই "পুনরজীবন" এর ফলে ভেরিয়েবলগুলি মূল এবং নির্দিষ্ট কোণ থেকে নির্দিষ্ট দৈর্ঘ্য সহ দুটি পয়েন্ট বা ভেক্টরগুলির অর্থবহ ডেটা ক্লাউড হয়ে যায়। এভাবেই আমরা বিষয়বস্তুতে "হঠাৎ" নিজেকে আবিষ্কার করি ।

— ttnphns

উভয় ভাল পয়েন্ট, ধন্যবাদ @ttnphns। এর সারি / কলামগুলি সম্পর্কিত : আসলে, আমি আমার ব্যবহৃত লেআউটটি পছন্দ করি। একটি একক ডাটা পয়েন্ট সাধারণত কলাম ভেক্টর হিসাবে লেখা হয় । এতে অভিনয় করা একটি ম্যাট্রিক্স হিসাবে লেখা হবে । যদি এখন একসাথে স্তুপযুক্ত কলামের ভেক্টরগুলির একটি সংগ্রহ হয়, তবে আমি লিখতে পারি , এটি সুবিধাজনক। যদি পরিবর্তে, সারিগুলিতে নমুনাগুলি রয়েছে, যেমন আপনি উকিল করেন, তবে আমাকে write লিখতে হবে যা অদ্ভুত দেখাচ্ছে। তবে আমি স্বীকার করি যে অনেক পাঠ্যপুস্তক এই কনভেনশনটি ব্যবহার করে (কেন তা আমি নিশ্চিত নই)।

X

$\mathbf X$

x

$\mathbf x$

U

$\mathbf U$

U x

$\mathbf U \mathbf x$

X

$\mathbf X$

U X

$\mathbf U\mathbf X$

X

$\mathbf X$

X U^{⊤}

$\mathbf X \mathbf U^\top$

— অ্যামিবা

এটি অবশ্যই স্বাদের বিষয়। মনে রাখবেন যে, সংখ্যাগরিষ্ঠ সংখ্যাগুরুত্বপূর্ণ প্রোগ্রামগুলি ডেটা স্প্রেডশিট হিসাবে দেখায় cases X variables। Traditionতিহ্য অনুসারে, বেশিরভাগ পরিসংখ্যান বিশ্লেষণ পাঠ্যে লিনিয়ার বীজগণিত কেসটিকে একটি সারি ভেক্টর করে তোলে। মেশিন লার্নিংয়ে কি অন্যরকম হতে পারে?

— ttnphns

@ ব্যবহারকারীর_নন না, এই উত্তরটি কোনও ফ্যাক্টর আবর্তন ছাড়াই মানক পিসিএ হিসাবে বিবেচনা করে।

— অ্যামিবা