পিসিএ এবং পিএলএসে "লোডিংস" এবং "পারস্পরিক সম্পর্ক লোডিংয়ের" মধ্যে পার্থক্য কী?


11

প্রিন্সিপাল কম্পোনেন্ট অ্যানালাইসিস (পিসিএ) করার সময় একটি সাধারণ জিনিস হ'ল ভেরিয়েবলের মধ্যে সম্পর্কগুলি তদন্ত করতে একে অপরের বিরুদ্ধে দুটি লোড প্লট করা। প্রিন্সিপাল কম্পোনেন্ট রিগ্রেশন এবং পিএলএস রিগ্রেশন করার জন্য পিএলএস আর প্যাকেজ সহ পেপারে একটি আলাদা প্লট রয়েছে, যার নাম পারস্পরিক সম্পর্ক লোডিংস প্লট (কাগজে চিত্র 7 এবং পৃষ্ঠা 15 দেখুন)। পারস্পরিক সম্পর্ক লোড , যেমন ব্যাখ্যা করা হয়, (পিসিএ থেকে বা পিএলএস) স্কোর মধ্যে পারস্পরিক এবং প্রকৃত পর্যবেক্ষিত তথ্য।

আমার কাছে মনে হয় লোডিংস এবং পারস্পরিক সম্পর্কের লোডগুলি বেশ কিছুটা অনুরূপ, ব্যতীত সেগুলি কিছুটা আলাদাভাবে ছোট করে দেওয়া হয়। আর্টে একটি পুনরুত্পাদনযোগ্য উদাহরণ, ডেটা সেট এম্টকার্স অন্তর্নির্মিত সহ নিম্নরূপ:

data(mtcars)
pca <- prcomp(mtcars, center=TRUE, scale=TRUE)

#loading plot
plot(pca$rotation[,1], pca$rotation[,2],
     xlim=c(-1,1), ylim=c(-1,1),
     main='Loadings for PC1 vs. PC2')

#correlation loading plot
correlationloadings <- cor(mtcars, pca$x)
plot(correlationloadings[,1], correlationloadings[,2],
     xlim=c(-1,1), ylim=c(-1,1),
     main='Correlation Loadings for PC1 vs. PC2')

loadingplot correlationloadinsplot

এই প্লটগুলির ব্যাখ্যার মধ্যে পার্থক্য কী? এবং কোন প্লটটি (যদি থাকে) বাস্তবে ব্যবহার করা ভাল?


পিসিএর আরও ভাল দেখার জন্য, বাইপ্লট (পিসিএ) ব্যবহার করুন এটি আপনাকে পিসিএর লোডিং এবং স্কোরগুলি দেখায় এবং যাতে আপনি এটি আরও ভালভাবে ব্যাখ্যা করতে পারেন।
পল

6
R prcompপ্যাকেজ বেপরোয়াভাবে ইগেনভেেক্টরগুলিকে "লোডিং" বলে calls আমি এই শর্তগুলি পৃথক রাখতে পরামর্শ দিই । লোডিংগুলি সম্পর্কিত ইগেনভ্যালুগুলি পর্যন্ত মাপসই করা আইজেনভেেক্টর।
ttnphns

1
লোডিং প্লটের জ্যামিতির ব্যাখ্যা: stats.stackexchange.com/a/119758/3277
ttnphns

উত্তর:


13

সতর্কতা: Rবিভ্রান্তিকর উপায়ে "লোডিং" শব্দটি ব্যবহার করে। আমি এটি নীচে ব্যাখ্যা।

কলামগুলিতে (কেন্দ্রিক) ভেরিয়েবল এবং সারিগুলিতে ডাটা পয়েন্ট সহ ডেটাসেট Consider বিবেচনা করুন । এই ডেটাসেটের পিসিএ সম্পাদন করা একক মান । কলামগুলি মূল উপাদান (পিসি "স্কোর") এবং of এর কলামগুলি মূল অক্ষ হয়। কোভারিয়েন্স ম্যাট্রিক্স given , সুতরাং প্রধান অক্ষগুলি the কোভারিয়েন্স ম্যাট্রিক্সের ইগেনভেেক্টর।XNX=USVUSV1N1XX=VS2N1VV

"লোডিংস" কে rac কলাম হিসাবে সংজ্ঞায়িত করা হয়েছে , অর্থাত এগুলি সম্পর্কিত eigenvalues ​​এর বর্গমূল দ্বারা স্কেল করা eigenvectors। এরা আইজেনভেেক্টর থেকে আলাদা! অনুপ্রেরণার জন্য আমার উত্তর এখানে দেখুনL=VSN1

এই আনুষ্ঠানিকতা ব্যবহার করে, আমরা আসল ভেরিয়েবল এবং মানকৃত পিসিগুলির মধ্যে ক্রস-কোভেরিয়েন্স ম্যাট্রিক্স গণনা করতে পারি: অর্থাৎ এটি লোডিং দ্বারা দেওয়া হয়। মূল ভেরিয়েবল এবং পিসিগুলির মধ্যে ক্রস-সম্পর্ক সম্পর্কিত ম্যাট্রিক্সটি মূল ভেরিয়েবলগুলির মান বিচ্যুতির (পারস্পরিক সম্পর্কের সংজ্ঞা দ্বারা) দ্বারা বিভক্ত একই অভিব্যক্তি দ্বারা দেওয়া হয়। মূল ভেরিয়েবলগুলি পিসিএ সম্পাদনের পূর্বে যদি মানক করা হয় (যেমন পিসিএ পারস্পরিক সম্পর্ক ম্যাট্রিক্সে সঞ্চালিত হয়েছিল) তবে এগুলি সমস্ত সমান । এই শেষ যদি ক্রস কোরিলেশন ম্যাট্রিক্স আবার কেবল দেওয়া হয় ।

1N1X(N1U)=1N1VSUU=1N1VS=L,
1L

পরিভাষাজনিত বিভ্রান্তি দূর করতে: আর প্যাকেজটি "লোডিংস" কে মূল অক্ষ হিসাবে চিহ্নিত করে এবং এটি "পারস্পরিক সম্পর্ক লোডিংস" বলে যা সত্য বিষয়গুলির লোডিংগুলিতে (পারস্পরিক সম্পর্ক ম্যাট্রিক্সে করা পিসিএর জন্য)। আপনি যেমন লক্ষ্য করেছেন, সেগুলি কেবল স্কেলিংয়ের ক্ষেত্রেই পৃথক। কি চক্রান্ত করা ভাল, আপনি কি দেখতে চান তার উপর নির্ভর করে। নিম্নলিখিত সাধারণ উদাহরণ বিবেচনা করুন:

Biplots

বাম সাবপ্ল্লট একটি মূলক 2D ডেটাসেট দেখায় (প্রতিটি ভেরিয়েবলের ইউনিট ভেরিয়েন্স থাকে), মূল তির্যকটি প্রসারিত। মিডল সাবপ্লট একটি বাইপ্লট : এটি পিসি বনাম পিসি 2 এর একটি বিক্ষিপ্ত প্লট (এই ক্ষেত্রে কেবল ডেটাসেটটি 45 ডিগ্রি দ্বারা আবর্তিত) ভেক্টর হিসাবে শীর্ষে প্লট করা হয়েছে of এর সারি দ্বারা । নোট করুন যে এবং ভেক্টরগুলি 90 ডিগ্রি পৃথক; তারা আপনাকে জানায় যে কীভাবে মূল অক্ষগুলি ওরিয়েন্টেড। রাইট উপকাহিনী একই biplot, কিন্তু এখন ভেক্টর সারি দেন । নোট করুন যে এখন এবং ভেক্টরগুলির মধ্যে একটি তীব্র কোণ রয়েছে; তারা আপনাকে জানিয়ে দেয় যে কতগুলি মূল ভেরিয়েবলগুলি পিসি, এবং উভয় এবং সাথে সম্পর্কিত latedVxyLxyxyপিসি 2 এর তুলনায় পিসি 1 এর সাথে অনেক বেশি শক্তিশালী সম্পর্কযুক্ত। আমি অনুমান করি যে বেশিরভাগ লোকেরা প্রায়শই সঠিক ধরণের বাইপ্লট দেখতে পছন্দ করেন।

লক্ষ্য করুন যে উভয় ক্ষেত্রেই এবং ভেক্টরের উভয় ইউনিটের দৈর্ঘ্য রয়েছে। এটি কেবলমাত্র ঘটেছিল কারণ ডেটাসেটটি শুরু করতে 2D ছিল; যদি আরও ভেরিয়েবল থাকে তবে পৃথক ভেক্টরগুলির দৈর্ঘ্য কম হতে পারে তবে তারা কখনও ইউনিট বৃত্তের বাইরে পৌঁছতে পারে না। এই সত্যের প্রমাণ আমি একটি অনুশীলন হিসাবে ছেড়ে চলেছি।xy1

আসুন এখন আমরা এমটিকার্স ডেটাসেটের উপর অন্য নজর রাখি । পারস্পরিক সম্পর্ক মেট্রিক্সে করা পিসিএর একটি বাইপ্লট এখানে রয়েছে:

এমটিকার্স পিসিএ বাইপ্লট

কালো রেখা ব্যবহার অঙ্কিত হয় , লাল লাইন ব্যবহার অঙ্কিত হয় ।VL

এবং এখানে সমবায় ম্যাট্রিক্সে করা পিসিএর একটি বাইপ্লট রয়েছে:

এমটিকার্স পিসিএ বাইপ্লট

এখানে আমি সমস্ত ভেক্টর এবং ইউনিট বৃত্তটিকে দ্বারা , কারণ অন্যথায় এটি দৃশ্যমান হবে না (এটি একটি ব্যবহৃত ব্যবহৃত কৌশল)। আবার, কালো রেখাগুলি of এর সারি দেখায় এবং লাল রেখাগুলি ভেরিয়েবল এবং পিসিগুলির মধ্যে পারস্পরিক সম্পর্ক দেখায় (যা by দ্বারা আর দেওয়া হয় না, উপরে দেখুন)। লক্ষ্য করুন যে কেবল দুটি কালো রেখা দৃশ্যমান; এটি কারণ দুটি ভেরিয়েবলের খুব উচ্চতম বৈকল্পিক থাকে এবং এমটকার্স ডেটাসেটে আধিপত্য থাকে । অন্যদিকে, সমস্ত লাল রেখা দেখা যায়। উভয় উপস্থাপনা কিছু দরকারী তথ্য বহন করে।100VL

PS পিসিএ বাইপলটগুলির বিভিন্ন রূপ রয়েছে, আরও কিছু ব্যাখ্যা এবং একটি ওভারভিউয়ের জন্য আমার উত্তরটি এখানে দেখুন: পিসিএ বাইপ্লটের উপর তীর স্থাপন করা । ক্রসভিলেটেডে পোস্ট করা সবচেয়ে সুন্দর বাইপলট এখানে পাওয়া যাবে


2
যদিও এটি একটি খুব ভাল উত্তর (+1), এটির মধ্যে কেবলমাত্র একটি বৈজ্ঞানিক দুর্বলতা রয়েছে, এটি প্রাথমিকভাবে এক্সের সারিগুলিতে ভেরিয়েবলগুলি রাখে, এক্সের কলামগুলিতে নয় যা traditionতিহ্যগতভাবে পরিসংখ্যানগত ডেটাসেট / উদাহরণগুলিতে যায়। সেই ট্রান্সপোজের কারণে, ইউ ভেক্টরগুলি ক্ষেত্রে ভেরিয়েবল এবং ভি সম্পর্কে উত্তরের হয়ে ওঠে। পিসিএ জানার বেশিরভাগ লোক বিপরীত বিন্যাসে অভ্যস্ত; সুতরাং এটি উপলব্ধি বাধা দেয়, কিছুটা।
ttnphns

1
আমি স্ক্যানের "অক্ষগুলি বিপ্লট" এবং "লোডিং বিপ্লট" এর মধ্যে পার্থক্যটির মৌখিকভাবে "নৈতিক" চাপ দেওয়ার পরামর্শ দিতে পারি। প্রথমটিতে, পরিবর্তনশীলতা (= স্কেল, = প্রশস্ততা, = জড়তা, = ভর) উপস্থাপন করা হয় নি: এটি ইজেনভ্যালুতে সঞ্চিত। দ্বিতীয়টিতে, এটি ভেরিয়েবলগুলির প্রতিনিধিত্বকারী ইগেনভেেক্টরগুলিকে সম্পূর্ণরূপে দেওয়া হয়েছিল; সেই "পুনরজীবন" এর ফলে ভেরিয়েবলগুলি মূল এবং নির্দিষ্ট কোণ থেকে নির্দিষ্ট দৈর্ঘ্য সহ দুটি পয়েন্ট বা ভেক্টরগুলির অর্থবহ ডেটা ক্লাউড হয়ে যায়। এভাবেই আমরা বিষয়বস্তুতে "হঠাৎ" নিজেকে আবিষ্কার করি ।
ttnphns

উভয় ভাল পয়েন্ট, ধন্যবাদ @ttnphns। এর সারি / কলামগুলি সম্পর্কিত : আসলে, আমি আমার ব্যবহৃত লেআউটটি পছন্দ করি। একটি একক ডাটা পয়েন্ট সাধারণত কলাম ভেক্টর হিসাবে লেখা হয় । এতে অভিনয় করা একটি ম্যাট্রিক্স হিসাবে লেখা হবে । যদি এখন একসাথে স্তুপযুক্ত কলামের ভেক্টরগুলির একটি সংগ্রহ হয়, তবে আমি লিখতে পারি , এটি সুবিধাজনক। যদি পরিবর্তে, সারিগুলিতে নমুনাগুলি রয়েছে, যেমন আপনি উকিল করেন, তবে আমাকে write লিখতে হবে যা অদ্ভুত দেখাচ্ছে। তবে আমি স্বীকার করি যে অনেক পাঠ্যপুস্তক এই কনভেনশনটি ব্যবহার করে (কেন তা আমি নিশ্চিত নই)। এক্সএক্সইউইউএক্সএক্সইউএক্সএক্সএক্সইউ
অ্যামিবা

1
এটি অবশ্যই স্বাদের বিষয়। মনে রাখবেন যে, সংখ্যাগরিষ্ঠ সংখ্যাগুরুত্বপূর্ণ প্রোগ্রামগুলি ডেটা স্প্রেডশিট হিসাবে দেখায় cases X variables। Traditionতিহ্য অনুসারে, বেশিরভাগ পরিসংখ্যান বিশ্লেষণ পাঠ্যে লিনিয়ার বীজগণিত কেসটিকে একটি সারি ভেক্টর করে তোলে। মেশিন লার্নিংয়ে কি অন্যরকম হতে পারে?
ttnphns

1
@ ব্যবহারকারীর_নন না, এই উত্তরটি কোনও ফ্যাক্টর আবর্তন ছাড়াই মানক পিসিএ হিসাবে বিবেচনা করে।
অ্যামিবা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.