@ অ্যামিবা মন্তব্যগুলিতে যেমন উল্লেখ করেছেন, পিসিএ কেবলমাত্র একটি সংস্থার ডেটা দেখবে এবং এটি আপনাকে সেই ভেরিয়েবলগুলির মধ্যে পরিবর্তনের প্রধান (রৈখিক) নিদর্শন, সেই ভেরিয়েবলগুলির মধ্যে পারস্পরিক সম্পর্ক বা সমবায় এবং নমুনার (সারিগুলির মধ্যে সম্পর্ক) প্রদর্শন করবে ) আপনার ডেটা সেট।
একটি প্রজাতির ডেটা সেট এবং সম্ভাব্য বর্ণনামূলক ভেরিয়েবলগুলির স্যুট সহ একটি সাধারণত যা করেন তা হ'ল একটি সীমাবদ্ধ অধ্যাদেশকে ফিট করে। পিসিএতে, প্রধান উপাদানগুলি, পিসিএ বিপ্লটের উপর অক্ষগুলি সমস্ত ভেরিয়েবলের অনুকূল লিনিয়ার সংমিশ্রণ হিসাবে উত্পন্ন হয়। আপনি যদি ভেরিয়েবল পিএইচ সহ মাটির রসায়নের ডেটা সেটটিতে এটি চালিয়ে যান,সিএকটি2 +, টোটাল কার্বন, আপনি দেখতে পাবেন যে প্রথম উপাদানটি ছিল
0.5 × পি এইচ + 1.4 × সেএকটি2 ++ 0.1 × T o t a l C a r b o n
এবং দ্বিতীয় উপাদান
2.7 × পি এইচ + 0.3 × সেএকটি2 +- 5.6 × T o t a l C a r b o n
এই উপাদানগুলি পরিমাপ করা ভেরিয়েবলগুলি থেকে অবাধে নির্বাচনযোগ্য এবং যা চয়ন করা হয় সেগুলি হ'ল ডেটাসেটের ক্রমবর্ধমান বৃহত্তম পরিমাণের প্রকরণ ব্যাখ্যা করে এবং প্রতিটি লিনিয়ার সংমিশ্রণটি অন্যগুলির সাথে অর্থোথোনাল (সাথে সম্পর্কযুক্ত) হয় না।
একটি সীমাবদ্ধ অধ্যাদেশে, আমাদের কাছে দুটি ডেটাসেট রয়েছে, তবে আমরা প্রথম ডেটা সেট (উপরে মাটির কেম ডেটা) এর যে লিনিয়ার সংমিশ্রণগুলি বেছে নিতে চাই তা নির্বাচন করতে আমরা মুক্ত নই। পরিবর্তে আমাদের দ্বিতীয় ডেটা সেটে ভেরিয়েবলের রৈখিক সংমিশ্রণগুলি নির্বাচন করতে হবে যা প্রথমটিতে ভিন্নতাটি সর্বোত্তমভাবে ব্যাখ্যা করে। এছাড়াও, পিসিএর ক্ষেত্রে, একটি ডেটা সেট হ'ল রেসপন্স ম্যাট্রিক্স এবং কোনও ভবিষ্যদ্বাণী নেই (আপনি প্রতিক্রিয়াটিকে নিজের ভবিষ্যদ্বাণী হিসাবে ভাবতে পারেন)। সীমাবদ্ধ ক্ষেত্রে, আমাদের একটি প্রতিক্রিয়া ডেটা সেট রয়েছে যা আমরা ব্যাখ্যামূলক ভেরিয়েবলগুলির সেট দিয়ে ব্যাখ্যা করতে চাই।
যদিও আপনি কোন পরিবর্তনশীল কোন প্রতিক্রিয়া তা ব্যাখ্যা করেননি, সাধারণত কেউ পরিবেশগত ব্যাখ্যামূলক ভেরিয়েবলগুলি ব্যবহার করে species প্রজাতির (অর্থাত্ প্রতিক্রিয়াগুলি) প্রচুর পরিমাণে বা রচনার মধ্যে বিভিন্নতা ব্যাখ্যা করতে চান।
পিসিএর সংকীর্ণ সংস্করণটি বাস্তু সংক্রান্ত চেনাশোনাগুলিতে রিডানডেন্সি অ্যানালাইসিস (আরডিএ) নামে পরিচিত। এটি প্রজাতির জন্য অন্তর্নিহিত রৈখিক প্রতিক্রিয়া মডেল ধরে নিয়েছে, যা আপনার উপযুক্ত বা শুধুমাত্র উপযুক্ত নয় যদি আপনার সংক্ষিপ্ত গ্রেডিয়েন্ট থাকে যেখানে প্রজাতিগুলি প্রতিক্রিয়া জানায়।
পিসিএর বিকল্প হ'ল চিঠিপত্রের বিশ্লেষণ (সিএ) বলে একটি জিনিস। এটি নিয়ন্ত্রণহীন তবে এতে অন্তর্নিহিত সর্বমোহিত প্রতিক্রিয়া মডেল রয়েছে যা প্রজাতিগুলি দীর্ঘতর গ্রেডিয়েন্টগুলির সাথে কীভাবে প্রতিক্রিয়া দেখায় তা আরও কিছুটা বাস্তবসম্মত। সিএ মডেলগুলি তুলনামূলক প্রাচুর্য বা রচনা , পিসিএ কাঁচা প্রাচুর্যের মডেলগুলিও নোট করুন ।
সিএর একটি সীমাবদ্ধ সংস্করণ রয়েছে, যা সীমাবদ্ধ বা ক্যানোনিকাল চিঠিপত্র বিশ্লেষণ (সিসিএ) হিসাবে পরিচিত - ক্যানোনিকাল পারস্পরিক সম্পর্ক বিশ্লেষণ হিসাবে পরিচিত আরও একটি আনুষ্ঠানিক পরিসংখ্যানের মডেলের সাথে বিভ্রান্ত হওয়ার দরকার নেই।
আরডিএ এবং সিসিএ উভয় ক্ষেত্রেই বর্ণনামূলক ভেরিয়েবলের রৈখিক সংমিশ্রনের একটি সিরিজ হিসাবে প্রজাতির প্রাচুর্য বা রচনাগুলির পরিবর্তনের মডেল করা।
বর্ণনা থেকে মনে হচ্ছে আপনার স্ত্রী পরিমাপকৃত অন্যান্য ভেরিয়েবলগুলির ক্ষেত্রে মিলিপেড প্রজাতির রচনা (বা প্রাচুর্য) এর বিভিন্নতা ব্যাখ্যা করতে চান।
সতর্কতার কিছু শব্দ; আরডিএ এবং সিসিএ কেবলমাত্র বহুবিধ রেজিস্ট্রেশন; সিসিএ হ'ল একটি ওজনযুক্ত মাল্টিভারিয়েট রিগ্রেশন। রিগ্রেশন সম্পর্কে আপনি যা কিছু শিখেছেন সেগুলি প্রযোজ্য, এবং আরও কয়েকটি গোটাচা রয়েছে:
- আপনি যেমন ব্যাখ্যামূলক ভেরিয়েবলের সংখ্যা বৃদ্ধি করেন, সীমাবদ্ধতাগুলি আসলে কম এবং কম হয়ে যায় এবং আপনি প্রকৃতপক্ষে প্রজাতিগুলির সংমিশ্রণকে সর্বোত্তমভাবে ব্যাখ্যা করে এমন উপাদান / অক্ষগুলি বের করেন না এবং এবং
- সিসিএর সাথে, আপনি ব্যাখ্যামূলক কারণগুলির সংখ্যা বাড়ানোর সাথে সাথে, আপনি সিসিএ প্লটের বিন্দুগুলির কনফিগারেশনে একটি বক্ররেখার প্রত্নতত্ত্বকে প্ররোচিত করার ঝুঁকি রাখবেন।
- আরডিএ এবং সিসিএ অন্তর্নিহিত তত্ত্বটি আরও আনুষ্ঠানিক পরিসংখ্যান পদ্ধতির তুলনায় কম উন্নত। আমরা কেবল যুক্তিযুক্তভাবে বেছে নিতে পারি যে পদক্ষেপ অনুসারে বাছাই করার জন্য কোন ব্যাখ্যামূলক চলক (যা আমরা রিগ্রেশন নির্বাচনের পদ্ধতি হিসাবে পছন্দ করি না এমন কারণগুলির জন্য আদর্শ নয়) এবং এটি করার জন্য আমাদের অনুমতিপত্র পরীক্ষা করতে হবে।
সুতরাং আমার পরামর্শ যেমন প্রতিরোধের মত একই; আপনার অনুমান কি তা আগে চিন্তা করুন এবং সেই অনুমানগুলি প্রতিফলিত করে এমন ভেরিয়েবলগুলি অন্তর্ভুক্ত করুন। সমস্ত ব্যাখ্যামূলক ভেরিয়েবলগুলি কেবল মিশ্রণে ফেলে দেবেন না ।
উদাহরণ
অনিয়ন্ত্রিত অর্ডিনেশন
পিসিএ
আমি পিসিএ, সিএ এবং সিসিএর তুলনা করে আর এর জন্য ভেগান প্যাকেজ ব্যবহার করে যা একটি রক্ষণাবেক্ষণ করতে সহায়তা করি এবং যা এই ধরণের সমন্বয় পদ্ধতির সাথে খাপ খাইয়ে তৈরি করা হয়েছে তার একটি উদাহরণ দেখাব :
library("vegan") # load the package
data(varespec) # load example data
## PCA
pcfit <- rda(varespec)
## could add `scale = TRUE` if variables in different units
pcfit
> pcfit
Call: rda(X = varespec)
Inertia Rank
Total 1826
Unconstrained 1826 23
Inertia is variance
Eigenvalues for unconstrained axes:
PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8
983.0 464.3 132.3 73.9 48.4 37.0 25.7 19.7
(Showed only 8 of all 23 unconstrained eigenvalues)
ভেজান নিষ্ক্রিয়তা, Canoco অসদৃশ প্রমিত না, তাই মোট ভ্যারিয়েন্স 1826 এবং Eigenvalues ঐ একই ইউনিট এবং 1826 থেকে সমষ্টি রয়েছে
> cumsum(eigenvals(pcfit))
PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8
982.9788 1447.2829 1579.5334 1653.4670 1701.8853 1738.8947 1764.6209 1784.3265
PC9 PC10 PC11 PC12 PC13 PC14 PC15 PC16
1796.6007 1807.0361 1816.3869 1819.1853 1821.5128 1822.9045 1824.1103 1824.9250
PC17 PC18 PC19 PC20 PC21 PC22 PC23
1825.2563 1825.4429 1825.5495 1825.6131 1825.6383 1825.6548 1825.6594
আমরা আরও দেখতে পাই যে প্রথম ইগেনভ্যালু প্রায় অর্ধেক বৈকল্পিক এবং প্রথম দুটি অক্ষের সাহায্যে আমরা মোট ভেরিয়েন্সের ~ 80% ব্যাখ্যা করেছি
> head(cumsum(eigenvals(pcfit)) / pcfit$tot.chi)
PC1 PC2 PC3 PC4 PC5 PC6
0.5384240 0.7927453 0.8651851 0.9056821 0.9322031 0.9524749
প্রথম দুটি প্রধান উপাদানগুলির নমুনা এবং প্রজাতির স্কোর থেকে একটি বিপ্লট আঁকতে পারে
> plot(pcfit)
এখানে দুটি বিষয় আছে
- অর্ডিনেশনটি মূলত তিনটি প্রজাতির দ্বারা আধিপত্য রয়েছে - এই প্রজাতিগুলি উত্স থেকে সবচেয়ে দূরে অবস্থিত - কারণ ডেটা সেটে এটি প্রচুর পরিমাণে ট্যাক্সি হয়
- অর্ডিনেশনে বক্ররেখার একটি দৃ arch় খিলান রয়েছে, একটি দীর্ঘ বা প্রভাবশালী একক গ্রেডিয়েন্টের নির্দেশ যা অধ্যাদেশের মেট্রিক বৈশিষ্ট্যগুলি বজায় রাখার জন্য দুটি প্রধান প্রধান উপাদানকে বিভক্ত করা হয়েছে।
সিএ
একটি সিএ এই উভয় পয়েন্টগুলিতে সহায়তা করতে পারে কারণ এটি দীর্ঘতর গ্রেডিয়েন্টকে ইউনিমোডাল রেসপন্স মডেলের কারণে আরও ভালভাবে পরিচালনা করে, এবং এতে কাঁচা প্রাচুর্য নয় প্রজাতির তুলনামূলক রচনার মডেল রয়েছে।
এটি করার জন্য ভেজান / আর কোডটি উপরে ব্যবহৃত পিসিএ কোডের মতো
cafit <- cca(varespec)
cafit
> cafit <- cca(varespec)
> cafit
Call: cca(X = varespec)
Inertia Rank
Total 2.083
Unconstrained 2.083 23
Inertia is mean squared contingency coefficient
Eigenvalues for unconstrained axes:
CA1 CA2 CA3 CA4 CA5 CA6 CA7 CA8
0.5249 0.3568 0.2344 0.1955 0.1776 0.1216 0.1155 0.0889
(Showed only 8 of all 23 unconstrained eigenvalues)
এখানে আমরা তাদের আপেক্ষিক রচনাতে সাইটের মধ্যে প্রায় 40% পার্থক্য ব্যাখ্যা করি
> head(cumsum(eigenvals(cafit)) / cafit$tot.chi)
CA1 CA2 CA3 CA4 CA5 CA6
0.2519837 0.4232578 0.5357951 0.6296236 0.7148866 0.7732393
প্রজাতির যৌথ প্লট এবং সাইট স্কোর এখন কয়েকটি প্রজাতির দ্বারা কম আধিপত্য রয়েছে
> plot(cafit)
আপনি কোন পিসিএ বা সিএ নির্বাচন করেছেন তা ডেটা জিজ্ঞাসা করতে ইচ্ছুক প্রশ্নগুলির মাধ্যমে নির্ধারণ করা উচিত। সাধারণত প্রজাতির ডেটা সহ আমরা প্রায়শই প্রজাতির স্যুটটিতে পার্থক্য করতে আগ্রহী তাই সিএ একটি জনপ্রিয় পছন্দ। আমরা পরিবেশগত ভেরিয়েবল একটি ডেটা সেট থাকে, তাহলে বলতে জল বা মাটি রসায়ন, আমরা তাই সিএ অনুপযুক্ত হতে হবে এবং পিসিএ হবে গ্রেডিয়েন্ট বরাবর একটি unimodal পদ্ধতিতে সাড়া সেই আশা করবেন না (ক পারস্পরিক সম্পর্ক ম্যাট্রিক্স ব্যবহার scale = TRUE
মধ্যে rda()
কল) হবে আরো যথার্থ.
বাধা অর্ডিনেশন; CCA
এখন যদি আমাদের কাছে দ্বিতীয় সেট ডেটা থাকে যা আমরা প্রথম প্রজাতির ডেটা সেটে নিদর্শনগুলি ব্যাখ্যা করতে ব্যবহার করতে চাই, আমাদের অবশ্যই একটি সীমাবদ্ধ অধ্যাদেশ ব্যবহার করতে হবে। প্রায়শই এখানে পছন্দটি সিসিএ হয়, তবে আরডিএ একটি বিকল্প, যেমনটি প্রজাতির ডেটা আরও ভালভাবে পরিচালনা করার জন্য ডেটা পরিবর্তনের পরে আরডিএ।
data(varechem) # load explanatory example data
আমরা cca()
ফাংশনটি পুনরায় ব্যবহার করি তবে আমরা হয় দুটি তথ্য ফ্রেম সরবরাহ করি ( X
প্রজাতির জন্য, এবং Y
ব্যাখ্যা / ভবিষ্যদ্বাণীকারী ভেরিয়েবলগুলির জন্য) অথবা একটি মডেল সূত্র যা আমরা ফিট করতে চাই তার ফর্মটি তালিকাবদ্ধ করে listing
সমস্ত ভেরিয়েবলগুলি অন্তর্ভুক্ত করতে আমরা সমস্ত ভেরিয়েবলগুলি অন্তর্ভুক্ত করার varechem ~ ., data = varechem
জন্য সূত্র হিসাবে ব্যবহার করতে পারি - তবে আমি উপরে যেমন বলেছি, এটি সাধারণভাবে ভাল ধারণা নয়
ccafit <- cca(varespec ~ ., data = varechem)
> ccafit
Call: cca(formula = varespec ~ N + P + K + Ca + Mg + S + Al + Fe + Mn +
Zn + Mo + Baresoil + Humdepth + pH, data = varechem)
Inertia Proportion Rank
Total 2.0832 1.0000
Constrained 1.4415 0.6920 14
Unconstrained 0.6417 0.3080 9
Inertia is mean squared contingency coefficient
Eigenvalues for constrained axes:
CCA1 CCA2 CCA3 CCA4 CCA5 CCA6 CCA7 CCA8 CCA9 CCA10 CCA11
0.4389 0.2918 0.1628 0.1421 0.1180 0.0890 0.0703 0.0584 0.0311 0.0133 0.0084
CCA12 CCA13 CCA14
0.0065 0.0062 0.0047
Eigenvalues for unconstrained axes:
CA1 CA2 CA3 CA4 CA5 CA6 CA7 CA8 CA9
0.19776 0.14193 0.10117 0.07079 0.05330 0.03330 0.01887 0.01510 0.00949
উপরোক্ত অর্ডিনেশনের ট্রিপলট plot()
পদ্ধতিটি ব্যবহার করে উত্পাদিত হয়
> plot(ccafit)
অবশ্যই, এখন টাস্কটি হ'ল বাস্তবে গুরুত্বপূর্ণ যেগুলির মধ্যে কোনটি পরিবর্তনশীল। এছাড়াও নোট করুন যে আমরা প্রজাতির বৈকল্পের প্রায় ১৩/২০ টি মাত্র 13 টি ভেরিয়েবল ব্যবহার করে ব্যাখ্যা করেছি। এই অধ্যাদেশে সমস্ত ভেরিয়েবল ব্যবহার করার একটি সমস্যা হ'ল আমরা নমুনা এবং প্রজাতির স্কোরগুলিতে একটি খিলানযুক্ত কনফিগারেশন তৈরি করেছি, যা নিখুঁতভাবে খুব বেশি সংখ্যক পারস্পরিক সম্পর্কযুক্ত ভেরিয়েবলগুলি ব্যবহার করার প্রত্নতত্ত্ব।
আপনি যদি এই সম্পর্কে আরও জানতে চান তবে ভেজান ডকুমেন্টেশন বা মাল্টিভারিয়েট ইকোলজিকাল ডেটা বিশ্লেষণের জন্য একটি ভাল বই দেখুন।
রিগ্রেশনের সাথে সম্পর্ক
আরডিএর সাথে লিঙ্কটি চিত্রিত করা সহজ, তবে সিসিএর মধ্যে সারি এবং কলামের দ্বি-দ্বি-সারণী প্রান্তিক অঙ্কগুলি ওজন হিসাবে জড়িত ব্যতীত একই।
এর হৃদয়ে, আরডিএ ব্যাখ্যামূলক ভেরিয়েবলের ম্যাট্রিক্স দ্বারা প্রদত্ত ভবিষ্যদ্বাণীকারীদের সাথে প্রতিটি প্রজাতির (প্রতিক্রিয়া) মানগুলিতে (প্রাচুর্য, বলি) একত্রে একাধিক লিনিয়ার রিগ্রেশন থেকে লাগানো মানের ম্যাট্রিক্সের জন্য পিসিএ প্রয়োগের সমতুল্য।
আর এ হিসাবে আমরা এটি করতে পারি
## centre the responses
spp <- scale(data.matrix(varespec), center = TRUE, scale = FALSE)
## ...and the predictors
env <- as.data.frame(scale(varechem, center = TRUE, scale = FALSE))
## fit a linear model to each column (species) in spp.
## Suppress intercept as we've centred everything
fit <- lm(spp ~ . - 1, data = env)
## Collect fitted values for each species and do a PCA of that
## matrix
pclmfit <- prcomp(fitted(fit))
এই দুটি পদ্ধতির জন্য ইগেনভ্যালু সমান:
> (eig1 <- unclass(unname(eigenvals(pclmfit)[1:14])))
[1] 820.1042107 399.2847431 102.5616781 47.6316940 26.8382218 24.0480875
[7] 19.0643756 10.1669954 4.4287860 2.2720357 1.5353257 0.9255277
[13] 0.7155102 0.3118612
> (eig2 <- unclass(unname(eigenvals(rdafit, constrained = TRUE))))
[1] 820.1042107 399.2847431 102.5616781 47.6316940 26.8382218 24.0480875
[7] 19.0643756 10.1669954 4.4287860 2.2720357 1.5353257 0.9255277
[13] 0.7155102 0.3118612
> all.equal(eig1, eig2)
[1] TRUE
কোনও কারণে আমি অক্ষরের স্কোরগুলি (লোডিংগুলি) মেলতে পারছি না, তবে অবিচ্ছিন্নভাবে এগুলি স্কেল করা হয় (বা না) তাই এখানে কীভাবে এটি করা হচ্ছে তা আমাকে খতিয়ে দেখার দরকার।
rda()
আমি lm()
ইত্যাদির সাথে যেমন দেখিয়েছিলাম তার মাধ্যমে আমরা আরডিএ করি না , তবে আমরা লিনিয়ার মডেল অংশের জন্য একটি কিউআর পচন এবং তারপরে পিসিএ অংশের জন্য এসভিডি ব্যবহার করি। তবে প্রয়োজনীয় পদক্ষেপগুলি একই রকম।