বুটস্ট্র্যাপিং বা মন্টি কার্লো পদ্ধতির ব্যবহার করে কীভাবে উল্লেখযোগ্য প্রধান উপাদানগুলি নির্ধারণ করা যায়?


40

একটি প্রিন্সিপাল কম্পোনেন্ট অ্যানালাইসিস (পিসিএ) বা এমিরিকাল অর্থোগোনাল ফাংশন (ইওএফ) বিশ্লেষণ থেকে বেরিয়ে আসা উল্লেখযোগ্য নিদর্শনগুলির সংখ্যা নির্ধারণে আমি আগ্রহী। আমি জলবায়ু ডেটাতে এই পদ্ধতিটি প্রয়োগ করতে বিশেষভাবে আগ্রহী। ডেটা ক্ষেত্রটি একটি এমএক্সএন ম্যাট্রিক্স যা এম টাইম ডাইমেনশন (যেমন দিন) এবং এন স্থানিক মাত্রা (যেমন দীর্ঘ / ল্যাট অবস্থান) lat আমি উল্লেখযোগ্য পিসি নির্ধারণের জন্য একটি সম্ভাব্য বুটস্ট্র্যাপ পদ্ধতিটি পড়েছি, তবে আরও বিশদ বিবরণ খুঁজে পেতে সক্ষম হয়েছি। এখন অবধি, আমি এই কাটঅফটি নির্ধারণের জন্য উত্তরের রুল অফ থাম্ব (নর্থ এট আল ।, 1982) প্রয়োগ করে আসছি তবে আমি আরও ভাবছিলাম যে আরও শক্তিশালী পদ্ধতিটি পাওয়া যায় কিনা।

উদাহরণ হিসাবে:

###Generate data
x <- -10:10
y <- -10:10
grd <- expand.grid(x=x, y=y)

#3 spatial patterns
sp1 <- grd$x^3+grd$y^2
tmp1 <- matrix(sp1, length(x), length(y))
image(x,y,tmp1)

sp2 <- grd$x^2+grd$y^2
tmp2 <- matrix(sp2, length(x), length(y))
image(x,y,tmp2)

sp3 <- 10*grd$y
tmp3 <- matrix(sp3, length(x), length(y))
image(x,y,tmp3)


#3 respective temporal patterns
T <- 1:1000

tp1 <- scale(sin(seq(0,5*pi,,length(T))))
plot(tp1, t="l")

tp2 <- scale(sin(seq(0,3*pi,,length(T))) + cos(seq(1,6*pi,,length(T))))
plot(tp2, t="l")

tp3 <- scale(sin(seq(0,pi,,length(T))) - 0.2*cos(seq(1,10*pi,,length(T))))
plot(tp3, t="l")


#make data field - time series for each spatial grid (spatial pattern multiplied by temporal pattern plus error)
set.seed(1)
F <- as.matrix(tp1) %*% t(as.matrix(sp1)) + 
as.matrix(tp2) %*% t(as.matrix(sp2)) + 
as.matrix(tp3) %*% t(as.matrix(sp3)) +
matrix(rnorm(length(T)*dim(grd)[1], mean=0, sd=200), nrow=length(T), ncol=dim(grd)[1]) # error term

dim(F)
image(F)


###Empirical Orthogonal Function (EOF) Analysis 
#scale field
Fsc <- scale(F, center=TRUE, scale=FALSE)

#make covariance matrix
C <- cov(Fsc)
image(C)

#Eigen decomposition
E <- eigen(C)

#EOFs (U) and associated Lambda (L) 
U <- E$vectors
L <- E$values

#projection of data onto EOFs (U) to derive principle components (A)
A <- Fsc %*% U

dim(U)
dim(A)

#plot of top 10 Lambda
plot(L[1:10], log="y")

#plot of explained variance (explvar, %) by each EOF
explvar <- L/sum(L) * 100
plot(explvar[1:20], log="y")


#plot original patterns versus those identified by EOF
layout(matrix(1:12, nrow=4, ncol=3, byrow=TRUE), widths=c(1,1,1), heights=c(1,0.5,1,0.5))
layout.show(12)

par(mar=c(4,4,3,1))
image(tmp1, main="pattern 1")
image(tmp2, main="pattern 2")
image(tmp3, main="pattern 3")

par(mar=c(4,4,0,1)) 
plot(T, tp1, t="l", xlab="", ylab="")
plot(T, tp2, t="l", xlab="", ylab="")
plot(T, tp3, t="l", xlab="", ylab="")

par(mar=c(4,4,3,1))
image(matrix(U[,1], length(x), length(y)), main="eof 1") 
image(matrix(U[,2], length(x), length(y)), main="eof 2")
image(matrix(U[,3], length(x), length(y)), main="eof 3")

par(mar=c(4,4,0,1)) 
plot(T, A[,1], t="l", xlab="", ylab="")
plot(T, A[,2], t="l", xlab="", ylab="")
plot(T, A[,3], t="l", xlab="", ylab="")

এখানে চিত্র বর্ণনা লিখুন

এবং, পিসির তাত্পর্য নির্ধারণ করতে আমি যে পদ্ধতিটি ব্যবহার করছি তা এখানে। মূলত, থাম্বের নিয়মটি হ'ল প্রতিবেশী লাম্বডাসের মধ্যে পার্থক্য অবশ্যই তাদের সম্পর্কিত ত্রুটির চেয়ে বেশি হওয়া উচিত।

###Determine significant EOFs

#North's Rule of Thumb
Lambda_err <- sqrt(2/dim(F)[2])*L
upper.lim <- L+Lambda_err
lower.lim <- L-Lambda_err
NORTHok=0*L
for(i in seq(L)){
    Lambdas <- L
    Lambdas[i] <- NaN
    nearest <- which.min(abs(L[i]-Lambdas))
    if(nearest > i){
        if(lower.lim[i] > upper.lim[nearest]) NORTHok[i] <- 1
    }
    if(nearest < i){
        if(upper.lim[i] < lower.lim[nearest]) NORTHok[i] <- 1
    }
}
n_sig <- min(which(NORTHok==0))-1

plot(L[1:10],log="y", ylab="Lambda (dots) and error (vertical lines)", xlab="EOF")
segments(x0=seq(L), y0=L-Lambda_err, x1=seq(L), y1=L+Lambda_err)
abline(v=n_sig+0.5, col=2, lty=2)
text(x=n_sig, y=mean(L[1:10]), labels="North's Rule of Thumb", srt=90, col=2)

এখানে চিত্র বর্ণনা লিখুন

আমি জার্নসন এবং ভেনগাসের অধ্যায় বিভাগটি খুঁজে পেয়েছি ( 1997 ) তাত্পর্যপূর্ণ তাত্পর্যপূর্ণ বিষয়ে পরীক্ষাগুলি সহায়ক হওয়ার জন্য - তারা তিনটি বিভাগের পরীক্ষার উল্লেখ করে, যার মধ্যে প্রভাবশালী ভেরিয়েন্স- টাইপ সম্ভবত আমি ব্যবহার করার আশা করছি am সময়ের মাত্রা বদলানো এবং লম্বডাসকে বহু অনুক্রমের মাধ্যমে পুনর্নির্মাণের এক প্রকার মন্টি কার্লো পদ্ধতির উল্লেখ করুন। ভন স্টর্চ এবং জুইয়ার্স (১৯৯৯) ল্যাম্বডা বর্ণালীকে তুলনামূলকভাবে "গোলমাল" বর্ণালীতে তুলনা করে এমন একটি পরীক্ষারও উল্লেখ করে। উভয় ক্ষেত্রেই, এটি কীভাবে হবে তা সম্পর্কে আমি কিছুটা অনিশ্চিত এবং তাও যে অনুমতিটির দ্বারা চিহ্নিত আত্মবিশ্বাসের অন্তরগুলি দিয়ে তা কীভাবে তাত্পর্য পরীক্ষা করা হয়।

আপনার সাহায্যের জন্য ধন্যবাদ.

তথ্যসূত্র: বিজার্নসন, এইচ। এবং ভেনগাস, এসএ (1997)। "ইওএফ এবং এসভিডি জলবায়ু সম্পর্কিত তথ্যের বিশ্লেষণের জন্য একটি ম্যানুয়াল", ম্যাকগিল বিশ্ববিদ্যালয়, সিসিজিসিআর রিপোর্ট নং 97-1, মন্ট্রিয়াল, কোয়েবেক, 52 পিপি। http://andvari.vedur.is/%7Efolk/halldor/PICKUP/eof.pdf

জিআর উত্তর, টিএল বেল, আরএফ কাহালান, এবং এফজে মোয়েং। (1982)। পরীক্ষামূলক অরথোগোনাল ফাংশনগুলির অনুমানের ক্ষেত্রে নমুনা ত্রুটি। সোম WEA। রেভ।, 110: 699–706।

ভন স্টর্চ, এইচ, জুইয়ার্স, এফডাব্লু (1999) জলবায়ু গবেষণায় পরিসংখ্যান বিশ্লেষণ। ক্যামব্রিজ ইউনিভার্সিটি প্রেস.


বুটস্ট্র্যাপ পদ্ধতির বিষয়ে আপনার রেফারেন্স কী?
মাইকেল চেরনিক

4
একটি বুটস্ট্র্যাপ এখানে কাজ করবে না। এটি ডেটা সেটগুলির সাথে কাজ করবে না যেখানে প্রতিটি পর্যবেক্ষণ প্রায় অন্য কোনও পর্যবেক্ষণের সাথে সম্পর্কিত; তথ্যের ন্যায়সঙ্গত প্রতিলিপি তৈরি করতে এটির স্বাধীনতা বা কমপক্ষে আনুমানিক স্বাধীনতা (টাইম সিরিজের শর্তগুলি মেশানো, বলুন) প্রয়োজন। অবশ্যই বন্য বুটস্ট্র্যাপের মতো বিশেষ বুটস্ট্র্যাপ স্কিম রয়েছে যা এই সমস্যাগুলিকে সঙ্কুচিত করতে পারে। তবে আমি এ বিষয়ে বেশি বাজি ধরব না। এবং আপনাকে সত্যিকারের বহুবিধ পরিসংখ্যানের বইগুলি দেখতে হবে এবং সেগুলি অনুসরণ করতে হবে, যাতে উত্তর হিসাবে আর একটি অনিবার্য হকি স্টিক না পাওয়া যায়।
স্টাসকে

2
@ মার্কে আপনি হয়ত বিভিন্ন ব্লক বুটস্ট্র্যাপ উল্লেখ করছেন যা সময় সিরিজের জন্য ব্যবহৃত হয়, এমবিবি (চলমান ব্লক বুটস্ট্র্যাপ) সিবিবি (বিজ্ঞপ্তি ব্লক বুটস্ট্র্যাপ), বা এসবিবি (স্টেশনারি ব্লক বুটস্ট্র্যাপ) যা মডেলটি অনুমান করার জন্য ডেটার সময় ব্লক ব্যবহার করে? প্যারামিটার।
মাইকেল চেরনিক

3
@ স্ট্যাস্ক আমি জানি না যে আপনি কেন সময় সিরিজে বুটস্ট্র্যাপ প্রয়োগের জন্য মেশানো শর্তগুলির প্রয়োজন বলে মনে করেন। মডেল ভিত্তিক পদ্ধতিগুলির জন্য কেবলমাত্র একটি টাইম সিরিজের কাঠামো ফিট করা দরকার এবং তারপরে আপনি অবশিষ্টগুলি বুটস্ট্র্যাপ করতে পারেন। সুতরাং আপনার ট্রেন্ডস এবং মৌসুমী উপাদানগুলির সাথে সময় সিরিজ থাকতে পারে এবং এখনও মডেল ভিত্তিক বুটস্ট্র্যাপ করতে পারেন।
মাইকেল চেরনিক

2
আমার কাছে সম্পূর্ণ পাঠ্যে অ্যাক্সেস নেই তবে আপনি একবার নজর দেওয়ার চেষ্টা করতে পারেন: "হামিদ বাবামোরাদি, ফ্রান্স ভ্যান ডেন বার্গ, এসমান্ড রিনান, মূল উপাদান বিশ্লেষণে বুটস্ট্র্যাপ ভিত্তিক আত্মবিশ্বাসের সীমা - একটি কেস স্টাডি, কেমোমেট্রিক্স এবং ইন্টেলিজেন্ট ল্যাবরেটরি সিস্টেমস, ভলিউম 120, 15 জানুয়ারী 2013 পেজ 97-105, ISSN 0169-7439, 10.1016 / j.chemolab.2012.10.007 (। sciencedirect.com/science/article/pii/S0169743912002171 ) মূলশব্দ: বুটস্ট্র্যাপ; পিসিএ; কনফিডেন্স সীমা; খ্রিস্টপূর্ব < sub> a </sub>; অনিশ্চয়তা "
tomasz74

উত্তর:


19

আমি এখানে আমার চেষ্টা করা সত্ত্বেও কিছুটা সংলাপটি এগিয়ে নেওয়ার চেষ্টা করছি। আমি এটি জিজ্ঞাসা করে 6 মাস হয়ে গেছে এবং দুর্ভাগ্যক্রমে কোনও সম্পূর্ণ উত্তর দেওয়া হয়নি আমি এখন পর্যন্ত আমি কী সংগ্রহ করেছি তার সংক্ষিপ্তসার চেষ্টা করব এবং বাকী বিষয়গুলির মধ্যে কেউ বিশদ বর্ণনা করতে পারে কিনা তা দেখার চেষ্টা করব। দয়া করে দীর্ঘ উত্তরটি ক্ষমা করুন, তবে আমি অন্য কোনও উপায় দেখতে পাচ্ছি না ...

প্রথমত, আমি সম্ভবত আরও ভাল সিন্থেটিক ডেটা সেট ব্যবহার করে বেশ কয়েকটি পদ্ধতির প্রদর্শন করব। এটি বেকারস এবং রিকসন ( ২০০৩ ) এর একটি কাগজ থেকে এসেছে যা গ্যাপির ডেটাতে ইওএফ পরিচালনার জন্য একটি অ্যালগরিদমের ব্যবহার চিত্রিত করে। আমি আগ্রহী ( লিঙ্ক ) করতে চাইলে আমি আর এ আলগোরিদিমটি পুনরুত্পাদন করেছি ।

সিনথেটিক ডেটা সেট:

#color palette
pal <- colorRampPalette(c("blue", "cyan", "yellow", "red"))

#Generate data
m=50
n=100
frac.gaps <- 0.5 # the fraction of data with NaNs
N.S.ratio <- 0.25 # the Noise to Signal ratio for adding noise to data

x <- (seq(m)*2*pi)/m
t <- (seq(n)*2*pi)/n


#True field
Xt <- 
 outer(sin(x), sin(t)) + 
 outer(sin(2.1*x), sin(2.1*t)) + 
 outer(sin(3.1*x), sin(3.1*t)) +
 outer(tanh(x), cos(t)) + 
 outer(tanh(2*x), cos(2.1*t)) + 
 outer(tanh(4*x), cos(0.1*t)) + 
 outer(tanh(2.4*x), cos(1.1*t)) + 
 tanh(outer(x, t, FUN="+")) + 
 tanh(outer(x, 2*t, FUN="+"))

Xt <- t(Xt)
image(Xt, col=pal(100))

#Noise field
set.seed(1)
RAND <- matrix(runif(length(Xt), min=-1, max=1), nrow=nrow(Xt), ncol=ncol(Xt))
R <- RAND * N.S.ratio * Xt

#True field + Noise field
Xp <- Xt + R
image(Xp, col=pal(100))

এখানে চিত্র বর্ণনা লিখুন

সুতরাং, সত্য তথ্য ক্ষেত্রটি Xt9 টি সংকেত নিয়ে গঠিত এবং পর্যবেক্ষিত ক্ষেত্রটি তৈরি করতে আমি এটিতে কিছু শব্দ যোগ করেছি Xp, যা নীচের উদাহরণগুলিতে ব্যবহৃত হবে। ইওএফগুলি যেমন নির্ধারিত হয়:

ফাইলের শেষে

#make covariance matrix
C <- t(Xp) %*% Xp #cov(Xp)
image(C)

#Eigen decomposition
E <- svd(C)

#EOFs (U) and associated Lambda (L) 
U <- E$u
L <- E$d

#projection of data onto EOFs (U) to derive principle components (A)
A <- Xp %*% U

আমি আমার মূল উদাহরণটিতে যে উদাহরণটি ব্যবহার করেছি, তার পরে আমি উত্তরের থাম্বের নিয়মের মাধ্যমে "উল্লেখযোগ্য" ইওএফ নির্ধারণ করব।

থাম্বের উত্তরের নিয়ম

Lambda_err <- sqrt(2/dim(Xp)[2])*L
upper.lim <- L+Lambda_err
lower.lim <- L-Lambda_err
NORTHok=0*L
for(i in seq(L)){
    Lambdas <- L
    Lambdas[i] <- NaN
    nearest <- which.min(abs(L[i]-Lambdas))
    if(nearest > i){
        if(lower.lim[i] > upper.lim[nearest]) NORTHok[i] <- 1
    }
    if(nearest < i){
        if(upper.lim[i] < lower.lim[nearest]) NORTHok[i] <- 1
    }
}
n_sig <- min(which(NORTHok==0))-1
n_sig

plot(L[1:20],log="y", ylab="Lambda (dots) and error (vertical lines)", xlab="EOF")
segments(x0=seq(L), y0=L-Lambda_err, x1=seq(L), y1=L+Lambda_err)
abline(v=n_sig+0.5, col=2, lty=2)
text(x=n_sig, y=mean(L[1:10]), labels="North's Rule of Thumb", srt=90, col=2)

এখানে চিত্র বর্ণনা লিখুন

যেহেতু 2: 4 এর ল্যাম্বদা মানগুলি প্রশস্ততার সাথে একে অপরের খুব কাছাকাছি রয়েছে, তাই এগুলি থাম্বের বিধি দ্বারা তুচ্ছ হিসাবে বিবেচিত হয় - অর্থাত্ তাদের সম্পর্কিত ইওএফ নিদর্শনগুলি ওভারল্যাপ হতে পারে এবং তাদের অনুরূপ প্রশস্ততা মেশানো যেতে পারে। এটি দুর্ভাগ্যজনক যে আমরা জানি যে 9 টি সংকেত আসলে ক্ষেত্রে রয়েছে।

লগ-ট্রান্সফর্মড ল্যাম্বদা মানগুলি ("স্ক্রি প্লট") এবং তারপরে চলমান মানগুলিতে একটি রিগ্রেশন ফিট করার জন্য আরও একটি বিষয়গত পন্থা। এর পরে ল্যাম্বডা মানগুলি এই স্তরের উপরে কী স্তরে থাকে তা দৃশ্যত নির্ধারণ করতে পারে:

স্ক্রি প্লট

ntrail <- 35
tail(L, ntrail)
fit <- lm(log(tail(L, ntrail)) ~ seq(length(L)-ntrail+1, length(L)))
plot(log(L))
abline(fit, col=2)

এখানে চিত্র বর্ণনা লিখুন

সুতরাং, 5 টি শীর্ষস্থানীয় ইওএফগুলি এই লাইনের উপরে রয়েছে। Xpকোনও অতিরিক্ত আওয়াজ যুক্ত না হওয়ার সময় আমি এই উদাহরণটি ব্যবহার করে দেখেছি এবং ফলাফলগুলি 9 টি মূল সংকেত প্রকাশ করে। সুতরাং, EOFs 6: 9 এর তুচ্ছতা ক্ষেত্রের শব্দের তুলনায় তাদের প্রশস্ততা কম হওয়ার কারণে due

আরও উদ্দেশ্যমূলক পদ্ধতি হ'ল ওভারল্যান্ড এবং প্রিজেন্ডরফার (1982) দ্বারা "রুল এন" মানদণ্ড। wqপ্যাকেজের মধ্যে একটি বাস্তবায়ন রয়েছে , যা আমি নীচে দেখাব।

বিধি এন

library(wq)
eofNum(Xp, distr = "normal", reps = 99)

RN <- ruleN(nrow(Xp), ncol(Xp), type = "normal", reps = 99)
RN
eigs <- svd(cov(Xp))$d
plot(eigs, log="y")
lines(RN, col=2, lty=2)

এখানে চিত্র বর্ণনা লিখুন

বিধি এন 4 টি গুরুত্বপূর্ণ ইওএফ সনাক্ত করেছে। ব্যক্তিগতভাবে, আমার এই পদ্ধতিটি আরও ভালভাবে বুঝতে হবে; কেন এলোমেলো ক্ষেত্রের মতো একই বিতরণ ব্যবহার করে না তার ভিত্তিতে ত্রুটির মাত্রা নির্ধারণ করা কেন সম্ভব Xp? এই পদ্ধতিতে একটি ভিন্নতা Xpহ'ল ডেটা পুনরায় নমুনা করা যাতে প্রতিটি কলাম এলোমেলোভাবে পুনরায় পরিবর্তন করা হয়। এইভাবে, আমরা নিশ্চিত করি যে এলোমেলো ক্ষেত্রের মোট বৈকল্পিক একই রকম Xp। অনেকবার পুনঃনির্মাণের মাধ্যমে, আমরা তখন পচনের একটি বেসলাইন ত্রুটি গণনা করতে সক্ষম হয়েছি।

এলোমেলো ক্ষেত্র সহ মন্টে কার্লো (যেমন নুল মডেল তুলনা)

iter <- 499
LAMBDA <- matrix(NaN, ncol=iter, nrow=dim(Xp)[2])

set.seed(1)
for(i in seq(iter)){
    #i=1

    #random reorganize dimensions of scaled field
    Xp.tmp <- NaN*Xp
    for(j in seq(dim(Xp.tmp)[2])){
        #j=1
        Xp.tmp[,j] <- Xp[,j][sample(nrow(Xp))]
    }

    #make covariance matrix
    C.tmp <- t(Xp.tmp) %*% Xp.tmp #cov(Xp.tmp)

    #SVD decomposition
    E.tmp <- svd(C.tmp)

    #record Lambda (L) 
    LAMBDA[,i] <- E.tmp$d

    print(paste(round(i/iter*100), "%", " completed", sep=""))
}

boxplot(t(LAMBDA), log="y", col=8, border=2, outpch="")
points(L)

এখানে চিত্র বর্ণনা লিখুন

আবার, 4 টি ইওএফ র্যান্ডম ক্ষেত্রগুলির জন্য বিতরণের উপরে। এই পদ্ধতির সাথে এবং রুল এন এর সাথে আমার উদ্বেগটি হ'ল এগুলি লাম্বদা মূল্যবোধের আস্থাভ্রান্তিগুলিকে সত্যই সম্বোধন করছে না; উদাহরণস্বরূপ, একটি উচ্চ প্রথম লাম্বদা মান স্বয়ংক্রিয়ভাবে পিছনের মানগুলির দ্বারা ব্যাখ্যা করার জন্য স্বল্প পরিমাণে বৈকল্পিকতার ফলস্বরূপ will সুতরাং এলোমেলো ক্ষেত্রগুলি থেকে গণনা করা ল্যাম্বডায় সর্বদা কম খাড়া opeাল থাকবে এবং ফলস্বরূপ খুব অল্প পরিমাণে ইওএফ বাছাই করতে পারে। [দ্রষ্টব্য: eofNum()ফাংশনটি ধরে নিয়েছে যে EOFs একটি পারস্পরিক সম্পর্ক ম্যাট্রিক্স থেকে গণনা করা হয়। উদাহরণস্বরূপ কোভরিয়েন্স ম্যাট্রিক্স (কেন্দ্রিক তবে স্কেল করা ডেটা নয়) ব্যবহার করা হলে এই সংখ্যাটি আলাদা হতে পারে]

পরিশেষে, @ টমাসজ Bab৪ বাবামোরাদী এট আল দ্বারা প্রবন্ধটি উল্লেখ করেছে। (2013), যা আমি একটি সংক্ষিপ্ত নজর ছিল। এটি অত্যন্ত আকর্ষণীয়, তবে লাম্বদা না করে সিআই এর ইওএফ লোডিং এবং সহগের গণনা করার দিকে বেশি মনোযোগী বলে মনে হচ্ছে। তবুও, আমি বিশ্বাস করি যে এটি একই পদ্ধতি ব্যবহার করে ল্যাম্বডা ত্রুটির মূল্যায়ন করার জন্য গৃহীত হতে পারে। একটি নতুন ক্ষেত্র উত্পাদিত না হওয়া অবধি সারিগুলিকে পুনরায় মডেলিং করে ডেটা ফিল্ডের একটি বুটস্ট্র্যাপ পুনরায় মডেলিং করা হয়। একই সারিতে একাধিকবার পুনরায় মডেল করা যেতে পারে, এটি একটি প্যারামিমেট্রিক পদ্ধতি নয় এবং ডেটা বন্টন সম্পর্কে অনুমান করার প্রয়োজন নেই।

লাম্বদা মানগুলির বুটস্ট্র্যাপ

B <- 40 * nrow(Xp)
LAMBDA <- matrix(NaN, nrow=length(L), ncol=B)
for(b in seq(B)){
    samp.b <- NaN*seq(nrow(Xp))
    for(i in seq(nrow(Xp))){
        samp.b[i] <- sample(nrow(Xp), 1)
    }
    Xp.b  <- Xp[samp.b,]
    C.b  <- t(Xp.b) %*% Xp.b 
    E.b  <- svd(C.b)
    LAMBDA[,b] <- E.b$d
    print(paste(round(b/B*100), "%", " completed", sep=""))
}
boxplot(t(LAMBDA), log="y", col=8, outpch="", ylab="Lambda [log-scale]")
points(L, col=4)
legend("topright", legend=c("Original"), pch=1, col=4)

এখানে চিত্র বর্ণনা লিখুন

যদিও ল্যাম্বদা মানগুলির ত্রুটি গণনা করার জন্য এটি নর্থের থাম্বের নিয়মের চেয়ে আরও শক্তিশালী হতে পারে তবে আমি এখন বিশ্বাস করি যে ইওএফটির তাত্পর্যটির প্রশ্নটি এর অর্থ কী তা সম্পর্কে বিভিন্ন মতামত অবলম্বন করে। উত্তরের থাম্ব এবং বুটস্ট্র্যাপ পদ্ধতির নিয়মের জন্য, লাম্বদা মানগুলির মধ্যে টিয়ার ওভারল্যাপ হচ্ছে কিনা তার উপর নির্ভর করে তাত্পর্য আরও বেশি প্রদর্শিত হবে। যদি থাকে, তবে এই ইওএফগুলি তাদের সংকেতগুলিতে মিশ্রিত হতে পারে এবং "সত্য" নিদর্শনগুলিকে উপস্থাপন করে না। অন্যদিকে, এই দুটি ইওএফগুলি উল্লেখযোগ্য পরিমাণে বৈকল্পিকতা বর্ণনা করতে পারে (একটি এলোমেলো ক্ষেত্রের পচনের তুলনায় - যেমন রুল এন)। সুতরাং যদি কেউ শব্দটি ফিল্টার আউট করতে আগ্রহী হয় (অর্থাত্ ইওএফ কাটা মাধ্যমে) তবে নিয়ম এন যথেষ্ট হবে be যদি কোনও ডেটা সেটে প্রকৃত নিদর্শনগুলি নির্ধারণে আগ্রহী হয়, তবে ল্যাম্বদা ওভারল্যাপের আরও কড়া মাপদণ্ড আরও শক্তিশালী হতে পারে।

আবার, আমি এই বিষয়গুলিতে বিশেষজ্ঞ নই, তাই আমি এখনও আশাবাদী যে আরও অভিজ্ঞ কেউ এই ব্যাখ্যাটিতে যুক্ত করতে পারেন।

তথ্যসূত্র:

বেকারস, জিন-মেরি এবং এম। রিক্সেন। "অসম্পূর্ণ মহাসাগরীয় ডেটাসেটগুলি থেকে ইওএফ গণনা এবং ডেটা ফিলিং" " বায়ুমণ্ডল এবং মহাসাগর প্রযুক্তি জার্নাল 20.12 (2003): 1839-1856।

ওভারল্যান্ড, জে। এবং আর প্রিজেনডরফার, একটি ঘূর্ণিঝড় জলবায়ু ক্ষেত্রে প্রধান উপাদানগুলির জন্য একটি তাত্পর্য পরীক্ষা, সোমবার WEA। রেভ।, 110, 1-4, 1982।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.