প্রদত্ত আত্মবিশ্বাসের নির্দিষ্ট নির্ভুলতার মধ্যে একটি মাল্টিভারিয়েট স্বাভাবিক বিতরণের প্যারামিটারগুলি অনুমান করার জন্য প্রয়োজনীয় পরিমাণের পরিমাণের মাত্রাটির সাথে আলাদা হয় না, অন্যান্য সমস্ত জিনিস একই রকম হয়। অতএব আপনি কোনও পরিবর্তন ছাড়াই উচ্চ মাত্রিক সমস্যায় দুটি মাত্রার জন্য থাম্বের যে কোনও নিয়ম প্রয়োগ করতে পারেন।
এটা কেন করা উচিত? মাত্র তিন ধরণের প্যারামিটার রয়েছে: অর্থ, রূপ এবং সমবায়। একটি গড় অনুমানের ত্রুটি নির্ভর করে কেবল বৈকল্পিক এবং ডেটার পরিমাণ, । সুতরাং যখন একটি বহুচলকীয় সাধারন বিতরণ এবং হয়েছে আছে ভেরিয়ানস , তারপর আনুমানিক শুধুমাত্র উপর নির্ভর করে এবং । কোথা থেকে, আনুমানিক হিসাব পর্যাপ্ত সঠিকতা অর্জন করা সব , আমরা কেবল প্রয়োজনীয় পরিমাণ ডেটা বিবেচনা করতে হবে থাকার বৃহত্তম এর( এক্স 1 , এক্স 2 , … , এক্স ডি ) এক্স আই σ 2 আই ই [ এক্স আই ] σ আই এন ই [ এক্স আই ] এক্স আই σ আই ডি σ in(X1,X2,…,Xd)Xiσ2iE[Xi]σinE[Xi]Xiσi। অতএব, যখন আমরা বৃদ্ধি মাত্রার জন্য প্রাক্কলন সমস্যার একটি উত্তরাধিকার ভাবা , সব আমরা বিবেচনা করতে হবে কত বৃহত্তম বৃদ্ধি হবে। যখন এই প্যারামিটারগুলি উপরের দিকে আবদ্ধ হয়, আমরা উপসংহারে পৌঁছে যে প্রয়োজনীয় তথ্যের পরিমাণ মাত্রার উপর নির্ভর করে না।dσi
একই বিবেচনার ভেরিয়ানস আনুমানিক হিসাব প্রযোজ্য এবং covariances যদি আনুমানিক হিসাব জন্য তথ্য চলা একটি নির্দিষ্ট পরিমাণ এক কাঙ্ক্ষিত নির্ভুলতা সহভেদাংক (অথবা পারস্পরিক সম্পর্কের সহগের), তারপর - প্রদত্ত অন্তর্নিহিত সাধারন বন্টনের অনুরূপ হয়েছে প্যারামিটারের মান - কোনও সমবায় বা পারস্পরিক সম্পর্কের সহগ নির্ণয়ের জন্য একই পরিমাণের ডেটা যথেষ্ট । σ আমি জেσ2iσij
এই তর্কটির জন্য চিত্রিত করা এবং অভিজ্ঞতামূলক সমর্থন সরবরাহ করতে আসুন কয়েকটি সিমুলেশন অধ্যয়ন করি। নিম্নলিখিতটি নির্দিষ্ট মাত্রাগুলির বহুমাত্রিক বিতরণের জন্য প্যারামিটার তৈরি করে, সেই বিতরণ থেকে অনেকগুলি স্বতন্ত্র, অভিন্নভাবে বিতরণ করা ভেক্টরের সেট আঁকেন, এই জাতীয় প্রতিটি নমুনা থেকে প্যারামিটারগুলি অনুমান করে এবং তাদের পরামিতির হিসাবগুলির ফলাফলগুলির সংক্ষিপ্তসার (1) তাদের গড়- - তারা নিরপেক্ষ রয়েছে তা দেখানোর জন্য (এবং কোডটি সঠিকভাবে কাজ করছে - এবং (2) তাদের স্ট্যান্ডার্ড বিচ্যুতিগুলি, যা অনুমানের যথার্থতার পরিমাণ নির্ধারণ করে। (এই স্ট্যান্ডার্ড বিচ্যুতিগুলিকে বিভ্রান্ত করবেন না, যা একাধিকের তুলনায় প্রাপ্ত অনুমানের মধ্যে পরিবর্তনের পরিমাণকে মাপ দেয় অন্তর্নিহিত বহু-সাধারণ বিতরণ সংজ্ঞায়িত করতে ব্যবহৃত স্ট্যান্ডার্ড বিচ্যুতিগুলির সাথে সিমুলেশনটির পুনরাবৃত্তিগুলি!dd পরিবর্তন হয় তবে শর্ত থাকে যে পরিবর্তন হওয়ার সাথে সাথে আমরা অন্তর্নিহিত মাল্টিনরমাল ডিস্ট্রিবিউশনে বড় আকারগুলি প্রবর্তন করি না।d
অন্তর্নিহিত বিতরণের আকারের আকারগুলি এই সিমুলেশনটিতে কোভেরিয়েন্স ম্যাট্রিক্সের সমান বৃহত্তম ইগন্যালু তৈরি করে নিয়ন্ত্রণ করা হয় । এই মেঘের আকারটি যাই হোক না কেন, মাত্রা বাড়ার সাথে সাথে সম্ভাবনার ঘনত্ব "মেঘ" সীমানার মধ্যে রাখে। মাত্রা বৃদ্ধি পাওয়ার সাথে সিস্টেমের আচরণের অন্যান্য মডেলের সিমুলেশনগুলি কীভাবে এগেনভ্যালুগুলি তৈরি হয় তা পরিবর্তন করেই তৈরি করা যেতে পারে; একটি উদাহরণ (গামা বিতরণ ব্যবহার করে) নীচের কোডে মন্তব্য করা দেখানো হয়েছে ।1R
আমরা যা খুঁজছি তা যাচাই করা হয় যে প্যারামিটার অনুমানের মানক বিচ্যুতি যখন মাত্রা পরিবর্তন করা হয় তখন প্রশংসাপূর্ণ পরিবর্তন হয় না । আমি তাই দুই চরম, জন্য ফলাফল দেখান এবং , ডেটা একই পরিমাণ (ব্যবহার উভয় ক্ষেত্রেই)। এটি লক্ষণীয় যে প্যারামিটারগুলির অনুমান করা হয় যখন , সমান , ভ্যাক্টরের সংখ্যা ( ) অনেক বেশি এবং পুরো ডেটাসেটে এমনকি পৃথক সংখ্যা ( ) ছাড়িয়ে যায় ।d = 2 d = 60 30 d = 60 1890 30 30 ∗ 60 = 1800dd=2d=6030d=6018903030∗60=1800
আসুন দুটি মাত্রা দিয়ে শুরু করা যাক, । পাঁচটি প্যারামিটার রয়েছে: দুটি ভেরিয়েন্স ( এই সিমুলেশনে এবং এর স্ট্যান্ডার্ড বিচ্যুতি সহ ), একটি কোভেরিয়েন্স (এসডি = ) এবং দুটি উপায় (এসডি = এবং )। বিভিন্ন সিমুলেশনের সাথে (এলোমেলো বীজের প্রারম্ভিক মান পরিবর্তন করে প্রাপ্ত) এগুলি কিছুটা পৃথক হবে তবে নমুনার আকার হলে তারা ধারাবাহিকভাবে তুলনীয় আকারের হবে । উদাহরণস্বরূপ, পরবর্তী সিমুলেশনে এসডিগুলি , , , এবং0.097 0.182 0.126 0.11 0.15 এন = 30 0.014 0.263 0.043 0.04 0.18d=20.0970.1820.1260.110.15n=300.0140.2630.0430.040.18যথাক্রমে: এগুলি সমস্ত পরিবর্তিত হয়েছে তবে মাত্রার তুলনামূলক ক্রমের।
(এই বক্তব্যগুলি তাত্ত্বিকভাবে সমর্থন করা যেতে পারে তবে এখানে মূল বক্তব্যটি একটি নিখুঁত অভিজ্ঞতামূলক বিক্ষোভ সরবরাহ করা হয়।)
এখন আমরা সরাতে , এ নমুনা আকার পালন । বিশেষত, এর অর্থ প্রতিটি নমুনায় ভেক্টর রয়েছে, যার প্রত্যেকটিতে উপাদান রয়েছে। সমস্ত স্ট্যান্ডার্ড বিচ্যুতির তালিকা তৈরির পরিবর্তে , কেবলমাত্র তাদের রেঞ্জগুলি চিত্রিত করার জন্য হিস্টোগ্রাম ব্যবহার করে তাদের ছবিগুলি দেখুন।n = 30 30 60 1890d=60n=3030601890
উপরের সারির স্ক্যাটারপ্লটগুলি এই সিমুলেশনে পুনরাবৃত্তির সময়কৃত গড় অনুমানের সাথে প্রকৃত প্যারামিটারগুলি sigma
( ) এবং ( ) তুলনা করে । ধূসর রেফারেন্স লাইনগুলি নিখুঁত সাম্যের লোকসকে চিহ্নিত করে: স্পষ্টতই অনুমানগুলি লক্ষ্য হিসাবে কাজ করছে এবং নিরপেক্ষ রয়েছে।μ 10 4σmu
μ104
কোস্টারিওনস ম্যাট্রিক্স (বাম) এবং এর জন্য (ডানদিকে) সমস্ত প্রবেশের জন্য পৃথকভাবে নীচের সারিতে হিস্টোগ্রামগুলি উপস্থিত হয়। ব্যক্তির এসডিএস ভেরিয়ানস মধ্যে মিথ্যা ঝোঁক এবং যখন এর এসডিএস covariances পৃথক উপাদান মধ্যে মধ্যে মিথ্যা ঝোঁক এবং : সীমার মধ্যে ঠিক অর্জন যখন । একইভাবে, গড় অনুমানের এসডিগুলিতে এবং মধ্যে মিথ্যা থাকে যা দেখা যা ছিল তার সাথে তুলনীয় । অবশ্যই এসডিগুলি হিসাবে বৃদ্ধি পেয়েছে এমন কোনও ইঙ্গিত নেই0.080.120.040.08d=20.080.13d=2dথেকে উঠে গিয়ে থেকে ।260
কোডটি অনুসরণ করে।
#
# Create iid multivariate data and do it `n.iter` times.
#
sim <- function(n.data, mu, sigma, n.iter=1) {
#
# Returns arrays of parmeter estimates (distinguished by the last index).
#
library(MASS) #mvrnorm()
x <- mvrnorm(n.iter * n.data, mu, sigma)
s <- array(sapply(1:n.iter, function(i) cov(x[(n.data*(i-1)+1):(n.data*i),])),
dim=c(n.dim, n.dim, n.iter))
m <-array(sapply(1:n.iter, function(i) colMeans(x[(n.data*(i-1)+1):(n.data*i),])),
dim=c(n.dim, n.iter))
return(list(m=m, s=s))
}
#
# Control the study.
#
set.seed(17)
n.dim <- 60
n.data <- 30 # Amount of data per iteration
n.iter <- 10^4 # Number of iterations
#n.parms <- choose(n.dim+2, 2) - 1
#
# Create a random mean vector.
#
mu <- rnorm(n.dim)
#
# Create a random covariance matrix.
#
#eigenvalues <- rgamma(n.dim, 1)
eigenvalues <- exp(-seq(from=0, to=3, length.out=n.dim)) # For comparability
u <- svd(matrix(rnorm(n.dim^2), n.dim))$u
sigma <- u %*% diag(eigenvalues) %*% t(u)
#
# Perform the simulation.
# (Timing is about 5 seconds for n.dim=60, n.data=30, and n.iter=10000.)
#
system.time(sim.data <- sim(n.data, mu, sigma, n.iter))
#
# Optional: plot the simulation results.
#
if (n.dim <= 6) {
par(mfcol=c(n.dim, n.dim+1))
tmp <- apply(sim.data$s, 1:2, hist)
tmp <- apply(sim.data$m, 1, hist)
}
#
# Compare the mean simulation results to the parameters.
#
par(mfrow=c(2,2))
plot(sigma, apply(sim.data$s, 1:2, mean), main="Average covariances")
abline(c(0,1), col="Gray")
plot(mu, apply(sim.data$m, 1, mean), main="Average means")
abline(c(0,1), col="Gray")
#
# Quantify the variability.
#
i <- lower.tri(matrix(1, n.dim, n.dim), diag=TRUE)
hist(sd.cov <- apply(sim.data$s, 1:2, sd)[i], main="SD covariances")
hist(sd.mean <- apply(sim.data$m, 1, sd), main="SD means")
#
# Display the simulation standard deviations for inspection.
#
sd.cov
sd.mean