সেন্ট্রয়েডের চারপাশে 2D বিস্তারের পরিমাণ চিহ্নিত করতে, আপনি কেবল (মূল) মানে বর্গাকার দূরত্ব চান,
σ^= আরএমএস =1এনΣআমি( (এক্সআমি-এক্স¯)2+ (Yআমি-Y¯)2)-----------------------√।
এই সূত্রে, হল বিন্দু স্থানাঙ্ক এবং তাদের সেন্ট্রয়েড (গড়ের বিন্দু) হ'ল(এক্সআমি,Yআমি) , i = 1 , 2 , … , এন(এক্স¯,Y¯) ।
প্রশ্নটি দূরত্বগুলি বিতরণের জন্য জিজ্ঞাসা করে। বলগুলি যখন তাদের সেন্ট্রয়েডের চারপাশে একটি আইসোট্রপিক দ্বিবিভক্ত স্বাভাবিক বিতরণ থাকে - যা একটি মানক এবং শারীরিকভাবে যুক্তিসঙ্গত অনুমান হয় - স্কোয়ার দূরত্বটি দুটি ডিগ্রি স্বাধীনতার সাথে চি-স্কোয়ার বিতরণের আনুপাতিক হয় (প্রতিটি সমন্বয়ের জন্য একটি)। এটি স্বাধীন স্ট্যান্ডার্ড সাধারণ ভেরিয়েবলগুলির বর্গক্ষেত্রের যোগফল হিসাবে চি-স্কোয়ার ডিস্ট্রিবিউশনের একটি সংজ্ঞাের প্রত্যক্ষ পরিণতি, কারণ হ'ল প্রত্যাশা vari th সহ স্বতন্ত্র স্বাভাবিক পরিবর্তনের একটি লিনিয়ার সংমিশ্রণ এর সাধারণ বৈকল্পিক রচনা
এক্সআমি-এক্স¯=n - 1এনএক্সআমি-Σj ≠ i1এনএক্সঞ
E[xi−x¯]=n−1nE[xi]−∑j≠i1nE[xj]=0.
xiযেমন , অ্যানিসোট্রপির অনুমানটি হ'ল এর এর সমান বন্টন রয়েছে এবং সেগুলি থেকে স্বতন্ত্র, সুতরাং একটি অনন্য ফলাফল এর বিতরণ করে । এটি আনুপাতিকতার স্থিরত্বকে প্রতিষ্ঠিত করে:
দূরত্বগুলির স্কোয়ারগুলিতে দুটি ডিগ্রি স্বাধীনতার সাথে চি-স্কোয়ার বিতরণ থাকে, যা দ্বারা মাপা হয় ।σ2E[(xi−x¯)2]=Var(xi−x¯)=(n−1n)2Var(xi)+∑j≠i(1n)2Var(xj)=n−1nσ2.
yjxi(yj−y¯)2n−1nσ2
এই সমীকরণগুলির সবচেয়ে গুরুতর পরীক্ষাটি হল কেস , তারপরে ভগ্নাংশ থেকে সবচেয়ে বেশি পৃথক । পরীক্ষার অনুকরণ করে, এবং উভয়ের জন্য , এবং স্কেলযুক্ত চি-স্কোয়ার ডিস্ট্রিবিউশনের (লাল রঙের) বর্গক্ষেত্রের দূরত্বের হিস্টোগ্রামগুলি ওভারপ্লিট করে আমরা এই তত্ত্বটি যাচাই করতে পারি।n=2n−1n1n=2n=40
প্রতিটি সারি একই ডেটা দেখায়: বামদিকে এক্স-অক্ষটি লোগারিথমিক; ডানদিকে এটি প্রকৃত স্কোয়ার দূরত্ব দেখায়। এই জন্য আসল মান নির্ধারণ করা হয়েছিল ।σ1
এই ফলাফলগুলি সহ 100,000 পুনরাবৃত্তির জন্য এবং সহ 50,000 পুনরাবৃত্তির জন্য । হিস্টোগ্রাম এবং চি-স্কোয়ার ঘনত্বগুলির মধ্যে চুক্তিগুলি দুর্দান্ত।n=2n=40
যদিও অজানা, এটি বিভিন্ন উপায়ে অনুমান করা যায়। উদাহরণস্বরূপ, গড় বর্গক্ষেত্রের দূরত্ব এর গড় , যা । উদাহরণস্বরূপ, দিয়ে হিসাবে গড় বর্গক্ষেত্রের দূরত্বের গুণ অনুমান করুন । এভাবে একটি অনুমান হবে বার আরএমএস দূরত্ব। বিতরণের মানগুলি ব্যবহার করে আমরা তখন এটি বলতে পারি:σ2n−1nσ2χ222n=40σ24039/2σ40/78−−−−−√χ22
প্রায় 39% দূরত্ব কম হবে কারণ একটি বিতরণের 39% অংশ চেয়ে কম ।39/40−−−−−√σ^χ221
দূরত্বের প্রায় 78% গুণ , কারণ বিতরণের 78% চেয়ে কম ।3–√39/40−−−−−√σ^χ223
এবং ঠিক তেমন, কোনও একাধিকের জন্য আপনার বা জায়গায় ব্যবহার করা যত্নশীল । একটি পরীক্ষা হিসাবে, পূর্বে প্লট করা সিমুলেশনগুলিতে চেয়ে কম স্কোয়ার দূরত্বের প্রকৃত অনুপাত গুণ ছিল13n=401,2,…,10n−1nσ^2
0.3932 0.6320 0.7767 0.8647 0.9178 0.9504 0.9700 0.9818 0.9890 0.9933
তাত্ত্বিক অনুপাত হয়
0.3935 0.6321 0.7769 0.8647 0.9179 0.9502 0.9698 0.9817 0.9889 0.9933
চুক্তিটি দুর্দান্ত।
R
সিমুলেশন পরিচালনা ও বিশ্লেষণের কোড এখানে ।
f <- function(n, n.iter, x.min=0, x.max=Inf, plot=TRUE) {
#
# Generate `n.iter` experiments in which `n` locations are generated using
# standard normal variates for their coordinates.
#
xy <- array(rnorm(n*2*n.iter), c(n.iter,2,n))
#
# Compute the squared distances to the centers for each experiment.
#
xy.center <- apply(xy, c(1,2), mean)
xy.distances2 <- apply(xy-array(xy.center, c(n.iter,2,n)), c(1,3),
function(z) sum(z^2))
#
# Optionally plot histograms.
#
if(plot) {
xy.plot <- xy.distances2[xy.distances2 >= x.min & xy.distances2 <= x.max]
hist(log(xy.plot), prob=TRUE, breaks=30,
main=paste("Histogram of log squared distance, n=", n),
xlab="Log squared distance")
curve(dchisq(n/(n-1) * exp(x), df=2) * exp(x) * n/(n-1),
from=log(min(xy.plot)), to=log(max(xy.plot)),
n=513, add=TRUE, col="Red", lwd=2)
hist(xy.plot, prob=TRUE, breaks=30,
main=paste("Histogram of squared distance, n=", n),
xlab="Squared distance")
curve(n/(n-1) * dchisq(n/(n-1) * x, df=2),
from=min(xy.plot), to=max(xy.plot),
n=513, add=TRUE, col="Red", lwd=2)
}
return(xy.distances2)
}
#
# Plot the histograms and compare to scaled chi-squared distributions.
#
par(mfrow=c(2,2))
set.seed(17)
xy.distances2 <- f(2, 10^5, exp(-6), 6)
xy.distances2 <- f(n <- 40, n.iter <- 50000, exp(-6), 12)
#
# Compare the last simulation to cumulative chi-squared distributions.
#
sigma.hat <- sqrt((n / (2*(n-1)) * mean(xy.distances2)))
print(cumsum(tabulate(cut(xy.distances2,
(0:10) * (n-1)/n * sigma.hat^2))) / (n*n.iter), digits=4)
print(pchisq(1:10, df=2), digits=4)