একটি সঠিক ফলাফল পেতে প্রয়োজনীয় গণিতটি অগোছালো, তবে আমরা তুলনামূলকভাবে বেদাহীনভাবে প্রত্যাশিত স্কোয়ারড রিলেশনশিটি সহগের জন্য একটি সঠিক মান অর্জন করতে পারি । এটি ব্যাখ্যা করতে সহায়তা করে যে কেন কাছাকাছি কোনও মান প্রদর্শিত হচ্ছে এবং কেন এলোমেলো হাঁটার দৈর্ঘ্য বাড়িয়ে জিনিস পরিবর্তন করবে না।1/2n
স্ট্যান্ডার্ড পদ সম্পর্কে বিভ্রান্তির সম্ভাবনা রয়েছে। পরম পারস্পরিক সম্পর্ক, প্রশ্নে উল্লেখ পরিসংখ্যান এটি আপ করতে সঙ্গে বরাবর - ভেরিয়ানস covariances - হয় সূত্রে যে এক কোন যুগল আবেদন করতে পারেন উপলব্ধির র্যান্ডম পেশার করুন। প্রশ্নটি যখন আমরা অনেকগুলি স্বাধীন উপলব্ধির দিকে তাকাই তখন কী হয় concern তার জন্য, এলোমেলো পদক্ষেপের প্রক্রিয়া সম্পর্কে আমাদের প্রত্যাশা নেওয়া দরকার ।
(সম্পাদনা করুন)
আমরা এগিয়ে যাওয়ার আগে, আমি আপনার সাথে কিছু গ্রাফিকাল অন্তর্দৃষ্টি ভাগ করতে চাই। একজোড়া স্বতন্ত্র এলোমেলো পদচারণা দুটি মাত্রায় একটি এলোমেলো হাঁটা। আমরা পথ প্লটে বিভক্ত করতে পারে প্রতিটি পদক্ষেপ থেকে । যদি এই পথটি নীচের দিকে ঝুঁকে থাকে (বাম থেকে ডানে, সাধারণ XY অক্ষের উপরে প্লট করা হয়) তবে পারস্পরিক সম্পর্কের নিখুঁত মান অধ্যয়নের জন্য , আসুন সমস্ত মানগুলিকে উপেক্ষা করুন । প্লট পদচারনা অক্ষ দিতে মাপের উপর এবং মান স্ট্যান্ডার্ড ডেভিয়েশন সমান এবং আরোপ করা লিস্ট স্কোয়ারগুলির উপযোগীতা থেকে(X,Y)(Xt,Yt)Xt+1,Yt+1YXYYX। এই রেখাগুলির .ালু সর্বদা এবং মধ্যে থাকা মিথস্ক্রিয়া সহগের পরম মান হবে ।01
এই চিত্রটি এমন পদচারণা দেখায় , প্রতিটি দৈর্ঘ্যের (স্ট্যান্ডার্ড সাধারণ পার্থক্য সহ)। সামান্য উন্মুক্ত চেনাশোনাগুলি তাদের প্রারম্ভিক পয়েন্টগুলি চিহ্নিত করে। অন্ধকার চেনাশোনাগুলি তাদের চূড়ান্ত অবস্থান চিহ্নিত করে।15960
এই opালু বেশ বড় হতে থাকে। এই অনেক পয়েন্টের নিখুঁতভাবে এলোমেলো স্ক্র্যাপপ্লটগুলির সর্বদা শূন্যের খুব কাছে .ালু । যদি আমাদের এখানে উত্থিত নিদর্শনগুলি বর্ণনা করতে হয় তবে আমরা বলতে পারি যে 2D এলোমেলো পদক্ষেপগুলি ধীরে ধীরে এক অবস্থান থেকে অন্য জায়গায় চলে যায়। (তবে এটি অগত্যা তাদের প্রারম্ভিক এবং শেষের অবস্থানের অবস্থান নয়, তবে) প্রায় অর্ধেক সময় পরে, যে স্থানান্তরটি একটি তির্যক দিকের দিকে ঘটে - এবং slালু ততক্ষণে উচ্চ।
এই পোস্টের বাকি অংশগুলি এই পরিস্থিতির একটি বিশ্লেষণের স্কেচ করে।
একটি এলোমেলো হাঁটা হ'ল এর আংশিক অঙ্কের ক্রম যেখানে স্বতন্ত্রভাবে শূন্য-গড় ভেরিয়েবলগুলি বিতরণ করে। তাদের সাধারণ প্রকরণটি Let ।(Xi)(W1,W2,…,Wn)Wiσ2
এ জাতীয় উপলব্ধিতে , "বৈকল্পিক" গণনা করা হবে যেমন এটি কোনও ডেটাसेट ছিল:x=(x1,…,xn)
V(x)=1n∑(xi−x¯)2.
এই মানটি গণনা করার একটি দুর্দান্ত উপায় হ'ল সমস্ত বর্গক্ষেত্রের পার্থক্যের অর্ধেক গড় নেওয়া:
V(x)=1n(n−1)∑j>i(xj−xi)2.
যখন একটি র্যান্ডম হাঁটার ফলাফল হিসেবে দেখা হয় এর পদক্ষেপ, এই প্রত্যাশা নেইxXn
E(V(X))=1n(n−1)∑j>iE(Xj−Xi)2.
পার্থক্যগুলি হ'ল আইড ভেরিয়েবলের যোগফল,
Xj−Xi=Wi+1+Wi+2+⋯+Wj.
বর্গক্ষেত্র প্রসারিত করুন এবং প্রত্যাশা নিন। যেহেতু কে স্বাধীন এবং এর শূন্য অর্থ রয়েছে, সমস্ত ক্রস শর্তগুলির প্রত্যাশা শূন্য। এটি কেবল মতো পদ ছেড়ে , যার প্রত্যাশা । এইভাবেWkWkσ2
E((Wi+1+Wi+2+⋯+W2j))=(j−i)σ2.
এটি সহজেই অনুসরণ করে
E(V(X))=1n(n−1)∑j>i(j−i)σ2=n+16σ2.
দুইটি স্বতন্ত্র উপলব্ধির জন্য এবং - ডেটাসেটের বিবেচনায় র্যান্ডম ভেরিয়েবল নয় - একই কৌশলটির সাথে গণনা করা যেতে পারে (তবে এর জন্য আরও বীজগণিত কাজ প্রয়োজন; একটি চতুর্ভুজের যোগ জড়িত)। ফলাফল যে সমবায় এর প্রত্যাশিত বর্গ হয়xy
E(C(X,Y)2)=3n6−2n5−3n2+2n480n2(n−1)2σ4.
ফলস্বরূপ এবং মধ্যে বর্গক্ষেত্রের পারস্পরিক সম্পর্ক সহগের প্রত্যাশা, পদক্ষেপের বাইরে নেওয়া হয়XYn
ρ2(n)=E(C(X,Y)2)E(V(X))2=3403n3−2n2+3n−2n3−n.
যদিও এটি স্থির নয়, এটি দ্রুত একটি সীমাবদ্ধ মানের কাছে । তার বর্গমূল প্রায় অতএব পরিমাপক প্রত্যাশিত পরম মান (এবং underestimates)।9/400.47ρ(n)
আমি নিশ্চিত যে আমি গণনামূলক ত্রুটি করেছি, তবে সিমুলেশনগুলি অ্যাসিম্পটোটিক যথার্থতা বহন করে। নীচের ফলাফলগুলিতে প্রতিটি সিমুলেশনের জন্য এর হিস্টোগ্রামগুলি দেখায়, উল্লম্ব লাল রেখাগুলি উপায়টি দেখায় যখন ড্যাশযুক্ত নীল রেখাগুলি সূত্রটির মান দেখায়। স্পষ্টতই এটি ভুল, তবে অ্যাসিপোটোটিকভাবে এটি সঠিক। স্পষ্টতই distribution এর সম্পূর্ণ বিতরণ বাড়ার সাথে সাথে একটি সীমা অতিক্রম করছে । একইভাবে বিতরণ (যা আগ্রহের পরিমাণ) একটি সীমাতে পৌঁছাবে।ρ2(n)1000ρ2(n)n|ρ(n)|
R
চিত্রটি তৈরি করার জন্য এটি কোড।
f <- function(n){
m <- (2 - 3* n + 2* n^2 -3 * n^3)/(n - n^3) * 3/40
}
n.sim <- 1e4
par(mfrow=c(1,4))
for (n in c(3, 10, 30, 100)) {
u <- matrix(rnorm(n*n.sim), nrow=n)
v <- matrix(rnorm(n*n.sim), nrow=n)
x <- apply(u, 2, cumsum)
y <- apply(v, 2, cumsum)
sim <- rep(NA_real_, n.sim)
for (i in 1:n.sim)
sim[i] <- cor(x[,i], y[,i])^2
z <- signif(sqrt(n.sim)*(mean(sim) - f(n)) / sd(sim), 3)
hist(sim,xlab="rho(n)^2", main=paste("n =", n), sub=paste("Z =", z))
abline(v=mean(sim), lwd=2, col="Red")
abline(v=f(n), col="Blue", lwd=2, lty=3)
}