গামা বিতরণের মতো নয়, লগনরমাল বিতরণের তুলনায় এই ডেটাগুলির একটি সংক্ষিপ্ত লেজ রয়েছে:
set.seed(17)
par(mfcol=c(1,1))
x <- rgamma(500, 1.9)
qqnorm(log(x), pch=20, cex=.8, asp=1)
abline(mean(log(x)) + .1,1.2*sd(log(x)), col="Gray", lwd=2)
তা সত্ত্বেও, ডাটা কারণ হয় জোরালোভাবে ডান-স্কিউ, আমরা বৃহত্তম মান গড় এবং তার আস্থা ব্যবধান প্রাক্কলনে একটি গুরুত্বপূর্ণ ভূমিকা পালন আশা করতে পারেন। অতএব আমরা কহা উচিত যে একটি lognormal (LN) মূল্নির্ধারক সাহায্য করে অতিরিক্ত অনুমান গড় এবং দুই আস্থা সীমা ।
আসুন পরীক্ষা করে দেখুন এবং তুলনা করার জন্য, সাধারণ অনুমানকারীগুলি ব্যবহার করুন: এটি নমুনার গড় এবং এর স্বাভাবিক-তত্ত্বের আত্মবিশ্বাসের বিরতি। নোট করুন যে সাধারণ অনুমানকারীরা কেবলমাত্র নমুনার গড়ের আনুমানিক স্বাভাবিকতার উপর নির্ভর করেন, ডেটা নয়, এবং - এত বড় ডেটাসেট সহ - ভাল কাজ করার আশা করা যায়। এটি করার জন্য, আমাদের ci
ফাংশনটির সামান্য পরিবর্তন প্রয়োজন :
ci <- function (x, alpha=.05) {
z <- -qnorm(alpha / 2)
y <- log(x); n <- length(y); s2 <- var(y)
m <- mean(y) + s2 / 2
d <- z * sqrt(s2 / n + s2 * s2 / (2 * (n - 1)))
exp(c(mean=m, lcl=m-d, ucl=m+d))
}
সাধারণ-তত্ত্ব অনুমানের জন্য এখানে সমান্তরাল ফাংশন রয়েছে:
ci.u <- function(x, alpha=.05) {
mean(x) + sd(x) * c(mean=0, lcl=1, ucl=-1) / sqrt(length(x)) * qnorm(alpha/2)
}
এই সিমুলেটেড ডেটাসেটে প্রয়োগ করা হয়েছে, আউটপুটগুলি
> ci(x)
mean lcl ucl
2.03965 1.87712 2.21626
> ci.u(x)
mean lcl ucl
1.94301 1.81382 2.07219
সাধারণ-তত্ত্বের অনুমানগুলি উত্পাদিতci.u
এর প্রকৃত গড়ের কিছুটা কাছাকাছি দেখায় তবে কোনও ডেটাসেট থেকে বলা শক্ত যে কোন পদ্ধতিটি আরও ভালভাবে কাজ করতে পারে। এটি জানতে, আসুন প্রচুর ডেটাসেটগুলি অনুকরণ করুন:1.9
trial <- function(n=500, k=1.9) {
x <- rgamma(n, k)
cbind(ci(x), ci.u(x))
}
set.seed(17)
sim <- replicate(5000, trial())
আমরা আউটপুটগুলি সত্যিকারের সাথে তুলনা করতে আগ্রহী । হিস্টোগ্রামের একটি প্যানেল সেই বিষয়ে প্রকাশ করছে:1.9
xmin <- min(sim)
xmax <- max(sim)
h <- function(i, ...) {
b <- seq(from=floor(xmin*10)/10, to=ceiling(xmax*10)/10, by=0.1)
hist(sim[i,], freq=TRUE, breaks=b, col="#a0a0FF", xlab="x", xlim=c(xmin, xmax), ...)
hist(sim[i,sim[i,] >= 1.9], add=TRUE,freq=TRUE, breaks=b, col="#FFa0a0",
xlab="x", xlim=c(xmin, xmax), ...)
}
par(mfcol=c(2,3))
h(1, main="LN Estimate of Mean")
h(4, main="Sample Mean")
h(2, main="LN LCL")
h(5, main="LCL")
h(3, main="LN UCL")
h(6, main="UCL")
এটি এখন স্পষ্ট যে লগনরমাল পদ্ধতিগুলি গড় এবং আত্মবিশ্বাসের সীমাটিকে ছাড়িয়ে যাওয়ার প্রবণতা দেখায়, যেখানে সাধারণ পদ্ধতিগুলি একটি ভাল কাজ করে। আমরা আত্মবিশ্বাসের ব্যবধানের ব্যবস্থাগুলির কভারেজগুলি অনুমান করতে পারি:
> sapply(c(LNLCL=2, LCL=5, LNUCL=3, UCL=6), function(i) sum(sim[i,] > 1.9)/dim(sim)[2])
LNLCL LCL LNUCL UCL
0.2230 0.0234 1.0000 0.9648
এই গণনাটি বলে:
এলএন নিম্ন সীমাটি সময়ের প্রায় 22.3% (উদ্দেশ্যযুক্ত 2.5% এর পরিবর্তে) প্রকৃত গড়টি কভার করতে ব্যর্থ হবে।
সাধারণ নিম্নতর সীমাটি প্রায় ২.৩% সময়ের প্রায় গড় অর্থকে ব্যর্থ করতে ব্যর্থ হবে, প্রায় ২.৫% এর কাছাকাছি।
এলএন উপরের সীমাটি সর্বদা সত্য গড়কে ছাড়িয়ে যাবে (উদ্দেশ্য হিসাবে এটির 2.5% এর চেয়ে কম যাওয়ার পরিবর্তে)। এটি এটিকে একটি দ্বিদলীয় 100% - (22.3% + 0%) = 95.7% আস্থার ব্যবধানের পরিবর্তে 77.7% আত্মবিশ্বাসের ব্যবধানে পরিণত করে।
স্বাভাবিক ওপরের সীমাটি সময়ের প্রায় 100 - 96.5 = 3.5% কে বোঝাতে ব্যর্থ হবে। এটি 2.5% এর উদ্দিষ্ট মানের চেয়ে কিছুটা বড়। সাধারণ সীমাবদ্ধতা সুতরাং একটি 95% আস্থা অন্তর পরিবর্তে একটি দ্বিদলীয় 100% - (2.3% + 3.5%) = 94.2% আস্থা অন্তর অন্তর্ভুক্ত।
লগন্যালাল বিরতির জন্য নামমাত্র কভারেজ 95% থেকে 77.7% এ হ্রাস করা ভয়ানক। সাধারণ ব্যবধানের জন্য 94.2% হ্রাস মোটেই খারাপ নয় এবং এটি স্কিউনেসের প্রভাবকে (কাঁচা তথ্যের, তাদের লগারিদমের নয়) দায়ী করা যেতে পারে।
আমরা উপসংহারে যে আছে আরও বিশ্লেষণ গড় উচিত না lognormality অনুমান।
সাবধান হও! কিছু পদ্ধতি (যেমন ভবিষ্যদ্বাণী সীমা) এই আত্মবিশ্বাসের সীমাগুলির চেয়ে কম হওয়ার জন্য স্কিউনেসের প্রতি আরও সংবেদনশীল হবে, সুতরাং তাদের স্কিউড বিতরণকে জবাবদিহি করতে হতে পারে। তবে এটি অসম্ভব বলে মনে হচ্ছে যে ব্যবহারিকভাবে কোনও উদ্দিষ্ট বিশ্লেষণের জন্য লগনরমাল পদ্ধতিগুলি এই ডেটাগুলির সাথে ভাল সম্পাদন করবে।