আমি কি এই নমুনার জন্য স্বাভাবিকতা (লগ-) ধরে নিতে পারি?


11

আমার নমুনার জন্য এখানে কিউকিউ প্লট রয়েছে (লগারিদমিক ওয়াই অক্ষটি লক্ষ্য করুন); :n=1000

এখানে চিত্র বর্ণনা লিখুন
হুইবার দ্বারা নির্দেশিত হিসাবে, এটি নির্দেশ করে যে অন্তর্নিহিত বিতরণটি বাম-স্কিউড (ডান লেজটি ছোট)।

shapiro.testআর-তে (লগ-ট্রান্সফর্মড ডেটাতে) ব্যবহার করে , আমি এর একটি পরীক্ষামূলক পরিসংখ্যান এবং of এর একটি পি-মান , যার অর্থ আমরা নাল হাইপোথিসিস আনুষ্ঠানিকভাবে প্রত্যাখ্যান করি করা হয় - 95% আস্থা স্তরে।5.172 10 - 13 এইচ 0 : নমুনাটি সাধারণ বিতরণ করা হয়W=0.97185.1721013H0:the sample is normal distributed

আমার প্রশ্ন হ'ল (লগ-) স্বাভাবিকতা অনুমান করে আরও বিশ্লেষণের জন্য এটি কি বাস্তবে যথেষ্ট? বিশেষত, আমি কক্স এবং ল্যান্ড দ্বারা আনুমানিক পদ্ধতি ব্যবহার করে অনুরূপ নমুনাগুলির জন্য আত্মবিশ্বাসের ব্যবধানগুলি গণনা করতে চাই (কাগজে বর্ণিত: জৌ, জিওয়াই, সিন্ডি ইয়ান হুও এবং তালেবান, জে। (২০০৯)। সাধারণ আত্মবিশ্বাসের অন্তর পরিবেশগত অ্যাপ্লিকেশনগুলির সাথে লগনের সাধারণ উপায় এবং তাদের পার্থক্য En পরিবেশ 20, 172-180):

ci <- function (x) {
        y <- log(x)
        n <- length(y)
        s2 <- var(y)
        m <- mean(y) + s2 / 2
        z <- qnorm(1 - 0.05 / 2) # 95%
        #z <- qnorm(1 - 0.10 / 2) # 90%
        d <- z * sqrt(s2 / n + s2 * s2 / (2 * (n - 1)))

        return(c(exp(m - d), exp(m + d)))
}

আমি লক্ষ্য করেছি যে আত্মবিশ্বাসের ব্যবধানগুলি একটি বিন্দুর চারদিকে কেন্দ্রীভূত হয় যা প্রকৃত নমুনা গড়ের চেয়ে কিছুটা উপরে। উদাহরণ স্বরূপ:

> mean(x)
[1] 82.3076
> y <- log(x)
> exp(mean(y) + var(y) / 2)
[1] 91.22831

আমি মনে করি এই দুটি অধীনে একই হওয়া উচিত ।H0


1
বিতরণটি অবশ্যই ডান লেজে ভাল মানায় না।
মাইকেল আর চেরনিক

1
এই কিউকিউ প্লটটি দেখায় যে লগনরমাল বিতরণের চেয়ে ডেটাটির অনেক কম খাটো ডান লেজ থাকে: এটি লগনরমালের সাথে তুলনা করে বামে রেখে দেওয়া হয় । অতএব লগনরমাল ভিত্তিক পদ্ধতি ব্যবহারের ক্ষেত্রে আপনার উচিত।
whuber

@ হ্যাঁ হ্যাঁ, আপনি ডান স্কিচ না করে স্কিউড রেখে দেওয়ার বিষয়ে ঠিক বলেছেন। আমি প্রশ্ন আপডেট করা উচিত?
Vegard

অবশ্যই: আমরা প্রশ্নের উন্নতি প্রশংসা করি।
whuber

2
নোট: দয়া করে নোট করুন যে "বাম স্কুঙ্ক" দ্বারা আমি স্পষ্টভাবে বোঝাতে চাইছিলাম যে ডান লেজটি ছোট, বাম লেজ দীর্ঘ নয়। প্লটটির ডানদিকের পয়েন্টগুলি কীভাবে রেফারেন্স লাইনের নীচে নেমে যায় তা দ্বারা এটি স্পষ্ট । যেহেতু প্লটের বাম দিকের পয়েন্টগুলি রেফারেন্স লাইনের (তুলনামূলকভাবে) কাছাকাছি রয়েছে, তাই এই বিতরণটিকে "দীর্ঘ বাম লেজ" হিসাবে চিহ্নিত করা ভুল is কারণ ডান লেজ পার্থক্য এখানে গুরুত্বপূর্ণ, উচিত আনুমানিক গড় উপর অনেক বেশি প্রভাব তুলনায় বাম লেজ আছে (যেহেতু আছে উভয় মুদ্রার উলটা পিঠ তার আস্থা ব্যবধান প্রভাবিত)।
whuber

উত্তর:


12

গামা বিতরণের মতো নয়, লগনরমাল বিতরণের তুলনায় এই ডেটাগুলির একটি সংক্ষিপ্ত লেজ রয়েছে:

set.seed(17)
par(mfcol=c(1,1))
x <- rgamma(500, 1.9)
qqnorm(log(x), pch=20, cex=.8, asp=1)
abline(mean(log(x)) + .1,1.2*sd(log(x)), col="Gray", lwd=2)

QQPlot

তা সত্ত্বেও, ডাটা কারণ হয় জোরালোভাবে ডান-স্কিউ, আমরা বৃহত্তম মান গড় এবং তার আস্থা ব্যবধান প্রাক্কলনে একটি গুরুত্বপূর্ণ ভূমিকা পালন আশা করতে পারেন। অতএব আমরা কহা উচিত যে একটি lognormal (LN) মূল্নির্ধারক সাহায্য করে অতিরিক্ত অনুমান গড় এবং দুই আস্থা সীমা

আসুন পরীক্ষা করে দেখুন এবং তুলনা করার জন্য, সাধারণ অনুমানকারীগুলি ব্যবহার করুন: এটি নমুনার গড় এবং এর স্বাভাবিক-তত্ত্বের আত্মবিশ্বাসের বিরতি। নোট করুন যে সাধারণ অনুমানকারীরা কেবলমাত্র নমুনার গড়ের আনুমানিক স্বাভাবিকতার উপর নির্ভর করেন, ডেটা নয়, এবং - এত বড় ডেটাসেট সহ - ভাল কাজ করার আশা করা যায়। এটি করার জন্য, আমাদের ciফাংশনটির সামান্য পরিবর্তন প্রয়োজন :

ci <- function (x, alpha=.05) {
  z <- -qnorm(alpha / 2)
  y <- log(x); n <- length(y); s2 <- var(y)
  m <- mean(y) + s2 / 2
  d <- z * sqrt(s2 / n + s2 * s2 / (2 * (n - 1)))
  exp(c(mean=m, lcl=m-d, ucl=m+d))
}

সাধারণ-তত্ত্ব অনুমানের জন্য এখানে সমান্তরাল ফাংশন রয়েছে:

ci.u <- function(x, alpha=.05) {
 mean(x) + sd(x) * c(mean=0, lcl=1, ucl=-1) / sqrt(length(x)) * qnorm(alpha/2)
}

এই সিমুলেটেড ডেটাসেটে প্রয়োগ করা হয়েছে, আউটপুটগুলি

> ci(x)
   mean     lcl     ucl 
2.03965 1.87712 2.21626 
> ci.u(x)
   mean     lcl     ucl 
1.94301 1.81382 2.07219 

সাধারণ-তত্ত্বের অনুমানগুলি উত্পাদিতci.u এর প্রকৃত গড়ের কিছুটা কাছাকাছি দেখায় তবে কোনও ডেটাসেট থেকে বলা শক্ত যে কোন পদ্ধতিটি আরও ভালভাবে কাজ করতে পারে। এটি জানতে, আসুন প্রচুর ডেটাসেটগুলি অনুকরণ করুন:1.9

trial <- function(n=500, k=1.9) {
  x <- rgamma(n, k)
  cbind(ci(x), ci.u(x))
}
set.seed(17)
sim <- replicate(5000, trial())

আমরা আউটপুটগুলি সত্যিকারের সাথে তুলনা করতে আগ্রহী । হিস্টোগ্রামের একটি প্যানেল সেই বিষয়ে প্রকাশ করছে:1.9

xmin <- min(sim)
xmax <- max(sim)
h <- function(i, ...) {
  b <- seq(from=floor(xmin*10)/10, to=ceiling(xmax*10)/10, by=0.1)
  hist(sim[i,], freq=TRUE, breaks=b, col="#a0a0FF", xlab="x", xlim=c(xmin, xmax), ...)
  hist(sim[i,sim[i,] >= 1.9], add=TRUE,freq=TRUE, breaks=b, col="#FFa0a0",
                              xlab="x", xlim=c(xmin, xmax), ...)
}
par(mfcol=c(2,3))
h(1, main="LN Estimate of Mean")
h(4, main="Sample Mean")
h(2, main="LN LCL")
h(5, main="LCL")
h(3, main="LN UCL")
h(6, main="UCL")

Histograms

এটি এখন স্পষ্ট যে লগনরমাল পদ্ধতিগুলি গড় এবং আত্মবিশ্বাসের সীমাটিকে ছাড়িয়ে যাওয়ার প্রবণতা দেখায়, যেখানে সাধারণ পদ্ধতিগুলি একটি ভাল কাজ করে। আমরা আত্মবিশ্বাসের ব্যবধানের ব্যবস্থাগুলির কভারেজগুলি অনুমান করতে পারি:

> sapply(c(LNLCL=2, LCL=5, LNUCL=3, UCL=6), function(i) sum(sim[i,] > 1.9)/dim(sim)[2])
 LNLCL    LCL  LNUCL    UCL 
0.2230 0.0234 1.0000 0.9648 

এই গণনাটি বলে:

  • এলএন নিম্ন সীমাটি সময়ের প্রায় 22.3% (উদ্দেশ্যযুক্ত 2.5% এর পরিবর্তে) প্রকৃত গড়টি কভার করতে ব্যর্থ হবে।

  • সাধারণ নিম্নতর সীমাটি প্রায় ২.৩% সময়ের প্রায় গড় অর্থকে ব্যর্থ করতে ব্যর্থ হবে, প্রায় ২.৫% এর কাছাকাছি।

  • এলএন উপরের সীমাটি সর্বদা সত্য গড়কে ছাড়িয়ে যাবে (উদ্দেশ্য হিসাবে এটির 2.5% এর চেয়ে কম যাওয়ার পরিবর্তে)। এটি এটিকে একটি দ্বিদলীয় 100% - (22.3% + 0%) = 95.7% আস্থার ব্যবধানের পরিবর্তে 77.7% আত্মবিশ্বাসের ব্যবধানে পরিণত করে।

  • স্বাভাবিক ওপরের সীমাটি সময়ের প্রায় 100 - 96.5 = 3.5% কে বোঝাতে ব্যর্থ হবে। এটি 2.5% এর উদ্দিষ্ট মানের চেয়ে কিছুটা বড়। সাধারণ সীমাবদ্ধতা সুতরাং একটি 95% আস্থা অন্তর পরিবর্তে একটি দ্বিদলীয় 100% - (2.3% + 3.5%) = 94.2% আস্থা অন্তর অন্তর্ভুক্ত।

লগন্যালাল বিরতির জন্য নামমাত্র কভারেজ 95% থেকে 77.7% এ হ্রাস করা ভয়ানক। সাধারণ ব্যবধানের জন্য 94.2% হ্রাস মোটেই খারাপ নয় এবং এটি স্কিউনেসের প্রভাবকে (কাঁচা তথ্যের, তাদের লগারিদমের নয়) দায়ী করা যেতে পারে।

আমরা উপসংহারে যে আছে আরও বিশ্লেষণ গড় উচিত না lognormality অনুমান।

সাবধান হও! কিছু পদ্ধতি (যেমন ভবিষ্যদ্বাণী সীমা) এই আত্মবিশ্বাসের সীমাগুলির চেয়ে কম হওয়ার জন্য স্কিউনেসের প্রতি আরও সংবেদনশীল হবে, সুতরাং তাদের স্কিউড বিতরণকে জবাবদিহি করতে হতে পারে। তবে এটি অসম্ভব বলে মনে হচ্ছে যে ব্যবহারিকভাবে কোনও উদ্দিষ্ট বিশ্লেষণের জন্য লগনরমাল পদ্ধতিগুলি এই ডেটাগুলির সাথে ভাল সম্পাদন করবে।


বাহ, এই উত্তরটি আমাকে দূরে সরিয়ে দেয়। তোমাকে অনেক ধন্যবাদ! কীভাবে আপনি ব্যবহার abline()পরিবর্তে qqline()প্রথম উদাহরণে (যা একটি বিভিন্ন লাইন উত্পাদন করে)?
Vegard

আপনার trial()ফাংশন এর তর্কগুলি ব্যবহার করে না।
Vegard


1
সুন্দর কাজ! বুটস্ট্র্যাপিং জন্য, সংশোধন trial: trial <- function(y) { x <- sample(y, length(y), TRUE); cbind(ci(x), ci.u(x)) }। তারপরে একটি কমান্ড জারি করুন sim <- sapply(1:5000, function(i) trial(x)),। আপনি simপরে ছয় সারি হিস্টোগ্রামগুলি অন্বেষণ করতে ইচ্ছুক হতে পারেন ।
whuber

1
+1, আমি বিশেষত সূক্ষ্ম বিন্দুটি পছন্দ করি যে পূর্বাভাস অন্তরগুলি গড় হিসাবে আত্মবিশ্বাসের অন্তরগুলির চেয়ে বিতরণ আকারের প্রতি আরও সংবেদনশীল হবে।
গুং - মনিকা পুনরায়
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.