এই প্রশ্নের অনেক উত্তর আছে। এখানে এমন একটি যা সম্ভবত আপনি অন্য কোথাও দেখতে পাবেন না তাই আমি এটি এখানে অন্তর্ভুক্ত করছি কারণ আমি বিশ্বাস করি এটি প্রাসঙ্গিক। লোকেরা প্রায়শই বিশ্বাস করে যে মিডিয়ানকে বহিরাগতদের কাছে একটি শক্ত ব্যবস্থা হিসাবে বিবেচনা করা হয় যা এটি বেশিরভাগ ক্ষেত্রেই শক্তিশালী। প্রকৃতপক্ষে, এটি স্কিউ বিতরণে পক্ষপাতিত্বকে শক্তিশালী হিসাবে বিবেচনা করা হয়। মাঝারি এই দুটি শক্তিশালী বৈশিষ্ট্য প্রায়শই এক সাথে শেখানো হয়। কেউ লক্ষ করে নিতে পারেন যে অন্তর্নিহিত স্কিউ বিতরণগুলি এমন ছোট্ট নমুনাও তৈরি করে যা দেখে মনে হয় যে তারা বিদেশী এবং প্রচলিত জ্ঞান হ'ল এই জাতীয় পরিস্থিতিতে কেউ মধ্যমা ব্যবহার করে use
#function to generate random values from a skewed distribution
rexg <- function (n, m, sig, tau) {
rexp(n, rate = 1/tau) + rnorm(n, mean = m, sd = sig)
}
(কেবলমাত্র একটি বিক্ষোভ যে এটি বদ্ধ এবং মৌলিক আকার)
hist(rexg(1e4, 0, 1, 1))
এখন, আসুন দেখুন কি হয় যদি আমরা এই বিতরণ থেকে বিভিন্ন নমুনা আকার এবং নমুনা গণনা করি এবং তাদের মধ্যে পার্থক্যগুলি কী তা বোঝাতে বোঝায় তবে কী হয়।
#generate values with various n's
N <- 1e4
ns <- 2:30
y <- sapply(ns, function(x) mean(apply(matrix(rexg(x*N, 0, 1, 1), ncol = N), 2, median)))
plot(ns,y, type = 'l', ylim = c(0.85, 1.03), col = 'red')
y <- sapply(ns, function(x) mean(colMeans(matrix(rexg(x*N, 0, 1, 1), ncol = N))))
lines(ns,y)
উপরের প্লট থেকে দেখা যাবে মিডিয়ান (লাল রঙের) গড়ের চেয়ে n এর চেয়ে অনেক বেশি সংবেদনশীল। এটি নিম্ন এনএস সহ মিডিয়ানদের ব্যবহার সম্পর্কে কিছু প্রচলিত জ্ঞানের বিরোধী, বিশেষত যদি বিতরণটি স্কিউড হয়। এবং, এটি সেই বিন্দুটিকে শক্তিশালী করে যে গড়টি একটি জ্ঞাত মান হয় তবে মধ্যমাটি অন্যান্য বৈশিষ্ট্যগুলির সংবেদনশীল হয়, এটি যদি এন হয়।
এই বিশ্লেষণ মিলার, জে। (1988) এর মতো। মাঝারি প্রতিক্রিয়া সময় সম্পর্কে একটি সতর্কতা। পরীক্ষামূলক মনোবিজ্ঞানের জার্নাল: মানব উপলব্ধি এবং পারফরম্যান্স , 14 (3): 539–543 43
REVISION
স্কিউ ইস্যু সম্পর্কে চিন্তা করে আমি বিবেচনা করেছি যে মিডিয়ানের উপর প্রভাব কেবলমাত্র কারণ সামান্য নমুনাগুলিতে আপনার আরও বেশি সম্ভাবনা থাকে যে মাঝারিটি বন্টনের লেজের মধ্যে থাকে, অন্যদিকে গড়টি প্রায় সর্বদা কাছাকাছি মানগুলি দ্বারা ভারিত হবে will মোড. অতএব, সম্ভবত যদি কেউ কেবলমাত্র বহিরাগতদের সম্ভাবনার সাথে নমুনা দিচ্ছিলেন তবে সম্ভবত একই ফলাফল ঘটতে পারে।
তাই আমি এমন পরিস্থিতিতে নিয়ে চিন্তা করেছি যেখানে আউটলিয়াররা ঘটতে পারে এবং পরীক্ষাগুলি সেগুলি অপসারণের চেষ্টা করতে পারে।
যদি আউটলিয়াররা ধারাবাহিকভাবে ঘটে থাকে, যেমন তথ্যগুলির প্রতিটি একক নমুনার মধ্যে একটি, তবে মিডিয়ানরা এই আউটলারের প্রভাব এবং মিডিয়ানদের ব্যবহার সম্পর্কে প্রচলিত গল্পের বিরুদ্ধে শক্তিশালী।
তবে এটি সাধারণত জিনিসগুলি যায় না।
কেউ হয়তো পরীক্ষার খুব কম কক্ষে একটি আউটলেটর খুঁজে পেতে পারে এবং এই ক্ষেত্রে গড়ের পরিবর্তে মিডিয়ান ব্যবহার করার সিদ্ধান্ত নিতে পারে। আবার মাঝারিটি আরও শক্তিশালী তবে এর প্রকৃত প্রভাব তুলনামূলকভাবে কম কারণ এখানে খুব কম সংখ্যক বিদেশী রয়েছে। এটি অবশ্যই একটি আরও সাধারণ ক্ষেত্রে হবে তবে উপরেরটি কিন্তু মিডিয়ান ব্যবহারের প্রভাব সম্ভবত এত ছোট হবে যে এটি খুব বেশি গুরুত্ব পাবে না।
সম্ভবত আরও সাধারণভাবে outliers ডেটা একটি এলোমেলো উপাদান হতে পারে। উদাহরণস্বরূপ, জনসংখ্যার প্রকৃত গড় এবং প্রমিত বিচ্যুতি প্রায় 0 হতে পারে তবে আমরা যেখানে বহিরাগত জনগোষ্ঠীর মধ্য থেকে গড় নমুনা পেয়েছি তার নমুনা 3 শতাংশ রয়েছে the নীচের সিমুলেশনটি বিবেচনা করুন, যেখানে কেবলমাত্র এমন জনসংখ্যার নমুনার পরিবর্তিত নমুনা দেওয়া হয় আকার।
#generate n samples N times with an outp probability of an outlier.
rout <- function (n, N, outp) {
outPos <- sample(0:1,n*N, replace = TRUE, prob = c(1-outp,outp))
numOutliers <- sum(outPos)
y <- matrix( rnorm(N*n), ncol = N )
y[which(outPos==1)] <- rnorm(numOutliers, 4)
return(y)
}
outp <- 0.1
N <- 1e4
ns <- 3:30
yMed <- sapply(ns, function(x) mean(apply(rout(x,N,outp), 2, median)))
var(yMed)
yM <- sapply(ns, function(x) mean(colMeans(rout(x,N,outp))))
var(yM)
plot(ns,yMed, type = 'l', ylim = range(c(yMed,yM)), ylab = 'Y', xlab = 'n', col = 'red')
lines(ns,yM)
মধ্যমাটি লালচে এবং কালো রঙের মধ্যে। এটি স্কিউড ডিস্ট্রিবিউশনের অনুরূপ অনুসন্ধান।
অপ্রত্যাশিতদের প্রভাব এড়ানোর জন্য মধ্যযুগীয়দের ব্যবহারের তুলনামূলকভাবে ব্যবহারিক উদাহরণে এমন একটি পরিস্থিতি উপস্থিত হতে পারে যেখানে গড়টি যখন ব্যবহৃত হয় তার চেয়ে যখন মিডিয়ান ব্যবহার করা হয় তখন অনুমানটি এন দ্বারা আরও বেশি প্রভাবিত হয়।