ক) ডেটা স্বাভাবিকতার লঙ্ঘন করে এমন ডিগ্রির সেরা একক সূচক কী?
খ) বা স্বাভাবিকতা লঙ্ঘনের একাধিক সূচকে (যেমন, স্কিউনেস, কুর্তোসিস, আউটলেয়ার বিস্তৃতি) সম্পর্কে কথা বলা কি আরও ভাল?
আমি বি কে ভোট দেব বিভিন্ন বিধি লঙ্ঘনের বিভিন্ন পরিণতি রয়েছে। উদাহরণস্বরূপ, ভারী লেজ সহ ইউনিমোডাল, প্রতিসম বিতরণগুলি আপনার সিআইগুলি খুব প্রশস্ত করে তোলে এবং সম্ভবত কোনও প্রভাব সনাক্ত করার শক্তি হ্রাস করে। গড়টি এখনও "সাধারণ" মানটিকে হিট করে। খুব স্কিউড বিতরণের জন্য, উদাহরণস্বরূপ, গড়টি "আদর্শ মানের" খুব বুদ্ধিমান সূচক নাও হতে পারে।
গ) সূচকের জন্য আস্থা অন্তরগুলি কীভাবে গণনা করা যায় (বা সম্ভবত কোনও বায়সিয়ান পদ্ধতির)?
আমি বায়েশিয়ান পরিসংখ্যান সম্পর্কে জানি না, তবে স্বাভাবিকতার শাস্ত্রীয় পরীক্ষার বিষয়ে, আমি এরেক্স-হার্ন এট আলকে উদ্ধৃত করতে চাই। (২০০৮) [২]:
আর একটি সমস্যা হ'ল অনুমান পরীক্ষার নিজস্ব অনুমান রয়েছে। সাধারণ পরীক্ষাগুলি সাধারণত ধরে নেয় যে ডেটা সমকামী; হোমোসেসডাস্টিকটির পরীক্ষাগুলি ধরে নেয় যে ডেটা সাধারণত বিতরণ করা হয়। যদি স্বাভাবিকতা এবং সমকামিতা অনুমান লঙ্ঘন করা হয়, অনুমান পরীক্ষার বৈধতা গুরুতরভাবে আপস করা যেতে পারে। বিশিষ্ট পরিসংখ্যানবিদগণ এসপিএসএস-এর মতো সফ্টওয়্যারগুলিতে মারাত্মক ত্রুটিযুক্ত হিসাবে তৈরি করা অনুমান পরীক্ষাগুলি (যেমন, লেভেনের পরীক্ষা, কোলমোগোরভ or স্মারনভ পরীক্ষা) বর্ণনা করেছেন এবং সুপারিশ করেছিলেন যে এই পরীক্ষাগুলি কখনই ব্যবহার করা উচিত নয় (ডি'গোস্টিনো, 1986; গ্লাস অ্যান্ড হপকিনস, 1996)।
৪) স্বাভাবিকের লঙ্ঘনের মাত্রা (উদাহরণস্বরূপ, হালকা, মাঝারি, শক্ত, চরম, ইত্যাদি) নির্দেশ করতে আপনি সেই সূচকে কী ধরণের মৌখিক লেবেল নির্ধারণ করতে পারেন?
মাইক্রি (1989) [1] মনোবিজ্ঞানে 440 বৃহত আকারের ডেটা সেট বিশ্লেষণ করেছেন। তিনি প্রতিসাম্য এবং লেজের ওজন এবং সংজ্ঞায়িত মানদণ্ড এবং লেবেল মূল্যায়ন করেছেন। 'অপেক্ষাকৃত প্রতিসাম্য' থেকে 'মধ্যপন্থী -> চরম -> ঘনিষ্ঠভাবে অ্যাসিমেট্রি' অবধি অসম্যতার জন্য লেবেলগুলি। লেজের ওজনের লেবেলগুলি 'ইউনিফর্ম -> গাউসিয়ান এর চেয়ে কম -> গাউসিয়ান সম্পর্কে -> মাঝারি -> চরম -> দ্বিগুণ ক্ষতিকারক দূষণ' from প্রতিটি শ্রেণিবিন্যাস একাধিক, শক্ত মাপদণ্ডের উপর ভিত্তি করে।
তিনি দেখতে পান যে এই 440 ডেটা সেটগুলির মধ্যে কেবল 28% অপেক্ষাকৃত প্রতিসাম্যযুক্ত ছিল, এবং কেবল 15% লেজ ওজন সম্পর্কে গাউসিয়ান সম্পর্কে ছিল। অতএব কাগজের সুন্দর শিরোনাম:
ইউনিকর্ন, সাধারণ বক্ররেখা এবং অন্যান্য অসম্ভব প্রাণীরা
আমি একটি R
ফাংশন লিখেছি , যা স্বয়ংক্রিয়ভাবে মাইক্রির মানদণ্ডগুলি মূল্যায়ন করে এবং লেবেলগুলিও মুদ্রণ করে:
# This function prints out the Micceri-criteria for tail weight and symmetry of a distribution
micceri <- function(x, plot=FALSE) {
library(fBasics)
QS <- (quantile(x, prob=c(.975, .95, .90)) - median(x)) / (quantile(x, prob=c(.75)) - median(x))
n <- length(x)
x.s <- sort(x)
U05 <- mean(x.s[(.95*n ):n])
L05 <- mean(x.s[1:(.05*n)])
U20 <- mean(x.s[(.80*n):n])
L20 <- mean(x.s[1:(.20*n)])
U50 <- mean(x.s[(.50*n):n])
L50 <- mean(x.s[1:(.50*n)])
M25 <- mean(x.s[(.375*n):(.625*n)])
Q <- (U05 - L05)/(U50 - L50)
Q1 <- (U20 - L20)/(U50 - L50)
Q2 <- (U05 - M25)/(M25 - L05)
# mean/median interval
QR <- quantile(x, prob=c(.25, .75)) # Interquartile range
MM <- abs(mean(x) - median(x)) / (1.4807*(abs(QR[2] - QR[1])/2))
SKEW <- skewness(x)
if (plot==TRUE) plot(density(x))
tail_weight <- round(c(QS, Q=Q, Q1=Q1), 2)
symmetry <- round(c(Skewness=SKEW, MM=MM, Q2=Q2), 2)
cat.tail <- matrix(c(1.9, 2.75, 3.05, 3.9, 4.3,
1.8, 2.3, 2.5, 2.8, 3.3,
1.6, 1.85, 1.93, 2, 2.3,
1.9, 2.5, 2.65, 2.73, 3.3,
1.6, 1.7, 1.8, 1.85, 1.93), ncol=5, nrow=5)
cat.sym <- matrix(c(0.31, 0.71, 2,
0.05, 0.18, 0.37,
1.25, 1.75, 4.70), ncol=3, nrow=3)
ts <- c()
for (i in 1:5) {ts <- c(ts, sum(abs(tail_weight[i]) > cat.tail[,i]) + 1)}
ss <- c()
for (i in 1:3) {ss <- c(ss, sum(abs(symmetry[i]) > cat.sym[,i]) + 1)}
tlabels <- c("Uniform", "Less than Gaussian", "About Gaussian", "Moderate contamination", "Extreme contamination", "Double exponential contamination")
slabels <- c("Relatively symmetric", "Moderate asymmetry", "Extreme asymmetry", "Exponential asymmetry")
cat("Tail weight indexes:\n")
print(tail_weight)
cat(paste("\nMicceri category:", tlabels[max(ts)],"\n"))
cat("\n\nAsymmetry indexes:\n")
print(symmetry)
cat(paste("\nMicceri category:", slabels[max(ss)]))
tail.cat <- factor(max(ts), levels=1:length(tlabels), labels=tlabels, ordered=TRUE)
sym.cat <- factor(max(ss), levels=1:length(slabels), labels=slabels, ordered=TRUE)
invisible(list(tail_weight=tail_weight, symmetry=symmetry, tail.cat=tail.cat, sym.cat=sym.cat))
}
টি
> micceri(rnorm(10000))
Tail weight indexes:
97.5% 95% 90% Q Q1
2.86 2.42 1.88 2.59 1.76
Micceri category: About Gaussian
Asymmetry indexes:
Skewness MM.75% Q2
0.01 0.00 1.00
Micceri category: Relatively symmetric
> micceri(rt(10000, 8))
Tail weight indexes:
97.5% 95% 90% Q Q1
3.19 2.57 1.94 2.81 1.79
Micceri category: Extreme contamination
Asymmetry indexes:
Skewness MM.75% Q2
-0.03 0.00 0.98
Micceri category: Relatively symmetric
> micceri(rlnorm(10000))
Tail weight indexes:
97.5% 95% 90% Q Q1
6.24 4.30 2.67 3.72 1.93
Micceri category: Double exponential contamination
Asymmetry indexes:
Skewness MM.75% Q2
5.28 0.59 8.37
Micceri category: Exponential asymmetry
[1] মাইক্রারি, টি। (1989)। ইউনিকর্ন, সাধারণ বক্ররেখা এবং অন্যান্য অসম্ভব প্রাণীরা। মনস্তাত্ত্বিক বুলেটিন, 105 , 156-166। ডোই: 10.1037 / 0033-2909.105.1.156
[২] এরেগ-হর্ন, ডিএম, এবং মিরোসেভিচ, ভিএম (২০০৮)। আধুনিক শক্তিশালী পরিসংখ্যান পদ্ধতি: আপনার গবেষণার যথার্থতা এবং শক্তি সর্বাধিক করার একটি সহজ উপায়। আমেরিকান সাইকোলজিস্ট, 63 , 591-601।