দ্বি-নমুনা ক্রমশক্তি পরীক্ষায় লেজগুলি দ্বিগুণ করা

ধরা যাক আমাদের দুটি নমুনা রয়েছে এবং আমরা নির্ধারণ করতে চাই যে সেগুলি একই বন্টন থেকে আঁকা কিনা, কিছু সংখ্যক পূর্ণসংখ্যার সমন্বয়ে গঠিত এ, বি নমুনাগুলি বলে।

যদি আমরা এটি একটি দ্বি-নমুনার ক্রমায়ন পরীক্ষা ব্যবহার করে পরীক্ষা করি, বিশেষত অনুমানের দিকে লক্ষ্য করে যেখানে নমুনাগুলির মাধ্যমগুলির পার্থক্যগুলি তত পার্থক্য হিসাবে পরিলক্ষিত হয়: এটি কি ভাবার কোনও কারণ আছে যে আমরা দ্বি-পুচ্ছ পি-কে গণনা করতে পারি? একটি লেজ দেখে এবং সম্ভাবনা দ্বিগুণ করে মূল্য?

এটি আমার বক্তৃতার নোটগুলিতে যা বলেছিল তা মনে হচ্ছে, তবে আমি বুঝতে পারি না যে আমরা কেন লেজগুলি প্রতিসাম্য (বা এটি কেন এই ধারণাকে জড়িত করে না) ধরে নিতে পারি। ব্যাখ্যা আসন্ন ছিল না।

permutation-test

— Harri
সূত্র

আপনার পরীক্ষার পরিসংখ্যানগুলির ক্রম বিতরণ প্রতিসম হওয়ার গ্যারান্টিযুক্ত নয়, সুতরাং আপনি সেভাবে এটি করতে পারবেন না। পরিবর্তে, আপনি উভয় লেজ যোগ করুন। আপনার দুটি স্বতন্ত্র নমুনার ক্ষেত্রে নাল অনুমানটি হ'ল দুটি অবস্থানের প্যারামিটার সমান। উভয় গ্রুপে অবিচ্ছিন্ন বিতরণ এবং সমান ছড়িয়ে থাকা ধরে নিলে আমাদের নাল অনুমানের অধীনে বিনিময়যোগ্যতা রয়েছে। পরীক্ষার পরিসংখ্যান হল নীচে দিয়ে পার্থক্য । $T$ $E(T) = 0$

জন্য মান মূল নমুনা রয়েছে , এবং একাধিক বিন্যাসন তার মান । কোনও কিছুর "সংখ্যার" জন্য সংক্ষিপ্ত, উদাহরণস্বরূপ, হ'ল ক্রমান্বয়ে পরীক্ষার পরিসংখ্যানের সংখ্যা। তারপর দ্বি-পার্শ্বযুক্ত হাইপোথিসিস জন্য -value হয় , যেখানে $T$ $T_{\text{emp}}$ $T^{\star}$ $\sharp(\cdot)$ $\sharp(T^{\star})$ $p$ $p_{\text{ts}} = p_{\text{left}} + p_{\text{right}}$

$p_{\text{left}} = \frac{\sharp(T^{\star} \, <= \, \text{min}(T_{\text{emp}}, -T_{\text{emp}}))}{\sharp(T^{\star})}$

$p_{\text{right}} = \frac{\sharp(T^{\star} \, >= \, \text{max}(T_{\text{emp}}, -T_{\text{emp}}))}{\sharp(T^{\star})}$

(ধরে নিলাম আমাদের সম্পূর্ণ অনুদান বিতরণ আছে) have আসুন দুটি স্বতন্ত্র নমুনার ক্ষেত্রে উভয় পদ্ধতির তুলনা করা যাক যখন আমরা সঠিক (সম্পূর্ণ) ক্রমবর্ধমান বিতরণ গণনা করতে পারি।

set.seed(1234)
Nj   <- c(9, 8)                      # group sizes
DVa  <- rnorm(Nj[1], 5, 20)^2        # data group 1
DVb  <- rnorm(Nj[2], 10, 20)^2       # data group 2
DVab <- c(DVa, DVb)                  # data from both groups
IV   <- factor(rep(c("A", "B"), Nj)) # grouping factor
idx  <- seq(along=DVab)              # all indices
idxA <- combn(idx, Nj[1])            # all possible first groups

# function to calculate test statistic for a given permutation x
getDM <- function(x) { mean(DVab[x]) - mean(DVab[!(idx %in% x)]) }
resDM <- apply(idxA, 2, getDM)       # test statistic for all permutations
diffM <- mean(DVa) - mean(DVb)       # empirical stest statistic

এখন মূল্যগুলি গণনা করুন এবং আর এর প্যাকেজ বাস্তবায়নের সাথে প্রস্তাবিত সমাধানটি বৈধ করুন । যে পালন , তাই এটা গুরুত্বপূর্ণ কোন পথে আপনি ক্যালকুলেট । $p$ coin $p_{\text{left}} \neq p_{\text{right}}$ $p_{ts}$

> (pL <- sum(resDM <= min(diffM, -diffM)) / length(resDM))  # left p-value
[1] 0.1755245

> (pR <- sum(resDM >= max(diffM, -diffM)) / length(resDM))  # right p-value
[1] 0.1585356

> 2*pL        # doubling left p-value
[1] 0.351049

> 2*pR        # doubling right p-value
[1] 0.3170712

> pL+pR       # two-sided p-value
[1] 0.3340601

> sum(abs(resDM) >= abs(diffM)) / length(resDM)  # two-sided p-value (more concise)
[1] 0.3340601

# validate with coin implementation
> library(coin)              # for oneway_test()    
> oneway_test(DVab ~ IV, alternative="two.sided", distribution="exact")
Exact 2-Sample Permutation Test
data:  DVab by IV (A, B) 
Z = 1.0551, p-value = 0.3341
alternative hypothesis: true mu is not equal to 0

পিএস মন্টে-কার্লো ক্ষেত্রে যেখানে কেবলমাত্র অনুদান বিতরণ থেকে নমুনা করি, মূল্যগুলি এটির মতো সংজ্ঞায়িত হবে: $p$

$p_{\text{left}} = \frac{\sharp(T^{\star} \, <= \, \text{min}(T_{\text{emp}}, -T_{\text{emp}})) + 1}{\sharp(T^{\star}) \, + \, 1}$

$p_{\text{right}} = \frac{\sharp(T^{\star} \, >= \, \text{max}(T_{\text{emp}}, -T_{\text{emp}})) +1 }{\sharp(T^{\star}) \, + \, 1}$

$p_{\text{ts}} = \frac{\sharp(\text{abs}(T^{\star}) \, >= \, \text{abs}(T_{\text{emp}})) \, + \, 1 }{\sharp(T^{\star}) + 1}$

স্বতঃস্ফূর্তভাবে আরও একটি চূড়ান্ত ক্রমুয়েশন কেস যুক্ত করার কারণটি হ'ল আমাদের অনুশীলনীয় নমুনাটিও গুনতে হবে। অন্যথায়, ভ্যালু ক্রম 0 হতে পারে যা অবিচ্ছিন্ন ক্ষেত্রে ঘটতে পারে না ( এখানে দেখুন , দ্রষ্টব্য: কিছু পাঠ্য এই সংশোধনের প্রস্তাব দেয়, কিছু না করে)। $p$

— বন্য বিড়ালবিশেষ
সূত্র

এটি কি এর প্রত্যাশা শূন্য হয় না?

T

$T$

— whuber

@ শুভ আমি যোগ করেছি যে উভয় গ্রুপে সমান অবস্থানের প্যারামিটারগুলির নাল অনুমানের সাথে, আমাদের শূন্যের নীচে এবং অধীনে বিনিময়যোগ্যতা রয়েছে (ধারাবাহিকতা এবং সমান বিস্তার অনুমান করে)।

E (T) = 0

$E(T) = 0$

— ক্যারাকাল

ধন্যবাদ, এটি একটি উন্নতি। আপনি কি তাহলে ব্যাখ্যা করতে পারেন যে পরিসংখ্যানগুলি এই অনুমানের অধীনে একটি প্রতিসম বিতরণ করতে ব্যর্থ হতে পারে?

— whuber

@whuber বিন্যাস বন্টন সামঁজস্যহীন হতে পারে যেমন নমুনা মান উপর নির্ভর করে। মানগুলি গ্রুপ উত্তর: 1, মান গ্রুপ বি: 2, 2. তিন প্রাসঙ্গিক একাধিক বিন্যাসন সম্ভব ফলনশীল হয় ।

T^{⋆} = - 1, .5, .5

$T^{\star} = {-1, .5, .5}$

— ক্যারাকাল

স্পষ্টতার জন্য আপনাকে ধন্যবাদ: আমি এখন যুক্তি অনুসরণ করি।

— শুক্র