পি-মানগুলি কেন আলাদা
দুটি প্রভাব চলছে:
আপনি যে মানগুলি বেছে নিয়েছেন তার বিচ্ছিন্নতার কারণে 'সবচেয়ে সম্ভবত হওয়ার সম্ভাবনা রয়েছে' 0 2 1 1 1 ভেক্টর। তবে এটি (অসম্ভব) 0 1.25 1.25 1.25 1.25 থেকে পৃথক হবে, যার একটি ছোট হবেχ2 মান।
ফলাফলটি ভেক্টর 5 0 0 0 0 0 কমপক্ষে চরম ক্ষেত্রে হিসাবে দেখা হয় না (5 0 0 0 0 ছোট আছে χ20 2 1 1 1 এর চেয়ে বেশি)। আগেও এই ঘটনা ছিল। দুই পক্ষ 2x2 টেবিল গন্য 5 উন্মুক্ত প্রথম অথবা সমানভাবে চরম হিসাবে দ্বিতীয় দলের হচ্ছে উভয় ক্ষেত্রেই উপর ফিশার পরীক্ষা।
এই কারণেই পি-মানটি প্রায় 2 গুণক দ্বারা পৃথক হয় (ঠিক পরের পয়েন্টের কারণে নয়)
আপনি সমানভাবে চরম ক্ষেত্রে হিসাবে 5 0 0 0 0 আলগা করার সময়, আপনি 0 2 1 1 1 এর চেয়ে বেশি চরম ক্ষেত্রে হিসাবে 1 4 0 0 0 অর্জন করেন।
সুতরাং পার্থক্যটি সীমানার মধ্যে χ2মান (বা হুবহু ফিশার পরীক্ষার আর বাস্তবায়নের মাধ্যমে সরাসরি গণনা করা পি-মান) আপনি যদি 400 এর গ্রুপকে 100 এর 4 টি গ্রুপে বিভক্ত করেন তবে বিভিন্ন ক্ষেত্রে অন্যের চেয়ে কম বা কম 'চরম' হিসাবে বিবেচিত হবে। 5 0 0 0 0 এখন 0 2 1 1 এর তুলনায় 'চরম' কম কিন্তু 1 4 0 0 0 আরও 'চরম'।
কোড উদাহরণ:
# probability of distribution a and b exposures among 2 groups of 400
draw2 <- function(a,b) {
choose(400,a)*choose(400,b)/choose(800,5)
}
# probability of distribution a, b, c, d and e exposures among 5 groups of resp 400, 100, 100, 100, 100
draw5 <- function(a,b,c,d,e) {
choose(400,a)*choose(100,b)*choose(100,c)*choose(100,d)*choose(100,e)/choose(800,5)
}
# looping all possible distributions of 5 exposers among 5 groups
# summing the probability when it's p-value is smaller or equal to the observed value 0 2 1 1 1
sumx <- 0
for (f in c(0:5)) {
for(g in c(0:(5-f))) {
for(h in c(0:(5-f-g))) {
for(i in c(0:(5-f-g-h))) {
j = 5-f-g-h-i
if (draw5(f, g, h, i, j) <= draw5(0, 2, 1, 1, 1)) {
sumx <- sumx + draw5(f, g, h, i, j)
}
}
}
}
}
sumx #output is 0.3318617
# the split up case (5 groups, 400 100 100 100 100) can be calculated manually
# as a sum of probabilities for cases 0 5 and 1 4 0 0 0 (0 5 includes all cases 1 a b c d with the sum of the latter four equal to 5)
fisher.test(matrix( c(400, 98, 99 , 99, 99, 0, 2, 1, 1, 1) , ncol = 2))[1]
draw2(0,5) + 4*draw(1,4,0,0,0)
# the original case of 2 groups (400 400) can be calculated manually
# as a sum of probabilities for the cases 0 5 and 5 0
fisher.test(matrix( c(400, 395, 0, 5) , ncol = 2))[1]
draw2(0,5) + draw2(5,0)
শেষ বিট আউটপুট
> fisher.test(matrix( c(400, 98, 99 , 99, 99, 0, 2, 1, 1, 1) , ncol = 2))[1]
$p.value
[1] 0.03318617
> draw2(0,5) + 4*draw(1,4,0,0,0)
[1] 0.03318617
> fisher.test(matrix( c(400, 395, 0, 5) , ncol = 2))[1]
$p.value
[1] 0.06171924
> draw2(0,5) + draw2(5,0)
[1] 0.06171924
বিভাজনকারী গোষ্ঠীগুলি যখন এটি শক্তিকে কীভাবে প্রভাবিত করে
পি-মানগুলির 'উপলব্ধ' স্তরের বিচ্ছিন্ন পদক্ষেপ এবং ফিশার্সের সঠিক পরীক্ষার রক্ষণশীলতার কারণে কিছু পার্থক্য রয়েছে (এবং এই পার্থক্যগুলি বেশ বড় হতে পারে)।
এছাড়াও ফিশার পরীক্ষাটি তথ্যের ভিত্তিতে (অজানা) মডেলটিকে ফিট করে এবং তারপরে পি-মানগুলি গণনা করার জন্য এই মডেলটি ব্যবহার করে। উদাহরণস্বরূপ মডেলটি হ'ল হ'ল ৫ জন প্রকাশিত ব্যক্তি। আপনি যদি বিভিন্ন গোষ্ঠীর জন্য দ্বি-দ্বি নিয়ে ডেটা মডেল করেন তবে আপনি মাঝে মাঝে কম বা কম 5 ব্যক্তির সাথে পাবেন। আপনি যখন এটিতে ফিশার টেস্ট প্রয়োগ করেন, তারপরে কিছু ত্রুটি লাগানো হবে এবং নির্দিষ্ট প্রান্তিকের সাথে পরীক্ষার তুলনায় অবশিষ্টাংশগুলি ছোট হবে। ফলাফলটি পরীক্ষাটি অনেক বেশি রক্ষণশীল, সঠিক নয় exact
আমি প্রত্যাশা করেছিলাম যে পরীক্ষার ধরণের আই ত্রুটির সম্ভাবনার উপর প্রভাব এতটা দুর্দান্ত হবে না যদি আপনি এলোমেলোভাবে দলগুলিকে বিভক্ত করেন। যদি নাল অনুমানটি সত্য হয় তবে আপনি মোটামুটিভাবে মুখোমুখি হবেনαক্ষেত্রে শতাংশ একটি উল্লেখযোগ্য পি-মান। এই উদাহরণের জন্য পার্থক্যগুলি ইমেজের শো হিসাবে বড়। মূল কারণটি হ'ল মোট 5 টি এক্সপোজারের সাথে কেবলমাত্র তিনটি মাত্রার পার্থক্য রয়েছে (5-0, 4-1, 3-2, 2-3, 1-4, 0-5) এবং কেবল তিনটি পৃথক পি- মান (400 এর দুটি গ্রুপের ক্ষেত্রে)।
সবচেয়ে আকর্ষণীয় হ'ল প্রত্যাখাত হওয়ার সম্ভাবনার প্লট এইচ0 যদি এইচ0 সত্য এবং যদি এইচএকটিসত্য. এই ক্ষেত্রে আলফা স্তর এবং বিচক্ষণতা এতটা গুরুত্বপূর্ণ নয় (আমরা কার্যকর প্রত্যাখ্যানের হারের পরিকল্পনা করি) এবং আমরা এখনও একটি বড় পার্থক্য দেখতে পাই see
এটি এখনও সব সম্ভাব্য পরিস্থিতিতে আছে কিনা তা এখনও প্রশ্ন থেকেই যায়।
আপনার পাওয়ার বিশ্লেষণের 3 বার কোড সমন্বয় (এবং 3 টি চিত্র):
দ্বিপদী ব্যবহার করে 5 উন্মুক্ত ব্যক্তির ক্ষেত্রে সীমাবদ্ধ
কার্যকর সম্ভাবনার প্রত্যাখ্যান করার প্লট এইচ0নির্বাচিত আলফা ফাংশন হিসাবে। এটি ফিশারের নির্ভুল পরীক্ষার জন্য জানা যায় যে পি-মানটি হুবহু গণনা করা হয় তবে কেবলমাত্র কয়েকটি স্তর (পদক্ষেপ) ঘটে তাই প্রায়শই একটি নির্বাচিত আলফা স্তরের ক্ষেত্রে পরীক্ষাটি খুব রক্ষণশীল হতে পারে।
এটি দেখতে আকর্ষণীয় যে 400-400 কেস (লাল) বনাম 400-100-100-100-100 কেস (নীল) এর জন্য প্রভাবটি আরও শক্তিশালী। সুতরাং আমরা প্রকৃতপক্ষে শক্তিটি বাড়ানোর জন্য এই বিভাজনটি ব্যবহার করতে পারি, এইচটি 00 টি প্রত্যাখ্যান করার সম্ভাবনা আরও বাড়িয়ে তুলি। (যদিও আমরা প্রথম ধরণের ত্রুটিটি আরও বেশি তৈরি করার বিষয়ে তেমন যত্ন নিই না, তাই শক্তি বাড়াতে এই বিভাজনটি করার বিষয়টি সবসময় এতটা শক্তিশালী নাও হতে পারে)
দ্বিপদী ব্যবহার 5 উন্মুক্ত ব্যক্তির মধ্যে সীমাবদ্ধ নয়
আমরা যদি আপনার মতো দ্বিপদী ব্যবহার করি তবে দুটি ক্ষেত্রে 400-400 (লাল) বা 400-100-100-100-100 (নীল) দুটিই সঠিক পি-মান দেয় না। এটি কারণ ফিশার সঠিক পরীক্ষাটি নির্দিষ্ট সারি এবং কলামের পরিমাণ ধরে নেয় তবে দ্বিপদী মডেল এগুলিকে বিনামূল্যে রাখতে দেয়। ফিশার পরীক্ষাটি সারি এবং কলামের योगকে যথাযথ ত্রুটির শর্তের চেয়ে ছোট করে তোলে row
বর্ধিত শক্তি কি ব্যয় হয়?
যদি আমরা প্রত্যাখ্যানের সম্ভাবনাগুলি তুলনা করি যখন এইচ0 সত্য এবং যখন এইচএকটি সত্য (আমরা প্রথম মানটি কম এবং দ্বিতীয় মান উচ্চতর করতে চাই) তবে আমরা দেখতে পাই যে শক্তিটি (কখন প্রত্যাখ্যান করে) এইচএকটি প্রথম ধরণের ত্রুটি যে ব্যয় বেড়ে যায় সে ব্যতীত বৃদ্ধি করা যেতে পারে।
# using binomial distribution for 400, 100, 100, 100, 100
# x uses separate cases
# y uses the sum of the 100 groups
p <- replicate(4000, { n <- rbinom(4, 100, 0.006125); m <- rbinom(1, 400, 0.006125);
x <- matrix( c(400 - m, 100 - n, m, n), ncol = 2);
y <- matrix( c(400 - m, 400 - sum(n), m, sum(n)), ncol = 2);
c(sum(n,m),fisher.test(x)$p.value,fisher.test(y)$p.value)} )
# calculate hypothesis test using only tables with sum of 5 for the 1st row
ps <- c(1:1000)/1000
m1 <- sapply(ps,FUN = function(x) mean(p[2,p[1,]==5] < x))
m2 <- sapply(ps,FUN = function(x) mean(p[3,p[1,]==5] < x))
plot(ps,ps,type="l",
xlab = "chosen alpha level",
ylab = "p rejection")
lines(ps,m1,col=4)
lines(ps,m2,col=2)
title("due to concervative test p-value will be smaller\n leading to differences")
# using all samples also when the sum exposed individuals is not 5
ps <- c(1:1000)/1000
m1 <- sapply(ps,FUN = function(x) mean(p[2,] < x))
m2 <- sapply(ps,FUN = function(x) mean(p[3,] < x))
plot(ps,ps,type="l",
xlab = "chosen alpha level",
ylab = "p rejection")
lines(ps,m1,col=4)
lines(ps,m2,col=2)
title("overly conservative, low effective p-values \n fitting marginals makes residuals smaller than real error")
#
# Third graph comparing H_0 and H_a
#
# using binomial distribution for 400, 100, 100, 100, 100
# x uses separate cases
# y uses the sum of the 100 groups
offset <- 0.5
p <- replicate(10000, { n <- rbinom(4, 100, offset*0.0125); m <- rbinom(1, 400, (1-offset)*0.0125);
x <- matrix( c(400 - m, 100 - n, m, n), ncol = 2);
y <- matrix( c(400 - m, 400 - sum(n), m, sum(n)), ncol = 2);
c(sum(n,m),fisher.test(x)$p.value,fisher.test(y)$p.value)} )
# calculate hypothesis test using only tables with sum of 5 for the 1st row
ps <- c(1:10000)/10000
m1 <- sapply(ps,FUN = function(x) mean(p[2,p[1,]==5] < x))
m2 <- sapply(ps,FUN = function(x) mean(p[3,p[1,]==5] < x))
offset <- 0.6
p <- replicate(10000, { n <- rbinom(4, 100, offset*0.0125); m <- rbinom(1, 400, (1-offset)*0.0125);
x <- matrix( c(400 - m, 100 - n, m, n), ncol = 2);
y <- matrix( c(400 - m, 400 - sum(n), m, sum(n)), ncol = 2);
c(sum(n,m),fisher.test(x)$p.value,fisher.test(y)$p.value)} )
# calculate hypothesis test using only tables with sum of 5 for the 1st row
ps <- c(1:10000)/10000
m1a <- sapply(ps,FUN = function(x) mean(p[2,p[1,]==5] < x))
m2a <- sapply(ps,FUN = function(x) mean(p[3,p[1,]==5] < x))
plot(ps,ps,type="l",
xlab = "p rejecting if H_0 true",
ylab = "p rejecting if H_a true",log="xy")
points(m1,m1a,col=4)
points(m2,m2a,col=2)
legend(0.01,0.001,c("400-400","400-100-100-100-100"),pch=c(1,1),col=c(2,4))
title("comparing H_0:p=0.5 \n with H_a:p=0.6")
কেন এটি ক্ষমতাকে প্রভাবিত করে
আমি বিশ্বাস করি যে সমস্যার মূল চাবিকাঠিটি "তাৎপর্যপূর্ণ" হিসাবে বেছে নেওয়া ফলাফলের মানগুলির মধ্যে পার্থক্য রয়েছে। পরিস্থিতি পাঁচটি উন্মুক্ত ব্যক্তিকে ৪০০, ১০০, ১০০, ১০০ এবং ১০০ আকারের গ্রুপ থেকে নেওয়া হচ্ছে from 'চরম' হিসাবে বিবেচিত বিভিন্ন নির্বাচন করা যেতে পারে। স্পষ্টতই শক্তি বৃদ্ধি পায় (কার্যকর ধরণের প্রথম ত্রুটিটি একই রকম হয়) আমরা যখন দ্বিতীয় কৌশলটির জন্য যাই।
যদি আমরা গ্রাফিকভাবে প্রথম এবং দ্বিতীয় কৌশলটির মধ্যে পার্থক্যটি স্কেচ করব। তারপরে আমি অনুমানের মান এবং পৃষ্ঠের জন্য একটি বিন্দু সহ 5 টি অক্ষ (400 100 100 100 এবং 100 এর গ্রুপের জন্য) সহ একটি সমন্বিত সিস্টেমটি কল্পনা করি যা সম্ভাবনাটি একটি নির্দিষ্ট স্তরের নীচে থাকে beyond প্রথম কৌশলটি সহ এই পৃষ্ঠটি একটি সিলিন্ডার, দ্বিতীয় কৌশল সহ এই পৃষ্ঠটি একটি গোলক। ত্রুটিটির জন্য সত্য মূল্য এবং এটির চারপাশের জন্য একই The আমরা যা চাই তা হ'ল ওভারল্যাপটি যতটা সম্ভব ছোট হওয়া।
আমরা যখন কিছুটা আলাদা সমস্যা বিবেচনা করি তখন আমরা একটি প্রকৃত গ্রাফিক তৈরি করতে পারি (নিম্ন মাত্রিকতার সাথে)।
কল্পনা করুন যে আমরা একটি বার্নোল্লি প্রক্রিয়াটি পরীক্ষা করতে চাই এইচ0: পি = 0.51000 পরীক্ষা করে। তারপরে আমরা 1000 টি গ্রুপকে 500 টি আকারের দুটি গ্রুপে বিভক্ত করে একই কৌশলটি করতে পারি this এটি কেমন দেখাচ্ছে (এক্স এবং ওয়াই উভয় গ্রুপে গণনা করা উচিত)?
প্লটটি দেখায় যে কীভাবে 500 এবং 500 (1000 এর একক গোষ্ঠীর পরিবর্তে) এর গ্রুপগুলি বিতরণ করা হয়।
স্ট্যান্ডার্ড হাইপোথিসিস পরীক্ষাটি মূল্যায়ন করবে (95% আলফা স্তরের জন্য) X এবং Y এর যোগফল 531 এর চেয়ে বড় বা 469 এর চেয়ে ছোট কিনা whether
তবে এর মধ্যে এক্স এবং ওয়াইয়ের অসম্ভব অসম্ভব বিতরণ অন্তর্ভুক্ত
থেকে বিতরণ একটি শিফট কল্পনা করুন এইচ0 প্রতি এইচএকটি। তারপরে প্রান্তগুলির অঞ্চলগুলি এতটা গুরুত্ব দেয় না এবং আরও একটি বিজ্ঞপ্তি সীমা আরও অর্থবোধ করে।
এটি অবশ্য সত্য নয় (যখন আমরা এলোমেলোভাবে গ্রুপগুলির বিভাজন নির্বাচন করি না এবং যখন গ্রুপগুলির কোনও অর্থ হতে পারে।