ফিশারের নির্ভুল পরীক্ষার ক্ষমতার বিস্ময়কর আচরণ (ক্রমশক্তি পরীক্ষা)


9

আমি তথাকথিত "নির্ভুল পরীক্ষা" বা "ক্রিয়েটেশন পরীক্ষা" এর একটি বিপরীতমুখী আচরণের মুখোমুখি হয়েছি, যার প্রোটোটাইপ ফিশার পরীক্ষা। এটা এখানে.

কল্পনা করুন আপনার 400 জন ব্যক্তির দুটি গ্রুপ রয়েছে (উদাহরণস্বরূপ 400 নিয়ন্ত্রণ বনাম 400 কেস) এবং দুটি রূপের (যেমন উদ্ঘাটিত / অপ্রকাশিত) সহ একটি কোভারিয়েট। কেবলমাত্র 5 জন উন্মুক্ত ব্যক্তি রয়েছেন, সমস্তই দ্বিতীয় গ্রুপে। ফিশার পরীক্ষাটি এরকম হয়:

> x <- matrix( c(400, 395, 0, 5) , ncol = 2)
> x
     [,1] [,2]
[1,]  400    0
[2,]  395    5
> fisher.test(x)

    Fisher's Exact Test for Count Data

data:  x
p-value = 0.06172
(...)

তবে এখন, দ্বিতীয় গ্রুপে কিছু ভিন্নতা রয়েছে (মামলাগুলি), যেমন রোগের ফর্ম বা রিক্রুটিং সেন্টার। এটি 100 ব্যক্তির 4 টি গ্রুপে বিভক্ত হতে পারে। এরকম কিছু হওয়ার সম্ভাবনা রয়েছে:

> x <- matrix( c(400, 99, 99 , 99, 98, 0, 1, 1, 1, 2) , ncol = 2)
> x
     [,1] [,2]
[1,]  400    0
[2,]   99    1
[3,]   99    1
[4,]   99    1
[5,]   98    2
> fisher.test(x)

    Fisher's Exact Test for Count Data

data:  x 
p-value = 0.03319
alternative hypothesis: two.sided
(...)

এখন আমাদের আছে পি<0.05...

এটি কেবল একটি উদাহরণ। তবে আমরা দুটি বিশ্লেষণ কৌশলটির শক্তি অনুকরণ করতে পারি, ধরে নিই যে প্রথম 400 ব্যক্তির মধ্যে, এক্সপোজারের ফ্রিকোয়েন্সি 0 হয়, এবং 400 জন ব্যক্তির মধ্যে এটি 0.0125 হয়।

আমরা 400 জন ব্যক্তির দুটি গ্রুপের সাথে বিশ্লেষণের শক্তিটি অনুমান করতে পারি:

> p1 <- replicate(1000, { n <- rbinom(1, 400, 0.0125); 
                          x <- matrix( c(400, 400 - n, 0, n), ncol = 2); 
                          fisher.test(x)$p.value} )
> mean(p1 < 0.05)
[1] 0.372

এবং 100 জন ব্যক্তির একটি গ্রুপ এবং 4 টি গ্রুপ সহ:

> p2 <- replicate(1000, { n <- rbinom(4, 100, 0.0125); 
                          x <- matrix( c(400, 100 - n, 0, n), ncol = 2);
                          fisher.test(x)$p.value} )
> mean(p2 < 0.05)
[1] 0.629

শক্তির বেশ পার্থক্য রয়েছে। এই সাব-গ্রুপগুলির মধ্যে বিতরণের কোনও পার্থক্য না থাকলেও ৪ টি উপগোষ্ঠীতে কেসগুলি ভাগ করা আরও শক্তিশালী পরীক্ষা দেয়। অবশ্যই পাওয়ারের এই লাভটি বর্ধিত প্রকারের ত্রুটি হারের জন্য দায়ী নয়।

এই ঘটনাটি কি সুপরিচিত? তার মানে কি প্রথম কৌশলটি শক্তি চালিত? বুটস্ট্র্যাপযুক্ত পি-মানটি কি আরও ভাল সমাধান হতে পারে? আপনার সমস্ত মন্তব্য স্বাগত।

পোস্ট স্ক্রিপ্টাম

@ মার্তিজজন ওয়েটারিংস দ্বারা চিহ্নিত হিসাবে, এই আচরণের কারণের একটি দুর্দান্ত অংশ (যা আমার প্রশ্নটি ঠিক নয়!) সত্য যে মিথ্যা বিশ্লেষণ কৌশলগুলির প্রথম ধরণের ভুলগুলি একই নয় lies তবে এটি সমস্ত কিছু ব্যাখ্যা করে বলে মনে হয় না। আমি আরওসি কার্ভগুলির সাথে তুলনা করার চেষ্টা করেছিএইচ0:পি0=পি1=0.005 বনাম এইচ1:পি0=0.05পি1=0,0125

এখানে আমার কোড।

B <- 1e5
p0 <- 0.005
p1 <- 0.0125

# simulation under H0 with p = p0 = 0.005 in all groups
# a = 2 groups 400:400, b = 5 groupe 400:100:100:100:100

p.H0.a <- replicate(B, { n <- rbinom( 2, c(400,400), p0);
                           x <- matrix( c( c(400,400) -n, n ), ncol = 2);
                          fisher.test(x)$p.value} )

p.H0.b <- replicate(B, { n <- rbinom( 5, c(400,rep(100,4)), p0);
                           x <- matrix( c( c(400,rep(100,4)) -n, n ), ncol = 2);
                          fisher.test(x)$p.value} )

# simulation under H1 with p0 = 0.005 (controls) and p1 = 0.0125 (cases)

p.H1.a <- replicate(B, { n <- rbinom( 2, c(400,400), c(p0,p1) );
                           x <- matrix( c( c(400,400) -n, n ), ncol = 2);
                          fisher.test(x)$p.value} )

p.H1.b <- replicate(B, { n <- rbinom( 5, c(400,rep(100,4)), c(p0,rep(p1,4)) );
                           x <- matrix( c( c(400,rep(100,4)) -n, n ), ncol = 2);
                          fisher.test(x)$p.value} )

# roc curve 

ROC <- function(p.H0, p.H1) {
  p.threshold <- seq(0, 1.001, length=501)
  alpha <- sapply(p.threshold, function(th) mean(p.H0 <= th) )
  power <- sapply(p.threshold, function(th) mean(p.H1 <= th) )
  list(x = alpha, y = power)
}

par(mfrow=c(1,2))
plot( ROC(p.H0.a, p.H1.a) , type="b", xlab = "alpha", ylab = "1-beta" , xlim=c(0,1), ylim=c(0,1), asp = 1)
lines( ROC(p.H0.b, p.H1.b) , col="red", type="b" )
abline(0,1)

plot( ROC(p.H0.a, p.H1.a) , type="b", xlab = "alpha", ylab = "1-beta" , xlim=c(0,.1) )
lines( ROC(p.H0.b, p.H1.b) , col="red", type="b" )
abline(0,1)

ফলাফল এখানে:

রক বক্ররেখা

এতে দেখা যায় যে একই সময়ে একটি তুলনা সত্য টাইপ আমি ভুল এখনও (প্রকৃতপক্ষে অনেক ছোট) পার্থক্য বাড়ে।


আমি বুঝতে পারছি না। কিছু গ্রুপের বিভাজন যখন এর অভ্যন্তরে কিছু বিজাতীয়তা সন্দেহ করা যায় তখন তা বোঝাতে পারে - বলুন, তারা 5 টি বিভিন্ন কেন্দ্র থেকে আসে। "উন্মুক্ত" মোডিয়ালিটি বিভক্ত করা আমার কাছে বোধগম্য মনে হয় না।
এলভিস

1
যদি আমরা গ্রাফিকভাবে প্রথম এবং দ্বিতীয় কৌশলটির মধ্যে পার্থক্যটি স্কেচ করব। তারপরে আমি অনুমানের মান এবং পৃষ্ঠের জন্য একটি বিন্দু সহ 5 টি অক্ষ (400 100 100 100 এবং 100 এর গ্রুপের জন্য) সহ একটি সমন্বিত সিস্টেমটি কল্পনা করি যা সম্ভাবনাটি একটি নির্দিষ্ট স্তরের নীচে থাকে beyond প্রথম কৌশলটি সহ এই পৃষ্ঠটি একটি সিলিন্ডার, দ্বিতীয় কৌশল সহ এই পৃষ্ঠটি একটি গোলক। ত্রুটিটির জন্য সত্য মূল্য এবং এটির চারপাশের জন্য একই The আমরা যা চাই তা হ'ল ওভারল্যাপটি যতটা সম্ভব ছোট হওয়া।
সেক্সটাস এম্পেরিকাস

1
আমি আমার পদ্ধতির শেষটি গ্রহণ করেছি যে কেন দুটি পদ্ধতির মধ্যে পার্থক্য রয়েছে সেই যুক্তিটি সম্পর্কে আরও কিছুটা অন্তর্দৃষ্টি প্রদান করে।
সেক্সটাস এম্পেরিকাস

1
আমি বিশ্বাস করি যে যখন দুটি মার্জিনের মধ্যে একটির স্থির করা হয় তখন বার্নার্ডের সঠিক পরীক্ষাটি ব্যবহৃত হয়। তবে সম্ভবত আপনি একই প্রভাব পাবেন।
সেক্সটাস এম্পেরিকাস

1
আরেকটি (আরও) আকর্ষণীয় নোট যা আমি তৈরি করতে চেয়েছিলাম তা হ'ল আপনি যখন p0> p1 দিয়ে পরীক্ষা করেন তখন শক্তিটি হ্রাস পায়। সুতরাং পাওয়ারটি যখন একই আলফা স্তরে p1> p0 বৃদ্ধি পায়। কিন্তু পাওয়ার কমে যখন p1 <p0 (আমি এমনকি একটি বক্ররেখা যে ত্রিভুজ নীচে হয়)।
সেক্সটাস এম্পেরিকাস

উত্তর:


4

পি-মানগুলি কেন আলাদা

দুটি প্রভাব চলছে:

  • আপনি যে মানগুলি বেছে নিয়েছেন তার বিচ্ছিন্নতার কারণে 'সবচেয়ে সম্ভবত হওয়ার সম্ভাবনা রয়েছে' 0 2 1 1 1 ভেক্টর। তবে এটি (অসম্ভব) 0 1.25 1.25 1.25 1.25 থেকে পৃথক হবে, যার একটি ছোট হবেχ2 মান।

    ফলাফলটি ভেক্টর 5 0 0 0 0 0 কমপক্ষে চরম ক্ষেত্রে হিসাবে দেখা হয় না (5 0 0 0 0 ছোট আছে χ20 2 1 1 1 এর চেয়ে বেশি)। আগেও এই ঘটনা ছিল। দুই পক্ষ 2x2 টেবিল গন্য 5 উন্মুক্ত প্রথম অথবা সমানভাবে চরম হিসাবে দ্বিতীয় দলের হচ্ছে উভয় ক্ষেত্রেই উপর ফিশার পরীক্ষা।

    এই কারণেই পি-মানটি প্রায় 2 গুণক দ্বারা পৃথক হয় (ঠিক পরের পয়েন্টের কারণে নয়)

  • আপনি সমানভাবে চরম ক্ষেত্রে হিসাবে 5 0 0 0 0 আলগা করার সময়, আপনি 0 2 1 1 1 এর চেয়ে বেশি চরম ক্ষেত্রে হিসাবে 1 4 0 0 0 অর্জন করেন।

সুতরাং পার্থক্যটি সীমানার মধ্যে χ2মান (বা হুবহু ফিশার পরীক্ষার আর বাস্তবায়নের মাধ্যমে সরাসরি গণনা করা পি-মান) আপনি যদি 400 এর গ্রুপকে 100 এর 4 টি গ্রুপে বিভক্ত করেন তবে বিভিন্ন ক্ষেত্রে অন্যের চেয়ে কম বা কম 'চরম' হিসাবে বিবেচিত হবে। 5 0 0 0 0 এখন 0 2 1 1 এর তুলনায় 'চরম' কম কিন্তু 1 4 0 0 0 আরও 'চরম'।


কোড উদাহরণ:

# probability of distribution a and b exposures among 2 groups of 400
draw2 <- function(a,b) {
  choose(400,a)*choose(400,b)/choose(800,5)
}

# probability of distribution a, b, c, d and e exposures among 5 groups of resp 400, 100, 100, 100, 100
draw5 <- function(a,b,c,d,e) {
choose(400,a)*choose(100,b)*choose(100,c)*choose(100,d)*choose(100,e)/choose(800,5)
}

# looping all possible distributions of 5 exposers among 5 groups
# summing the probability when it's p-value is smaller or equal to the observed value 0 2 1 1 1
sumx <- 0
for (f in c(0:5)) {
  for(g in c(0:(5-f))) {
    for(h in c(0:(5-f-g))) {
      for(i in c(0:(5-f-g-h))) {
        j = 5-f-g-h-i
        if (draw5(f, g, h, i, j) <= draw5(0, 2, 1, 1, 1)) {
          sumx <- sumx + draw5(f, g, h, i, j)
        }
      }
    }
  } 
}
sumx  #output is 0.3318617

# the split up case (5 groups, 400 100 100 100 100) can be calculated manually
# as a sum of probabilities for cases 0 5 and 1 4 0 0 0 (0 5 includes all cases 1 a b c d with the sum of the latter four equal to 5)
fisher.test(matrix( c(400, 98, 99 , 99, 99, 0, 2, 1, 1, 1) , ncol = 2))[1]
draw2(0,5) + 4*draw(1,4,0,0,0)

# the original case of 2 groups (400 400) can be calculated manually
# as a sum of probabilities for the cases 0 5 and 5 0 
fisher.test(matrix( c(400, 395, 0, 5) , ncol = 2))[1]
draw2(0,5) + draw2(5,0)

শেষ বিট আউটপুট

> fisher.test(matrix( c(400, 98, 99 , 99, 99, 0, 2, 1, 1, 1) , ncol = 2))[1]
$p.value
[1] 0.03318617

> draw2(0,5) + 4*draw(1,4,0,0,0)
[1] 0.03318617

> fisher.test(matrix( c(400, 395, 0, 5) , ncol = 2))[1]
$p.value
[1] 0.06171924

> draw2(0,5) + draw2(5,0)
[1] 0.06171924

বিভাজনকারী গোষ্ঠীগুলি যখন এটি শক্তিকে কীভাবে প্রভাবিত করে

  • পি-মানগুলির 'উপলব্ধ' স্তরের বিচ্ছিন্ন পদক্ষেপ এবং ফিশার্সের সঠিক পরীক্ষার রক্ষণশীলতার কারণে কিছু পার্থক্য রয়েছে (এবং এই পার্থক্যগুলি বেশ বড় হতে পারে)।

  • এছাড়াও ফিশার পরীক্ষাটি তথ্যের ভিত্তিতে (অজানা) মডেলটিকে ফিট করে এবং তারপরে পি-মানগুলি গণনা করার জন্য এই মডেলটি ব্যবহার করে। উদাহরণস্বরূপ মডেলটি হ'ল হ'ল ৫ জন প্রকাশিত ব্যক্তি। আপনি যদি বিভিন্ন গোষ্ঠীর জন্য দ্বি-দ্বি নিয়ে ডেটা মডেল করেন তবে আপনি মাঝে মাঝে কম বা কম 5 ব্যক্তির সাথে পাবেন। আপনি যখন এটিতে ফিশার টেস্ট প্রয়োগ করেন, তারপরে কিছু ত্রুটি লাগানো হবে এবং নির্দিষ্ট প্রান্তিকের সাথে পরীক্ষার তুলনায় অবশিষ্টাংশগুলি ছোট হবে। ফলাফলটি পরীক্ষাটি অনেক বেশি রক্ষণশীল, সঠিক নয় exact

আমি প্রত্যাশা করেছিলাম যে পরীক্ষার ধরণের আই ত্রুটির সম্ভাবনার উপর প্রভাব এতটা দুর্দান্ত হবে না যদি আপনি এলোমেলোভাবে দলগুলিকে বিভক্ত করেন। যদি নাল অনুমানটি সত্য হয় তবে আপনি মোটামুটিভাবে মুখোমুখি হবেনαক্ষেত্রে শতাংশ একটি উল্লেখযোগ্য পি-মান। এই উদাহরণের জন্য পার্থক্যগুলি ইমেজের শো হিসাবে বড়। মূল কারণটি হ'ল মোট 5 টি এক্সপোজারের সাথে কেবলমাত্র তিনটি মাত্রার পার্থক্য রয়েছে (5-0, 4-1, 3-2, 2-3, 1-4, 0-5) এবং কেবল তিনটি পৃথক পি- মান (400 এর দুটি গ্রুপের ক্ষেত্রে)।

সবচেয়ে আকর্ষণীয় হ'ল প্রত্যাখাত হওয়ার সম্ভাবনার প্লট এইচ0 যদি এইচ0 সত্য এবং যদি এইচএকটিসত্য. এই ক্ষেত্রে আলফা স্তর এবং বিচক্ষণতা এতটা গুরুত্বপূর্ণ নয় (আমরা কার্যকর প্রত্যাখ্যানের হারের পরিকল্পনা করি) এবং আমরা এখনও একটি বড় পার্থক্য দেখতে পাই see

এটি এখনও সব সম্ভাব্য পরিস্থিতিতে আছে কিনা তা এখনও প্রশ্ন থেকেই যায়।

আপনার পাওয়ার বিশ্লেষণের 3 বার কোড সমন্বয় (এবং 3 টি চিত্র):

দ্বিপদী ব্যবহার করে 5 উন্মুক্ত ব্যক্তির ক্ষেত্রে সীমাবদ্ধ

কার্যকর সম্ভাবনার প্রত্যাখ্যান করার প্লট এইচ0নির্বাচিত আলফা ফাংশন হিসাবে। এটি ফিশারের নির্ভুল পরীক্ষার জন্য জানা যায় যে পি-মানটি হুবহু গণনা করা হয় তবে কেবলমাত্র কয়েকটি স্তর (পদক্ষেপ) ঘটে তাই প্রায়শই একটি নির্বাচিত আলফা স্তরের ক্ষেত্রে পরীক্ষাটি খুব রক্ষণশীল হতে পারে।

এটি দেখতে আকর্ষণীয় যে 400-400 কেস (লাল) বনাম 400-100-100-100-100 কেস (নীল) এর জন্য প্রভাবটি আরও শক্তিশালী। সুতরাং আমরা প্রকৃতপক্ষে শক্তিটি বাড়ানোর জন্য এই বিভাজনটি ব্যবহার করতে পারি, এইচটি 00 টি প্রত্যাখ্যান করার সম্ভাবনা আরও বাড়িয়ে তুলি। (যদিও আমরা প্রথম ধরণের ত্রুটিটি আরও বেশি তৈরি করার বিষয়ে তেমন যত্ন নিই না, তাই শক্তি বাড়াতে এই বিভাজনটি করার বিষয়টি সবসময় এতটা শক্তিশালী নাও হতে পারে)

এইচ 0 প্রত্যাখ্যান করার বিভিন্ন সম্ভাবনা

দ্বিপদী ব্যবহার 5 উন্মুক্ত ব্যক্তির মধ্যে সীমাবদ্ধ নয়

আমরা যদি আপনার মতো দ্বিপদী ব্যবহার করি তবে দুটি ক্ষেত্রে 400-400 (লাল) বা 400-100-100-100-100 (নীল) দুটিই সঠিক পি-মান দেয় না। এটি কারণ ফিশার সঠিক পরীক্ষাটি নির্দিষ্ট সারি এবং কলামের পরিমাণ ধরে নেয় তবে দ্বিপদী মডেল এগুলিকে বিনামূল্যে রাখতে দেয়। ফিশার পরীক্ষাটি সারি এবং কলামের योगকে যথাযথ ত্রুটির শর্তের চেয়ে ছোট করে তোলে row

অত্যধিক রক্ষণশীল ফিশারের সঠিক পরীক্ষা

বর্ধিত শক্তি কি ব্যয় হয়?

যদি আমরা প্রত্যাখ্যানের সম্ভাবনাগুলি তুলনা করি যখন এইচ0 সত্য এবং যখন এইচএকটি সত্য (আমরা প্রথম মানটি কম এবং দ্বিতীয় মান উচ্চতর করতে চাই) তবে আমরা দেখতে পাই যে শক্তিটি (কখন প্রত্যাখ্যান করে) এইচএকটি প্রথম ধরণের ত্রুটি যে ব্যয় বেড়ে যায় সে ব্যতীত বৃদ্ধি করা যেতে পারে।

H_0 এবং H_a এর তুলনা করা

# using binomial distribution for 400, 100, 100, 100, 100
# x uses separate cases
# y uses the sum of the 100 groups
p <- replicate(4000, { n <- rbinom(4, 100, 0.006125); m <- rbinom(1, 400, 0.006125); 
x <- matrix( c(400 - m, 100 - n, m, n), ncol = 2);
y <- matrix( c(400 - m, 400 - sum(n), m, sum(n)), ncol = 2);
c(sum(n,m),fisher.test(x)$p.value,fisher.test(y)$p.value)} )

# calculate hypothesis test using only tables with sum of 5 for the 1st row
ps <- c(1:1000)/1000
m1 <- sapply(ps,FUN = function(x) mean(p[2,p[1,]==5] < x))
m2 <- sapply(ps,FUN = function(x) mean(p[3,p[1,]==5] < x))

plot(ps,ps,type="l",
     xlab = "chosen alpha level",
     ylab = "p rejection")
lines(ps,m1,col=4)
lines(ps,m2,col=2)

title("due to concervative test p-value will be smaller\n leading to differences")

# using all samples also when the sum exposed individuals is not 5
ps <- c(1:1000)/1000
m1 <- sapply(ps,FUN = function(x) mean(p[2,] < x))
m2 <- sapply(ps,FUN = function(x) mean(p[3,] < x))

plot(ps,ps,type="l", 
     xlab = "chosen alpha level",
     ylab = "p rejection")
lines(ps,m1,col=4)
lines(ps,m2,col=2)

title("overly conservative, low effective p-values \n fitting marginals makes residuals smaller than real error")


#   
# Third graph comparing H_0 and H_a
#
# using binomial distribution for 400, 100, 100, 100, 100
# x uses separate cases
# y uses the sum of the 100 groups
offset <- 0.5
p <- replicate(10000, { n <- rbinom(4, 100, offset*0.0125); m <- rbinom(1, 400, (1-offset)*0.0125); 
x <- matrix( c(400 - m, 100 - n, m, n), ncol = 2);
y <- matrix( c(400 - m, 400 - sum(n), m, sum(n)), ncol = 2);
c(sum(n,m),fisher.test(x)$p.value,fisher.test(y)$p.value)} )

# calculate hypothesis test using only tables with sum of 5 for the 1st row
ps <- c(1:10000)/10000
m1 <- sapply(ps,FUN = function(x) mean(p[2,p[1,]==5] < x))
m2 <- sapply(ps,FUN = function(x) mean(p[3,p[1,]==5] < x))

offset <- 0.6
p <- replicate(10000, { n <- rbinom(4, 100, offset*0.0125); m <- rbinom(1, 400, (1-offset)*0.0125); 
x <- matrix( c(400 - m, 100 - n, m, n), ncol = 2);
y <- matrix( c(400 - m, 400 - sum(n), m, sum(n)), ncol = 2);
c(sum(n,m),fisher.test(x)$p.value,fisher.test(y)$p.value)} )

# calculate hypothesis test using only tables with sum of 5 for the 1st row
ps <- c(1:10000)/10000
m1a <- sapply(ps,FUN = function(x) mean(p[2,p[1,]==5] < x))
m2a <- sapply(ps,FUN = function(x) mean(p[3,p[1,]==5] < x))

plot(ps,ps,type="l",
     xlab = "p rejecting if H_0 true",
     ylab = "p rejecting if H_a true",log="xy")
points(m1,m1a,col=4)
points(m2,m2a,col=2)

legend(0.01,0.001,c("400-400","400-100-100-100-100"),pch=c(1,1),col=c(2,4))

title("comparing H_0:p=0.5 \n with H_a:p=0.6")

কেন এটি ক্ষমতাকে প্রভাবিত করে

আমি বিশ্বাস করি যে সমস্যার মূল চাবিকাঠিটি "তাৎপর্যপূর্ণ" হিসাবে বেছে নেওয়া ফলাফলের মানগুলির মধ্যে পার্থক্য রয়েছে। পরিস্থিতি পাঁচটি উন্মুক্ত ব্যক্তিকে ৪০০, ১০০, ১০০, ১০০ এবং ১০০ আকারের গ্রুপ থেকে নেওয়া হচ্ছে from 'চরম' হিসাবে বিবেচিত বিভিন্ন নির্বাচন করা যেতে পারে। স্পষ্টতই শক্তি বৃদ্ধি পায় (কার্যকর ধরণের প্রথম ত্রুটিটি একই রকম হয়) আমরা যখন দ্বিতীয় কৌশলটির জন্য যাই।

যদি আমরা গ্রাফিকভাবে প্রথম এবং দ্বিতীয় কৌশলটির মধ্যে পার্থক্যটি স্কেচ করব। তারপরে আমি অনুমানের মান এবং পৃষ্ঠের জন্য একটি বিন্দু সহ 5 টি অক্ষ (400 100 100 100 এবং 100 এর গ্রুপের জন্য) সহ একটি সমন্বিত সিস্টেমটি কল্পনা করি যা সম্ভাবনাটি একটি নির্দিষ্ট স্তরের নীচে থাকে beyond প্রথম কৌশলটি সহ এই পৃষ্ঠটি একটি সিলিন্ডার, দ্বিতীয় কৌশল সহ এই পৃষ্ঠটি একটি গোলক। ত্রুটিটির জন্য সত্য মূল্য এবং এটির চারপাশের জন্য একই The আমরা যা চাই তা হ'ল ওভারল্যাপটি যতটা সম্ভব ছোট হওয়া।

আমরা যখন কিছুটা আলাদা সমস্যা বিবেচনা করি তখন আমরা একটি প্রকৃত গ্রাফিক তৈরি করতে পারি (নিম্ন মাত্রিকতার সাথে)।

কল্পনা করুন যে আমরা একটি বার্নোল্লি প্রক্রিয়াটি পরীক্ষা করতে চাই এইচ0:পি=0.51000 পরীক্ষা করে। তারপরে আমরা 1000 টি গ্রুপকে 500 টি আকারের দুটি গ্রুপে বিভক্ত করে একই কৌশলটি করতে পারি this এটি কেমন দেখাচ্ছে (এক্স এবং ওয়াই উভয় গ্রুপে গণনা করা উচিত)?

যান্ত্রিকতার উদাহরণ

প্লটটি দেখায় যে কীভাবে 500 এবং 500 (1000 এর একক গোষ্ঠীর পরিবর্তে) এর গ্রুপগুলি বিতরণ করা হয়।

স্ট্যান্ডার্ড হাইপোথিসিস পরীক্ষাটি মূল্যায়ন করবে (95% আলফা স্তরের জন্য) X এবং Y এর যোগফল 531 এর চেয়ে বড় বা 469 এর চেয়ে ছোট কিনা whether

তবে এর মধ্যে এক্স এবং ওয়াইয়ের অসম্ভব অসম্ভব বিতরণ অন্তর্ভুক্ত

থেকে বিতরণ একটি শিফট কল্পনা করুন এইচ0 প্রতি এইচএকটি। তারপরে প্রান্তগুলির অঞ্চলগুলি এতটা গুরুত্ব দেয় না এবং আরও একটি বিজ্ঞপ্তি সীমা আরও অর্থবোধ করে।

এটি অবশ্য সত্য নয় (যখন আমরা এলোমেলোভাবে গ্রুপগুলির বিভাজন নির্বাচন করি না এবং যখন গ্রুপগুলির কোনও অর্থ হতে পারে।


পাওয়ার কোডটি অনুমানের জন্য আমার কোডটি চালানোর চেষ্টা করুন, কেবল 0.0125 এর পরিবর্তে 0.02 দ্বারা প্রতিস্থাপন করুন (8 টি এক্সপোজড কেসেস গড়ে গড়ে আপনার পরামর্শের সাথে মেলে): 400 বনাম 400 বিশ্লেষণের শক্তি 80% এবং 5 টি গ্রুপের বিশ্লেষণের একটি শক্তি রয়েছে 90% এর।
এলভিস

তবে আমি সম্মত হই যে পরিসংখ্যানরা প্রথম পরিস্থিতিতে কম ভিন্ন মান নিতে পারে এবং এটি কোনও উপকারে আসে না। তবে সমস্যাটি ব্যাখ্যা করার জন্য এটি পর্যাপ্ত নয়: এই শক্তি শ্রেষ্ঠত্বটি কেবলমাত্র 0.05 নয়, সকল ধরণের I ত্রুটির জন্য লক্ষ্য করা যায়। দ্বিতীয় কৌশল দ্বারা প্রাপ্ত পি-মানগুলির কোয়ান্টাইলগুলি সর্বদা প্রথমটির দ্বারা প্রাপ্তদের চেয়ে কম থাকে।
এলভিস

আমি মনে করি আপনি যা বলছেন তাতে আমি একমত। তবে উপসংহারটি কী? আপনি কি কিছু শক্তি অর্জনের জন্য, ৪ টি উপগোষ্ঠীতে কেস গ্রুপকে এলোমেলোভাবে বিভক্ত করার সুপারিশ করবেন? অথবা আপনি আমার সাথে একমত হন যে এটি ন্যায়সঙ্গত হতে পারে না?
এলভিস

আমি মনে করি যে সমস্যাটি 4 টি সাবগ্রুপগুলিতে বিভক্ত কেসগুলির সাথে টেস্টের খারাপ গুণ থাকতে পারে - আমরা দুজনেই এই বিষয়ে একমত হয়েছি যে এর ধরণের I ত্রুটি হারটি ভাল আচরণ করা উচিত। আমি মনে করি যে সমস্যাটি হ'ল 400 নিয়ন্ত্রণ বনাম 400 কেস দিয়ে পরীক্ষাটি পাওয়ার সাবলীল। এর কোন "পরিষ্কার" সমাধান আছে কি? পি-মান সহায়তা বুটস্ট্র্যাপ করতে পারে?
এলভিস

(আমি দুঃখিত যে আমার প্রশ্নটি পুরোপুরি পরিষ্কার ছিল না!)
এলভিস
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.