অনুকূল নমুনার আকার পৌঁছানোর আগে কেন এ / বি পরীক্ষা বন্ধ করা ভুল?


13

আমি আমার সংস্থায় এ / বি পরীক্ষার ফলাফল (ওয়েবসাইটের বিভিন্নতায় চালিত) উপস্থাপনের দায়িত্বে আছি। আমরা এক মাস ধরে পরীক্ষা চালাই এবং তারপরে আমাদের তাত্পর্য না পৌঁছা পর্যন্ত নিয়মিত বিরতিতে পি-মানগুলি পরীক্ষা করে দেখি (বা দীর্ঘক্ষণ পরীক্ষা চালানোর পরে যদি তাৎপর্য না পাওয়া যায় তবে ত্যাগ করুন), যা আমি এখন সন্ধান করছি এটি একটি ভুল অনুশীলন

আমি এখন এই অনুশীলনটি থামাতে চাই, তবে এটি করতে, আমি বুঝতে চাই কেন এটি ভুল। আমি বুঝতে পারি যে এফেক্ট সাইজ, নমুনা আকার (এন), আলফা তাত্পর্য মানদণ্ড (α) এবং পরিসংখ্যানিক শক্তি, বা নির্বাচিত বা আবদ্ধ বিটা (β) গাণিতিকভাবে সম্পর্কিত। কিন্তু প্রয়োজনীয় নমুনার আকারে পৌঁছানোর আগে আমরা যখন আমাদের পরীক্ষা বন্ধ করি তখন ঠিক কী পরিবর্তন হয়?

আমি এখানে কয়েকটি পোস্ট পড়েছি (যথা এটি , এটি এবং এটি ) এবং তারা আমাকে বলে যে আমার অনুমান পক্ষপাতমূলক হবে এবং আমার টাইপ 1 ত্রুটির হার নাটকীয়ভাবে বৃদ্ধি পেয়েছে। কিন্তু কীভাবে তা ঘটে? আমি একটি গাণিতিক ব্যাখ্যা খুঁজছি , এমন কিছু যা ফলাফলের উপর নমুনার আকারের প্রভাব স্পষ্টভাবে প্রদর্শন করবে। আমার ধারণা আমি উপরে উল্লিখিত কারণগুলির মধ্যে সম্পর্কের সাথে এর কিছু সম্পর্ক রয়েছে তবে আমি সঠিক সূত্রগুলি খুঁজে বের করতে এবং নিজেরাই সেগুলি কার্যকর করতে সক্ষম হইনি।

উদাহরণস্বরূপ, অকাল সময়ের আগে পরীক্ষা বন্ধ করা টাইপ 1 ত্রুটির হার বৃদ্ধি করে। ঠিক আছে. কিন্তু কেন? প্রকার 1 ত্রুটির হার বাড়ানোর জন্য কী ঘটে? আমি এখানে স্বজ্ঞাত অনুপস্থিত।

অনুগ্রহ করে সাহায্য করবেন.



1
হ্যাঁ আমি এই লিঙ্কটি দিয়েছিলাম, তবে আমি প্রদত্ত উদাহরণটি বুঝতে পারি নি।
সাক্ক

দুঃখিত গোপালকৃষ্ণন - দেখেন নি যে আপনার প্রথম লিঙ্কটি ইতিমধ্যে ইঙ্গিত করেছে।
seanv507

1
আপনি কি বুঝতে পারছেন না তা ব্যাখ্যা করতে পারেন। গণিত / অন্তর্দৃষ্টি খুব পরিষ্কার বলে মনে হচ্ছে: এটি প্রয়োজনীয় নমুনার আকারের আগে এতটা থামছে না, তবে বারবার চেক করছে। , যাতে আপনি একাধিকবার একক পরীক্ষার জন্য ডিজাইন করা পরীক্ষা ব্যবহার করতে পারবেন না। P(i1Nxi>θ)P(xN>θ)
seanv507

@ গোপালকৃষ্ণনশঙ্কর আমার উত্তরে দেওয়া গাণিতিক ব্যাখ্যা
টোমকা

উত্তর:


4

এ / বি পরীক্ষাগুলি কেবল নির্দিষ্ট টাইপ -১ ত্রুটি ( ) স্তরের সাথে একই ডেটাতে বারবার পরীক্ষা করে মৌলিকভাবে ত্রুটিযুক্ত। এটি কেন হওয়ার কমপক্ষে দুটি কারণ রয়েছে। প্রথমত, পুনরাবৃত্তি পরীক্ষাগুলি পারস্পরিক সম্পর্কযুক্ত তবে পরীক্ষাগুলি স্বাধীনভাবে পরিচালিত হয়। দ্বিতীয়ত, স্থির গুণমান পরিচালিত পরীক্ষার জন্য অ্যাকাউন্ট -1 ত্রুটি -1 ত্রুটি মুদ্রাস্ফীতি বাড়ে না।αα

প্রথমটি দেখতে, ধরে নিই যে প্রতিটি নতুন পর্যবেক্ষণের পরে আপনি একটি নতুন পরীক্ষা করেন। স্পষ্টত যে কোনও দুটি পি-মান পরস্পর সম্পর্কিত হবে কারণ দুটি পরীক্ষার মধ্যে কেস পরিবর্তন হয়নি। ফলস্বরূপ আমরা @ বার্নহার্ডের চক্রান্তে একটি প্রবণতা দেখতে পাই যে পি-ভ্যালুগুলির এই সম্পর্কটিকে দেখায়।n1

দ্বিতীয়টি দেখতে, আমরা নোট করি যে পরীক্ষাগুলি স্বতন্ত্র থাকা সত্ত্বেও পরীক্ষাগুলির সংখ্যার সাথে আল- নীচে পি-মান থাকার সম্ভাবনা থাকে যেখানে হয় একটি মিথ্যাভাবে বাতিল নাল অনুমানের ঘটনা। আপনি বার বার পরীক্ষা / বি পরীক্ষার ফলে কমপক্ষে একটি ইতিবাচক পরীক্ষার ফলাফল পাওয়ার সম্ভাবনা বিপরীতে যায় । আপনি যদি প্রথমে ইতিবাচক ফলাফলের পরে কেবল থামিয়ে থাকেন তবে আপনি কেবলমাত্র এই সূত্রটির যথার্থতা প্রদর্শন করবেন। অন্যভাবে বলুন, নাল অনুমানটি সত্য হলেও আপনি শেষ পর্যন্ত এটিকে প্রত্যাখ্যান করবেন। A / b পরীক্ষাটি এমনভাবে প্রভাবগুলি সন্ধানের চূড়ান্ত উপায় যেখানে কোনও কিছুই নেই।αt

P(A)=1(1α)t,
A1

যেহেতু এই পরিস্থিতিতে পরস্পর সম্পর্কযুক্ত এবং একাধিক পরীক্ষার একই সময় ধরে, তাই পরীক্ষার এর পি-মান -এর পি-মানের উপর নির্ভর করে । সুতরাং আপনি যদি অবশেষে একটি পৌঁছে থাকেন তবে আপনি সম্ভবত এই অঞ্চলে কিছুক্ষণ থাকবেন। আপনি এটি 2500 থেকে 3500 এবং 4000 থেকে 5000 অঞ্চলে @ বার্নহার্ডের প্লটটিতেও দেখতে পাবেন।t+1tp<α

প্রতি-একাধিক পরীক্ষা বৈধ, তবে একটি নির্দিষ্ট বিরুদ্ধে পরীক্ষা করা ঠিক নয়। অনেকগুলি পদ্ধতি রয়েছে যা একাধিক পরীক্ষার পদ্ধতি এবং পারস্পরিক সম্পর্কযুক্ত উভয়ই পরীক্ষা করে। পরীক্ষার সংশোধনের একটি পরিবারকে পারিবারিকভাবে ত্রুটি হার নিয়ন্ত্রণ বলা হয় । তারা যা করে তা হ'ল আশ্বাস দেওয়াα

P(A)α.

তর্কযোগ্যভাবে সর্বাধিক বিখ্যাত অ্যাডজাস্টমেন্ট (এর সরলতার কারণে) হলেন বনফেরনি। এখানে আমরা যার জন্য এটি স্বতন্ত্র পরীক্ষার সংখ্যা বড় হলে সহজেই দেখানো যেতে পারে । পরীক্ষাগুলি যদি সম্পর্কযুক্ত হয় তবে এটি রক্ষণশীল হতে পারে, । সুতরাং আপনি যে সহজতম সামঞ্জস্য করতে পারেন তা হ'ল আলফা স্তরটি আপনার ইতিমধ্যে করা পরীক্ষার সংখ্যার দ্বারা ভাগ করে নেওয়া।P ( A ) α P ( A ) < α 0.05

αadj=α/t,
P(A)αP(A)<α0.05

যদি আমরা @ বার্নহার্ডের সিমুলেশনে প্রয়োগ করি এবং y- অক্ষের ব্যবধানে জুম করি, তবে নীচের প্লটটি আমরা খুঁজে পাই। স্পষ্টতার জন্য আমি ধরে নিয়েছি আমরা প্রতিটি কয়েন ফ্লিপ (পরীক্ষার) পরে পরীক্ষা করি না তবে কেবল প্রতি শততম। কালো ড্যাশযুক্ত রেখাটি হ'ল স্ট্যান্ডার্ড কেটে গেছে এবং লাল ড্যাশযুক্ত লাইনটি বনফেরোনি সামঞ্জস্য।α = 0.05(0,0.1)α=0.05

এখানে চিত্র বর্ণনা লিখুন

যেহেতু আমরা দেখতে পাচ্ছি যে সামঞ্জস্যটি খুব কার্যকর এবং এটি দেখায় যে পরিবারগত ত্রুটি হারকে নিয়ন্ত্রণ করার জন্য আমাদের কতটা মৌলিক পরিবর্তন করতে হবে। বিশেষত আমরা এখন আর কোনও উল্লেখযোগ্য পরীক্ষা পাই না, কারণ এটি হওয়া উচিত কারণ @ বারহার্ডের নাল অনুমানটি সত্য।

এটি সম্পন্ন করে আমরা নোট করি যে পারস্পরিক সম্পর্কযুক্ত পরীক্ষার কারণে বনফেরোনি এই পরিস্থিতিতে খুব রক্ষণশীল। উচ্চতর পরীক্ষা রয়েছে যা এই পরিস্থিতিতে যেমন পারমিটেশন টেস্টের অর্থে আরও কার্যকর হবে । এছাড়াও পরীক্ষার বিষয়ে আরও অনেক কিছুই রয়েছে যা কেবল Bonferroni (যেমন মিথ্যা আবিষ্কারের হার এবং সম্পর্কিত বায়েশিয়ান কৌশলগুলি দেখুন) উল্লেখ করার চেয়ে বেশি। তবুও এটি আপনার প্রশ্নের ন্যূনতম পরিমাণে গণিত দিয়ে উত্তর দেয়।P(A)α


কোডটি এখানে:

set.seed(1)
n=10000
toss <- sample(1:2, n, TRUE)

p.values <- numeric(n)
for (i in 5:n){
  p.values[i] <- binom.test(table(toss[1:i]))$p.value
}
p.values = p.values[-(1:6)]
plot(p.values[seq(1, length(p.values), 100)], type="l", ylim=c(0,0.1),ylab='p-values')
abline(h=0.05, lty="dashed")
abline(v=0)
abline(h=0)
curve(0.05/x,add=TRUE, col="red", lty="dashed")

2
এটি আমার পক্ষে কাজ করে। আমার প্রবীণদের কাছে আমার বক্তব্যটি পেতে এখনই আমাকে এটি ব্যবসায়ের ভাষায় অনুবাদ করতে হবে, তবে এটি আমার নিজের সমস্যা। আপনাকে অনেক ধন্যবাদ
স্যাজক

8

যদি নাল অনুমানটি সত্য হয়, তবে লোকেরা প্রায়শই পি মানটি খুব বেশি হবে বলে আশা করে। এটি সত্য নয়। যদি নাল অনুমানটি সত্য হয়, তবে পি একটি অভিন্ন বিতরণ করা এলোমেলো পরিবর্তনশীল। অর্থ, সময়ে সময়ে কেবল এলোমেলোভাবে 0.05 এর নীচে থাকবে। আপনি যদি অনেকগুলি সাবসামেল দেখে থাকেন তবে কখনও কখনও পি মানটি 0.05 এর নীচে হবে।

বুঝতে সহজতর করার জন্য, এখানে একটি ছোট সিমুলেশন রয়েছে R:

এটি 10,000 বার বার একটি মুদ্রা ফেলবে এবং আমরা জানি, এটি একটি ন্যায্য মুদ্রা:

set.seed(1)
n=10000
toss <- sample(1:2, n, TRUE)

5 তম টস থেকে শুরু করে, এটি প্রতিটি টসের পরে ন্যায্যতার জন্য দ্বিপদী পরীক্ষা করবে এবং পি মানগুলি সংরক্ষণ করবে:

p.values <- numeric(n)
for (i in 5:n){
     p.values[i] <- binom.test(table(toss[1:i]))$p.value
}

এবং এটি একের পর এক পি-মানগুলি প্লট করবে:

plot(p.values, type="l")
abline(h=0.05)

এখানে চিত্র বর্ণনা লিখুন

আপনি দেখতে পাচ্ছেন, পুনরুদ্ধার করার জন্য পি মানটি 0.05 এর নীচে কয়েক বার পিছিয়ে যায় এবং শেষ পর্যন্ত পি = 0.05 এর থেকে অনেক উপরে। আমরা যে কোনও সময় ট্রায়াল বন্ধ করে দিলে p "উল্লেখযোগ্য" ছিল, আমরা ভুল উপসংহারে পৌঁছে যাব। একজনের যুক্তি হতে পারে "আমাদের কাছে প্রায় 4000 ট্রায়াল আইডির একটি নমুনা রয়েছে এবং পি .05 এর নিচে ছিল। খুব কমই আমরা আর কোনও নমুনা দেওয়া বন্ধ করতে পারি"। আপনি যত বেশি ঘন ঘন পি-মানটি পরীক্ষা করেন, তত সম্ভবত আপনি এলোমেলো ডিপটি পরীক্ষা করতে পারবেন। এক্ষেত্রে আমরা অধীনে ডেটা তৈরি এবং জানি, সত্য trueএইচ 0H0H0

(পুরোপুরি খোলামেলা হতে, আমি উদাহরণ জেনারেটরের জন্য একাধিক বীজ চেষ্টা করেছি যেমন এটি উদাহরণ হিসাবে পরিষ্কার ছিল তবে এটি শিক্ষাগত উদ্দেশ্যে উপযুক্ত। আপনি যদি Rইনস্টল করে চালিত হন তবে আপনি সহজেই সংখ্যাগুলি নিয়ে খেলতে পারবেন ।)


সহজ পরীক্ষার জন্য ধন্যবাদ। তবে বলুন যে আমি এই জাতীয় একটি পর্যায়ে পরীক্ষা বন্ধ করে দিয়েছি (যখন পি-মান <0.05), আমার ফলাফলগুলি কী বোঝাবে? (অন্যথায় ভুল যে সত্য)। আমার পক্ষে পি-ভ্যালু প্রান্তিক হ্রাস করে ক্ষতিপূরণ দেওয়া সম্ভব?
সাক্ক

+1 পারস্পরিক সম্পর্কযুক্ত পরীক্ষা এবং সম্পর্কিত একাধিক পরীক্ষার সমস্যা নোট করুন। আপনার (খুব ভাল) উদাহরণের ভিত্তিতে নীচে সামঞ্জস্য বিকল্পগুলির সাথে আমার বর্ধিত উত্তর দেখুন।
টমকা

আপনি পি-মান প্রান্তিক হ্রাস করে এটি যথেষ্ট ক্ষতিপূরণ দিতে পারবেন না । টাইপ প্রথম ত্রুটি এবং টাইপ II ত্রুটির মধ্যে দ্বন্দ্বের ক্ষেত্রে একটি নির্বাচন করা সর্বদা একটি আপস হয়, যা আলফা ত্রুটি এবং বিটা ত্রুটি হিসাবেও পরিচিত। অবশ্যই আপনি সম্পূর্ণরূপে বা তাদের প্রত্যেকের জন্য আংশিকভাবে ক্ষতিপূরণ দিতে পারেন, তবে শেষ পর্যন্ত এই বিরোধটি ক্রমবর্ধমান কঠিন হয়ে ওঠে যতবার আপনি পরীক্ষা করেন। আমি পড়েছি যে বেইসিয়ানরা দাবি করে যে এ নিয়ে তাদের সমস্যা কম রয়েছে তবে অল্প জ্ঞানের সাথে আমি মনে করি এটি কেবল একটি পরিসংখ্যানের মানকে বিশ্বাস করার মডেলিংয়ের জন্য এবং হ্যাঁ / কোনও সিদ্ধান্তে নয় holds ααα
বার্নহার্ড

আমার মূল বিষয়টি হ'ল পরিবারগত ত্রুটি (FWER) হার বা মিথ্যা আবিষ্কারের হার (এফডিআর) উভয় লক্ষ্যবস্তু টাইপ -1 ত্রুটি নিয়ন্ত্রণ করা। সাধারণত খুব বড় নমুনাগুলির কারণে টাইপ -2 ত্রুটি নিয়ন্ত্রণ করা / বি পরীক্ষায় কোনও সমস্যা কম হয়।
টোমকা

আপনি প্রথম এ থামলে @ গোপালকৃষ্ণানশঙ্কারp=0.05
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.