ছোট নমুনার সাথে এলোমেলোকরণ নির্ভরযোগ্য?


11

জেরোম কর্নফিল্ড লিখেছেন:

ফিশেরিয়ান বিপ্লবের অন্যতম সেরা ফলটি ছিল এলোমেলোকরণের ধারণা এবং পরিসংখ্যানবিদরা যারা অন্যান্য কয়েকটি বিষয়ে একমত হন তারা অন্তত এ বিষয়ে একমত হয়েছিলেন। তবে এই চুক্তি সত্ত্বেও এবং ক্লিনিকাল এবং পরীক্ষার অন্যান্য ধরণের এলোমেলোভাবে বরাদ্দকরণ পদ্ধতিগুলির ব্যাপক ব্যবহার সত্ত্বেও এর যৌক্তিক স্থিতি, অর্থাৎ এটি সম্পাদন করে সঠিক কাজটি এখনও অস্পষ্ট।

কর্নফিল্ড, জেরোম (1976)। "ক্লিনিকাল পরীক্ষায় সাম্প্রতিক পদ্ধতি সংক্রান্ত অবদান" । আমেরিকান জার্নাল অফ এপিডেমিওলজি 104 (4): 408–421।

এই সাইট জুড়ে এবং বিভিন্ন সাহিত্যে আমি ধারাবাহিকভাবে র্যান্ডমাইজেশনের শক্তিগুলি সম্পর্কে আত্মবিশ্বাসী দাবিগুলি দেখি। "এটি বিভ্রান্তিকর ভেরিয়েবলের সমস্যাটি মুছে দেয় " এর মতো শক্তিশালী পরিভাষা সাধারণ। উদাহরণস্বরূপ, এখানে দেখুন । যাইহোক, ব্যবহারিক / নৈতিক কারণে ছোট ছোট নমুনা (প্রতি গ্রুপে 3-10 নমুনা) নিয়ে অনেক সময় পরীক্ষাগুলি চালানো হয়। প্রাণী ও কোষের সংস্কৃতি ব্যবহার করে প্রকৃত গবেষণায় এটি খুব সাধারণ বিষয় এবং গবেষকরা তাদের সিদ্ধান্তের সমর্থনে পি মানগুলি প্রতিবেদন করেন।

এটি আমার অবাক করে দিয়েছিল, ভারসাম্য মিশ্রণগুলিতে এলোমেলোকরণ কতটা ভাল। এই চক্রান্তের জন্য আমি চিকিত্সা এবং নিয়ন্ত্রণ গোষ্ঠীর সাথে তুলনা করে এমন পরিস্থিতি মডেল করেছি যা একটি কনফন্ড যা 50/50 চান্স (যেমন টাইপ 1 / টাইপ 2, পুরুষ / মহিলা) সহ দুটি মান গ্রহণ করতে পারে। এটি বিভিন্ন ছোট ছোট নমুনা আকারের অধ্যয়নের জন্য "% ভারসাম্যহীন" (চিকিত্সা এবং নমুনা আকার দ্বারা বিভক্ত নিয়ন্ত্রণের মধ্যে টাইপ 1 এর মধ্যে পার্থক্য) দেখায় shows লাল রেখাগুলি এবং ডান পাশের অক্ষগুলি ecdf দেখায়।

ছোট নমুনা মাপের জন্য এলোমেলোকরণের অধীনে বিভিন্ন ডিগ্রী ব্যালেন্সের সম্ভাবনা: এখানে চিত্র বর্ণনা লিখুন

এই প্লটটি থেকে দুটি জিনিস পরিষ্কার (যদি আমি কোথাও গোলযোগ না করি)।

1) নমুনার আকার বাড়ার সাথে সাথে সঠিকভাবে ভারসাম্যযুক্ত নমুনা পাওয়ার সম্ভাবনা হ্রাস পায়।

2) নমুনার আকার বাড়ার সাথে খুব ভারসাম্যহীন নমুনা পাওয়ার সম্ভাবনা হ্রাস পায়।

3) উভয় গোষ্ঠীর জন্য এন = 3 এর ক্ষেত্রে, গোষ্ঠীগুলির সম্পূর্ণ ভারসাম্যহীন সেট হওয়ার সম্ভাবনা রয়েছে (চিকিত্সায় সমস্ত টাইপ 1 নিয়ন্ত্রণে রয়েছে)। এন = 3 আণবিক জীববিজ্ঞান পরীক্ষার জন্য সাধারণ (যেমন পিসিআর দ্বারা এমআরএনএ পরিমাপ করুন, বা পশ্চিমা দাগযুক্ত প্রোটিন)

যখন আমি n = 3 কেস আরও পরীক্ষা করেছি, আমি এই শর্তগুলির মধ্যে পি মানগুলির অদ্ভুত আচরণ পর্যবেক্ষণ করেছি। বাম দিকটি টাইপ 2 সাবগ্রুপের জন্য বিভিন্ন উপায়ে শর্তে টি-পরীক্ষা ব্যবহার করে গণনা করা প্যাভেলুগুলির সামগ্রিক বিতরণ দেখায়। টাইপ 1 এর গড়টি 0 এবং উভয় গ্রুপের জন্য এসডি = 1 ছিল। ডান প্যানেলগুলি নামমাত্র "তাত্পর্য কাট অফস" এর জন্য .05 থেকে শুরু করে 10001 এর জন্য সম্পর্কিত মিথ্যা ইতিবাচক হারগুলি দেখায়।

টি পরীক্ষার মাধ্যমে তুলনা করা হলে দুটি উপগোষ্ঠী এবং দ্বিতীয় উপগোষ্ঠীর বিভিন্ন উপায়ে এন = 3 এর জন্য পি-মানগুলির বিতরণ: এখানে চিত্র বর্ণনা লিখুন

উভয় গোষ্ঠীর জন্য এখানে n = 4 এর ফলাফল রয়েছে: এখানে চিত্র বর্ণনা লিখুন

উভয় গ্রুপের জন্য n = 5 এর জন্য: এখানে চিত্র বর্ণনা লিখুন

উভয় গ্রুপের জন্য n = 10 এর জন্য: এখানে চিত্র বর্ণনা লিখুন

উপরের চার্টগুলি থেকে দেখা যায় যে নমুনা আকার এবং সাবগ্রুপগুলির মধ্যে পার্থক্যের মধ্যে একটি মিথস্ক্রিয়া বলে মনে হচ্ছে যে নাল অনুমানের অধীনে বিভিন্ন পি-মান বিতরণ ঘটায় যা অভিন্ন নয়।

সুতরাং আমরা কী উপসংহারে পৌঁছাতে পারি যে ছোট-ছোট নমুনা আকারের সাথে সঠিকভাবে এলোমেলো এবং নিয়ন্ত্রিত পরীক্ষার জন্য পি-মানগুলি নির্ভরযোগ্য নয়?

প্রথম প্লটের জন্য আর কোড

require(gtools)

#pdf("sim.pdf")
par(mfrow=c(4,2))
for(n in c(3,4,5,6,7,8,9,10)){
  #n<-3
  p<-permutations(2, n, repeats.allowed=T)

  #a<-p[-which(duplicated(rowSums(p))==T),]
  #b<-p[-which(duplicated(rowSums(p))==T),]

  a<-p
  b<-p

  cnts=matrix(nrow=nrow(a))
  for(i in 1:nrow(a)){
    cnts[i]<-length(which(a[i,]==1))
  }


  d=matrix(nrow=nrow(cnts)^2)
  c<-1
  for(j in 1:nrow(cnts)){
    for(i in 1:nrow(cnts)){
      d[c]<-cnts[j]-cnts[i]
      c<-c+1
    }
  }
  d<-100*abs(d)/n

  perc<-round(100*length(which(d<=50))/length(d),2)

  hist(d, freq=F, col="Grey", breaks=seq(0,100,by=1), xlab="% Unbalanced",
       ylim=c(0,.4), main=c(paste("n=",n))
  )
  axis(side=4, at=seq(0,.4,by=.4*.25),labels=seq(0,1,,by=.25), pos=101)
  segments(0,seq(0,.4,by=.1),100,seq(0,.4,by=.1))
  lines(seq(1,100,by=1),.4*cumsum(hist(d, plot=F, breaks=seq(0,100,by=1))$density),
        col="Red", lwd=2)

}

প্লটের জন্য 2 কোড

for(samp.size in c(6,8,10,20)){
  dev.new()
  par(mfrow=c(4,2))
  for(mean2 in c(2,3,10,100)){
    p.out=matrix(nrow=10000)

    for(i in 1:10000){

      d=NULL
      #samp.size<-20
      for(n in 1:samp.size){
        s<-rbinom(1,1,.5)
        if(s==1){
          d<-rbind(d,rnorm(1,0,1))
        }else{
          d<-rbind(d,rnorm(1,mean2,1))
        }
      }

      p<-t.test(d[1:(samp.size/2)],d[(1+ samp.size/2):samp.size], var.equal=T)$p.value

      p.out[i]<-p
    }


    hist(p.out, main=c(paste("Sample Size=",samp.size/2),
                       paste( "% <0.05 =", round(100*length(which(p.out<0.05))/length(p.out),2)),
                       paste("Mean2=",mean2)
    ), breaks=seq(0,1,by=.05), col="Grey", freq=F
    )

    out=NULL
    alpha<-.05
    while(alpha >.0001){

      out<-rbind(out,cbind(alpha,length(which(p.out<alpha))/length(p.out)))
      alpha<-alpha-.0001
    }

    par(mar=c(5.1,4.1,1.1,2.1))
    plot(out, ylim=c(0,max(.05,out[,2])),
         xlab="Nominal alpha", ylab="False Postive Rate"
    )
    par(mar=c(5.1,4.1,4.1,2.1))
  }

}
#dev.off()

শর্তগুলি এবং সমস্যার বিবরণ আমি প্রথমে বুঝতে অসুবিধা পেয়েছি। টাইপ আই এবং টাইপ II হ'ল প্রযুক্তিগত পদ যা আপনার টাইপ 1 সাবগ্রুপ এবং টাইপ 2 সাবগ্রুপের ব্যবহারের চেয়ে আলাদা। যতদূর আমি বলতে পারি আপনাকে অর্থের মিশ্রণ সহ বিতরণ থেকে ডেটাতে টি-টেস্ট প্রয়োগ করা হচ্ছে। এটা কি সঠিক?
মাইকেল লু

হ্যাঁ, দুটি সাধারণ বিতরণের মিশ্রণ। "টাইপ 1" এন (0,1), টাইপ 2 হ'ল এন (মানে 2,1) বোঝায়। যেখানে গড় 2 = (2,3,10, বা 100)। দুঃখিত, আমি এটি টাইপএ, টাইপবিতে পরিবর্তন করতে পারতাম যদি আপনি ভাবেন যে এটি সাহায্য করবে?
ফ্লাস্ক

উত্তর:


4

খুব অল্প অল্প নমুনার জন্য অজানা বিস্ময়কর ভেরিয়েবলগুলির সাথে ডিল করার ক্ষেত্রে র্যান্ডমাইজেশনের সীমাবদ্ধতাগুলি উল্লেখ করার জন্য আপনি সঠিক। তবে সমস্যাটি এই নয় যে পি-মানগুলি নির্ভরযোগ্য নয়, তবে তাদের অর্থ নমুনার আকার এবং পদ্ধতির অনুমান এবং জনসংখ্যার প্রকৃত বৈশিষ্ট্যের মধ্যে সম্পর্কের সাথে পরিবর্তিত হয়।

আপনার ফলাফলগুলিতে আমার মতামতটি হ'ল সাব-গ্রুপের পার্থক্যের পার্থক্য হওয়া অবধি পি-মানগুলি বেশ ভাল সম্পাদন করেছিল যে কোনও বুদ্ধিমান পরীক্ষার্থী জানতে পারে যে পরীক্ষাটি করার আগে কোনও সমস্যা হয়েছিল।

ডেটা প্রকৃতির সঠিক বোঝার জন্য রেফারেন্স ছাড়াই একটি পরীক্ষা-নিরীক্ষা করা যায় এবং বিশ্লেষণ করা যায় এমন ধারণাটি ভুল হয়ে গেছে। একটি ছোট ডেটাসেট বিশ্লেষণ করার আগে বিশ্লেষণে অন্তর্ভুক্ত অনুমানগুলি আত্মবিশ্বাসের সাথে রক্ষার জন্য আপনাকে অবশ্যই ডেটা সম্পর্কে যথেষ্ট পরিমাণে জানতে হবে। এই জাতীয় জ্ঞান সাধারণত একই বা অনুরূপ সিস্টেম ব্যবহার করে পূর্ববর্তী অধ্যয়নগুলি থেকে আসে, এমন অধ্যয়ন যা আনুষ্ঠানিকভাবে প্রকাশিত রচনা বা অনানুষ্ঠানিক 'প্রাথমিক' পরীক্ষাগুলি হতে পারে।


আপনারা যা বলেছিলেন তার সাথে আমি একমত, যদিও টি-টেস্টগুলি প্রায়শই "ধর্মানুষ্ঠানিকভাবে" করা হয় কারণ গার্ড জিগেরেনজার এটি রেখেছিলেন। অনুশীলনে এই পরীক্ষাগুলি সম্পাদনকারী লোকেরা কী করছেন তার সংক্ষিপ্তসারগুলি বোঝার সময় / ঝোঁক নেই। যে কারণে আমি মনে করি "অবিশ্বস্ত" বিশেষণটি উপযুক্ত হতে পারে। আমি গবেষকরা জানি যারা আপনি বিতরণ সম্পর্কে জিজ্ঞাসা করেছেন (সেখানে কি একটি উচ্চতর ছিল, বা কী কারণে সেই বড় ত্রুটি বারটি হয়েছিল?) কখনও এটিকে দেখেনি।
ফ্লাস্ক

1
ঠিক আছে, পি-মানগুলি আসলে 'অর্থ' বলতে বেশিরভাগ লোকেরা যা মনে করে তার থেকে আলাদা। এমনকি অনেকগুলি কাগজও যে পি-মানগুলিকে 'প্রমাণের সাথে অপরিবর্তনীয়' বলে চিহ্নিত করে এবং এর মতো ভুলও হয়। আমি গতকাল আরক্সিবের উপরে একটি কাগজ আপলোড করেছি যা পি-মানগুলির বৈশিষ্ট্যগুলি অন্বেষণ করে এবং পরীক্ষাগুলি ব্যবহার করতে পারে এমন প্রমাণের প্রকারের সাথে তারা কীভাবে সম্পর্কিত তা দেখায়। এর শিরোনামটি 'টু পি না টু পি: পি-মূল্যবোধগুলির স্পষ্ট প্রকৃতির এবং বৈজ্ঞানিক দিকনির্দেশনায় তাদের স্থান "এবং এর আরএক্সিব জমা দেওয়ার সংখ্যাটি 826269 69 এটি সোমবার থেকে পাওয়া উচিত।
মাইকেল লু

আপনি এই প্রশ্নটি একবার দেখে নিতে পারেন যা কোনও কারণেই কোনও ভালবাসা অর্জন করতে পারে নি? । সে ব্যাপারে আমি সম্মত পি মান কিছু এবং আপনার কাগজ যে স্পষ্ট সাহায্য করতে পারে, কিন্তু একটি গবেষক হিসাবে আমি স্পষ্ট করতে স্থল পভ উপর বুট যে তারা আমাদের ব্যর্থ হয়েছে যে আছে। হয় হয় অপব্যবহার বা সহজাত অনুপযোগিতার কারণে এটি অস্পষ্ট। আমি এখানে পরিসংখ্যানবিদদের দৃষ্টিভঙ্গি পাওয়ার চেষ্টা করে এখানে বেশ কয়েকটি প্রশ্ন জিজ্ঞাসা করছি।
ফ্লাস্ক

2

পরিবেশগত গবেষণায়, পরীক্ষামূলক ইউনিটগুলিকে (বিষয়গুলি) চিকিত্সার ননরানডম অ্যাসাইনমেন্ট হ'ল স্ট্যান্ডার্ড অনুশীলন যখন নমুনার আকারগুলি ছোট হয় এবং এক বা একাধিক বিভ্রান্তিমূলক ভেরিয়েবলের প্রমাণ পাওয়া যায়। এই ননর্যান্ডম অ্যাসাইনমেন্টটি সম্ভবত বিভ্রান্তিকর ভেরিয়েবলের বর্ণালী জুড়ে বিষয়গুলিকে "ছেদ" করে, যা এলোমেলোভাবে অ্যাসাইনমেন্টটি করার কথা ছিল। তবে ছোট নমুনা আকারে, এলোমেলোকরণের পক্ষে এটি খারাপভাবে সম্পাদন করার সম্ভাবনা বেশি থাকে (উপরে প্রদর্শিত হিসাবে) এবং সুতরাং এটির উপর নির্ভর করা এটি একটি খারাপ ধারণা হতে পারে।

যেহেতু বেশিরভাগ ক্ষেত্রে (এবং যথাযথভাবে) এলোমেলোকরণের পক্ষে দৃ strongly়রূপে সমর্থন করা হয়েছে, তাই এটি সহজেই ভুলে যাওয়া যায় যে শেষ লক্ষ্যটি কঠোর র‌্যান্ডমাইজেশনকে মেনে চলার চেয়ে পক্ষপাত হ্রাস করা। যাইহোক, গবেষক (গুলি) এর উপর নির্ভরযোগ্য যে বিভ্রান্তিকর ভেরিয়েবলগুলির স্যুটটি কার্যকরভাবে চিহ্নিত করা এবং পরীক্ষামূলক ফলাফলগুলি অন্ধ হয়ে এমন সমস্তরকমের তথ্য এবং প্রসঙ্গটি ব্যবহার করে এমন একটি নির্ধারিত উপায়ে ননরানডম অ্যাসাইনমেন্টটি সম্পাদন করা।

সংক্ষিপ্তসার জন্য, হার্বার্ট , স্টুয়ার্ট এইচ। 1984 সালে পিপি 192-88 দেখুন। সিউডোরপ্লিকেশন এবং ক্ষেত্রের পরীক্ষাগুলির নকশা। বাস্তুসংস্থানীয় মনোগ্রাফ 54 (2) পিপি 117-211।


আমি এটি পড়ে আনন্দ পেয়েছি, তবে উদ্বিগ্ন যে পেনাল্টিমেট অনুচ্ছেদে আপনার "পক্ষপাত" এর ব্যবহার ভুল লেখা হতে পারে কারণ এই শব্দটির একটি নির্দিষ্ট পরিসংখ্যানগত অর্থ রয়েছে যা আপনার বক্তব্যকে ভুল বর্ণনা করবে। আপনি বরং যে র্যান্ডোমাইজেশন প্রতিরোধ দেয়ার উদ্দেশ্যে করা হচ্ছে বলার চেষ্টা না তো বিভ্রান্তি (একটি মূল্নির্ধারক এর ভ্রম একটি পরিমাপ হিসেবে) (ক চলিত অর্থে "বায়াস" একটি ফর্ম) বদলে পক্ষপাত কমাতে?
whuber

আমি একটি পরিসংখ্যানগত দিক থেকে পক্ষপাতিত্ব উল্লেখ করছি। পরিসংখ্যানগুলিতে, "পক্ষপাত" হ'ল একটি পরিসংখ্যান এবং অনুমানের যে পরামিতির মধ্যে পার্থক্য। আপনি যেমন উল্লেখ করেছেন, অনুমানকারকের পক্ষপাতটি হ'ল অনুমানের প্রত্যাশিত মান এবং এটি যে অনুমানের অনুমান করছে তার সত্যিকারের মানের মধ্যে পার্থক্য। আমার পোস্টে, "পক্ষপাত" দ্বারা আমি ডেটা থেকে গণনা করা পরিসংখ্যান এবং তারা যে প্যারামিটারগুলি অনুমান করে তার মধ্যে পার্থক্য উল্লেখ করছি — উদাহরণস্বরূপ, নমুনার গড় (এক্স বার) এবং সত্যিকারের গড় (মিউ) এর মধ্যে।
ড্যারেন জেমস

আমি যতদূর জানি, এলোমেলোভাবে নমুনা পক্ষপাত হ্রাস করতে ব্যবহৃত হয় না, বা অনেক পরিস্থিতিতে বৈধতার সাথে দাবি করা যায় না যে এটি পক্ষপাত হ্রাস করে।
whuber

তুমি ভুল করছ. র্যান্ডমাইজেশনের প্রাথমিক লক্ষ্য হ'ল স্বাধীনতার প্রভাব অনুকরণ করা। এটি সাবজেক্টগুলিতে চিকিত্সা পদ্ধতিতে নির্ধারিত নিয়োগের মাধ্যমে উদ্ভূত বায়াসগুলি বাদ দিয়ে এটি করে। এই পক্ষপাতদুষ্টগুলি সঠিক অনুমান তৈরি করে - সবচেয়ে গুরুত্বপূর্ণ, পক্ষপাতিত্বমূলক বৈকল্পিক অনুমান — এবং প্রকার I এবং II ত্রুটির উপর নিয়ন্ত্রণ হারিয়ে। এমনকি বিভ্রান্তিকর ভেরিয়েবল (যা প্রকৃতপক্ষে স্বাধীনতার অভাবের পরিমাণ) কেবল বাদ দেওয়া ভেরিয়েবল পক্ষপাতিত্বের ক্ষেত্রে। কিন্তু আপনি এই আমার জন্য শব্দ গ্রহণ প্রয়োজন ... আপনি উপরোক্ত Hurlburt কাগজ দ্বারা অচ্ছিন্নসংশয়, এখানে পরামর্শ কিছু অন্যান্য সম্পদ হন:
ড্যারেন জেমস

কোচরান, ডব্লিউজি এবং জিএম কক্স। 1957. পরীক্ষামূলক ডিজাইন। নিউ ইয়র্ক: উইলে ফেডারার, ডব্লিউটি 1955. পরীক্ষামূলক ডিজাইন। নিউ ইয়র্ক: ম্যাকমিলান। হিন্কেলম্যান, কে। এবং কেম্পথর্ন, ও। 1994. পরীক্ষাগুলির নকশা এবং বিশ্লেষণ। উইলে: নিউইয়র্ক। কুয়েল, আরও 2000. পরীক্ষার ডিজাইন: গবেষণা নকশা এবং বিশ্লেষণের পরিসংখ্যানগত নীতিগুলি। বেলমন্ট, সিএ: ব্রুকস / কোল।
ড্যারেন জেমস
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.