একটি স্বাভাবিকতা পরীক্ষার শক্তি মূল্যায়ন (আর মধ্যে)


9

আমি আর-তে বিভিন্ন নমুনা আকারের চেয়ে স্বাভাবিকতা পরীক্ষার যথার্থতা মূল্যায়ন করতে চাই (আমি বুঝতে পারি যে স্বাভাবিকতা পরীক্ষাগুলি বিভ্রান্তিমূলক হতে পারে )। উদাহরণস্বরূপ, শাপিরো-উইলক পরীক্ষাটি দেখার জন্য, আমি নিম্নলিখিত সিমুলেশনটি পরিচালনা করছি (পাশাপাশি ফলাফলগুলি পরিকল্পনা করার জন্য) এবং প্রত্যাশা করব যে নমুনার আকারটি নাল প্রত্যাখ্যান করার সম্ভাবনা হ্রাস পাবে:

n <- 1000
pvalue_mat <- matrix(NA, ncol = 1, nrow = n)

for(i in 10:n){
    x1 <- rnorm(i, mean = 0, sd = 1)
    pvalue_mat[i,] <- shapiro.test(x1)$p.value
}   

plot(pvalue_mat)

আমার ধারণাটি হবে যে নমুনার আকার বাড়ার সাথে সাথে সেখানে প্রত্যাখ্যানের হার কম হওয়া উচিত, তবে এটি বেশ অভিন্ন বলে মনে হচ্ছে। আমি মনে করি আমি এটির ভুল বোঝাবুঝি করছি - যে কোনও এবং সমস্ত ধারণা স্বাগত।


2
আপনি একটি নজর রাখতে চাইতে পারেন: stats.stackexchange.com/questions/2492/…
নিকো

উত্তর:


7

আপনি নাল অনুমানের (সাধারণ বিতরণ) এর অধীনে সিমুলেট করছেন, সুতরাং প্রত্যাখ্যান হার প্রত্যাশার মতো তাৎপর্য স্তরের দিকে ঝুঁকবে। শক্তিটি মূল্যায়নের জন্য, আপনাকে কোনও অ-সাধারণ বিতরণে সিমুলেট করা প্রয়োজন need আপনার অধ্যয়নের ক্ষেত্রের উপর নির্ভর করে বেছে নেওয়া অসীম সম্ভাবনা / পরিস্থিতি (যেমন ক্রমবর্ধমান স্কিউনেস সহ গামা বিতরণ, হ্রাস ডিএফ এর সাথে টি-বিতরণ) বেছে নিতে পারেন।


উত্তরের জন্য ধন্যবাদ. আমি যখন নন-নরমাল ডিস্ট্রিবিউশনের উপর অনুকরণ করি তখন আমি উত্সের প্রতি শ্রদ্ধাশীল নমুনা পর্যবেক্ষণ করি - যেমন নমুনার আকারটি কোনও সাধারণ-স্বাভাবিক বিতরণের ক্ষেত্রে বড় হওয়ার সাথে সাথে স্বাভাবিকতার নালকে প্রত্যাখ্যান করার সম্ভাবনা বৃদ্ধি পায়। তবে, আমি বুঝতে পারি না যে কোনও সাধারণ বিতরণ থেকে অঙ্কনের সময় কেন এটি বিপরীত হয় না: নমুনার আকারটি বড় হওয়ার সাথে সাথে নালকে প্রত্যাখ্যান করার সম্ভাবনা কেন হ্রাস পাবে না? ধন্যবাদ
user94759

3
কারণ এই ধরণের 1-ত্রুটি করার সম্ভাবনাটি তাত্পর্যপূর্ণ স্তরের সমান সংজ্ঞা দ্বারা হয়, যা ধ্রুবক। বা অন্যভাবে বলতে গেলে, পি মানগুলি শূন্যের নীচে সমানভাবে বিতরণ করা হয়। বিটিডব্লিউ, আপনার কোড অনুসারে কেবলমাত্র একটি নয়, এন এর পছন্দ সহ সেটিং অনুযায়ী অনেকগুলি সিমুলেশন করার পরামর্শ দেওয়া হচ্ছে।
মাইকেল এম

7

পরিসংখ্যান অনুমানের পরীক্ষাগুলির শক্তি বিশ্লেষণকে কিছু বোঝার সাথে সাথে ফলাফলগুলি ঘনিষ্ঠভাবে দেখার দ্বারা বাড়ানো যেতে পারে।


নকশা দ্বারা, আকারের একটি পরীক্ষা αহয় অভিপ্রেত অন্তত একটি সুযোগ নাল হাইপোথিসিস প্রত্যাখ্যান করারαনালটি সত্য হলে (এটি প্রত্যাশিত মিথ্যা ধনাত্মক হার )। যখন আমাদের এই সম্পত্তিটির সাথে বিকল্প পদ্ধতির মধ্যে বাছাই করার ক্ষমতা (বা বিলাসিতা) থাকে তখন আমরা তাদের পছন্দ করতাম যে (ক) আসলে নামমাত্র ভ্রান্ত ইতিবাচক হারের কাছাকাছি আসে এবং (খ) নাল অনুমানকে প্রত্যাখ্যান করার অপেক্ষাকৃত উচ্চতর সম্ভাবনা থাকে সত্য না.

দ্বিতীয় মাপদণ্ডে আমাদের কীভাবে (গুলি) এবং নাল কতটা সত্য হতে ব্যর্থ হয় তা নির্ধারণ করার প্রয়োজন। পাঠ্যপুস্তকের ক্ষেত্রে এটি সহজ, কারণ বিকল্পগুলি সুযোগে সীমাবদ্ধ এবং স্পষ্টভাবে সুনির্দিষ্ট। শাপিরো-উইলকের মতো বিতরণ পরীক্ষার সাথে, বিকল্পগুলি আরও বেশি অস্পষ্ট: এগুলি হ'ল "অস্বাভাবিক" " বিতরণ পরীক্ষার মধ্যে বাছাই করার সময়, বিশ্লেষককে সম্ভবত সমস্যাটি উদ্বেগের সাথে সম্পর্কিত আরও নির্দিষ্ট বিকল্প অনুমানের বিরুদ্ধে পরীক্ষাগুলি কতটা কার্যকরভাবে কাজ করে তা নির্ধারণ করার জন্য তাদের নিজস্ব এক-অফ শক্তি অধ্যয়ন পরিচালনা করার সম্ভাবনা রয়েছে।

মাইকেল মায়ারের উত্তরের দ্বারা অনুপ্রাণিত একটি উদাহরণ পোষ্ট দেয় যে বিকল্প বিতরণে শিক্ষার্থীদের টি বিতরণের পরিবারের মতো একই গুণ থাকতে পারে। এই পরিবারটি একটি সংখ্যা দ্বারা প্যারামিটারাইজডν1 (পাশাপাশি অবস্থান এবং স্কেল দ্বারা) বৃহত্তর সীমাতে অন্তর্ভুক্ত ν সাধারণ বিতরণ।

উভয় পরিস্থিতিতেই - প্রকৃত পরীক্ষার আকার বা তার শক্তির মূল্যায়ন করা হোক না কেন - আমাদের অবশ্যই একটি নির্দিষ্ট বিতরণ থেকে স্বতন্ত্র নমুনা তৈরি করতে হবে, প্রতিটি নমুনার উপর পরীক্ষা চালাতে হবে এবং এটি নাল অনুমানকে প্রত্যাখ্যান করে এমন হারটি খুঁজে বের করতে হবে। তবে যে কোনও পরীক্ষার ফলাফলে আরও তথ্য পাওয়া যায়: এর পি-মান। এই জাতীয় সিমুলেশন চলাকালীন উত্পাদিত পি-মানগুলির সেটটি ধরে রেখে আমরা পরবর্তীতে সেই হারটি মূল্যায়ন করতে পারি যে পরীক্ষার যে কোনও মানের জন্য নালকে প্রত্যাখ্যান করবেαআমরা যত্নশীল হতে পারে। শক্তি বিশ্লেষণের হৃদয়, তখন, একটি সাবরুটাইন যা এই পি-মান বিতরণ তৈরি করে (হয় সিমুলেশন দ্বারা, যেমনটি কেবল বর্ণিত, বা - মাঝে মাঝে - তাত্ত্বিক সূত্র সহ)। এখানে কোড করা একটি উদাহরণ R। এর যুক্তিতে অন্তর্ভুক্ত রয়েছে

  • rdist, কিছু বিতরণ থেকে একটি এলোমেলো নমুনা উত্পাদন একটি ফাংশন নাম

  • n, অনুরোধ করতে নমুনার আকার rdist

  • n.iter, প্রাপ্ত নমুনার সংখ্যা

  • ..., যে কোনও alচ্ছিক পরামিতিগুলি পাস করতে হবে rdist(যেমন স্বাধীনতার ডিগ্রি হিসাবেν)।

অবশিষ্ট পরামিতি ফলাফল প্রদর্শন নিয়ন্ত্রণ করে; তারা মূলত এই উত্তরের পরিসংখ্যান তৈরির সুবিধার্থে অন্তর্ভুক্ত রয়েছে।

sim <- function(rdist, n, n.iter, prefix="",
                breaks=seq(0, 1, length.out=20), alpha=0.05,
                plot=TRUE, ...) {

  # The simulated P-values.
  # NB: The optional arguments "..." are passed to `rdist` to specify
  #     its parameters (if any).
  x <- apply(matrix(rdist(n*n.iter, ...), ncol=n.iter), 2, 
             function(y) shapiro.test(y)$p.value)

  # The histogram of P-values, if requested.
  if (plot) {
    power <- mean(x <= alpha)
    round.n <- 1+ceiling(log(1 + n.iter * power * (1-power), base=10) / 2)
    hist(x[x <= max(breaks)], xlab=paste("P value (n=", n, ")", sep=""), 
         breaks=breaks, 
         main=paste(prefix, "(power=", format(power, digits=round.n), ")", sep=""))
    # Specially color the "significant" part of the histogram
    hist(x[x <= alpha], breaks=breaks, col="#e0404080", add=TRUE)
  }

  # Return the array of P-values for any further processing.
  return(x)
}

আপনি দেখতে পাচ্ছেন যে গণনাটি কেবল একটি লাইন নেয়; কোডের বাকি অংশগুলি হিস্টোগ্রাম প্লট করে। উদাহরণস্বরূপ, আসুন এটি প্রত্যাশিত মিথ্যা ধনাত্মক হারগুলি গণনা করতে ব্যবহার করুন। "রেট" বহুবচনতে থাকে কারণ একটি পরীক্ষার বৈশিষ্ট্য সাধারণত নমুনার আকারের সাথে পরিবর্তিত হয়। যেহেতু এটি সুপরিচিত যে নমুনা আকারগুলি বড় হয় তখন বিতরণমূলক পরীক্ষাগুলির গুণগতভাবে ছোট বিকল্পগুলির বিরুদ্ধে উচ্চ ক্ষমতা থাকে, তাই এই গবেষণাটি ছোট ছোট নমুনা আকারের একটি ক্ষেত্রকে কেন্দ্র করে যেখানে প্রায়শই অনুশীলনের ক্ষেত্রে এই ধরনের পরীক্ষাগুলি প্রয়োগ করা হয়: সাধারণত5 প্রতি 100. গণনার সময় বাঁচাতে, আমি কেবল মানগুলির প্রতিবেদন করি n থেকে 5 প্রতি 20.

n.iter <- 10^5                 # Number of samples to generate
n.spec <- c(5, 10, 20)         # Sample sizes to study
par(mfrow=c(1,length(n.spec))) # Organize subsequent plots into a tableau
system.time(
  invisible(sapply(n.spec, function(n) sim(rnorm, n, n.iter, prefix="DF = Inf ")))
)

পরামিতিগুলি নির্দিষ্ট করার পরে, এই কোডটিও কেবল একটি লাইন। এটি নিম্নলিখিত আউটপুট উত্পাদন করে:

নাল জন্য হিস্টোগ্রাম

এটি প্রত্যাশিত চেহারা: হিস্টোগ্রামগুলি থেকে সম্পূর্ণ পরিসীমা জুড়ে পি-মানগুলির প্রায় অভিন্ন বিতরণ দেখায়0 প্রতি 1। নামমাত্র আকার সেট এα=0.05, মধ্যে সিমুলেশন রিপোর্ট .0481 এবং 0.0499পি-মানগুলির প্রকৃতপক্ষে সেই প্রান্তিকের চেয়ে কম ছিল: এগুলি লাল রঙে হাইলাইট করা ফলাফল। নামমাত্র মানটির সাথে এই ফ্রিকোয়েন্সিগুলির ঘনিষ্ঠতা প্রমাণিত করে যে শাপিরো-উইলক পরীক্ষাটি বিজ্ঞাপন হিসাবে সম্পাদন করে।

(কাছাকাছি পি-মানগুলির একটি অস্বাভাবিক উচ্চ ফ্রিকোয়েন্সিটির দিকে ঝোঁক বলে মনে হচ্ছে 1। এটি সামান্য উদ্বেগের কারণ, প্রায় সমস্ত অ্যাপ্লিকেশনগুলিতে একমাত্র পি-মানগুলিই দেখায়0.2 বা কম.)

আসুন এখন ক্ষমতাটি মূল্যায়নের দিকে ঘুরে আসি। এর মানগুলির সম্পূর্ণ পরিসীমাν শিক্ষার্থীদের জন্য বিতরণের আশেপাশের কয়েকটি ঘটনা মূল্যায়ন করে পর্যাপ্ত পরিমাণে অধ্যয়ন করা যেতে পারে ν=100 নিচে ν=1। আমি কীভাবে জানি? আমি খুব অল্প সংখ্যক পুনরুক্তি ব্যবহার করে প্রাথমিক পাঠিয়েছি (থেকে)100 প্রতি 1000), যা মোটেও সময় নেয় না। কোডটি এখন একটি ডাবল লুপের প্রয়োজন (এবং আরও জটিল পরিস্থিতিতে আমাদের প্রায়শই বিভিন্ন দিকের পরিবর্তনের জন্য আমাদের ট্রিপল বা চতুর্ভুজ লুপের প্রয়োজন হয়): নমুনা আকারের সাথে শক্তি কীভাবে পরিবর্তিত হয় তা অধ্যয়ন করতে হবে এবং অন্যটি কীভাবে এর সাথে পরিবর্তিত হয় তা অধ্যয়ন করতে হবে to স্বাধীনতার ডিগ্রি। আবার একবার, যদিও, সমস্ত কিছু কোডের এক লাইনে (তৃতীয় এবং চূড়ান্ত) সম্পন্ন হয়:

df.spec <- c(64, 16, 4, 2, 1)
par(mfrow=c(length(n.spec), length(df.spec)))
for (n in n.spec) 
  for (df in df.spec)
    tmp <- sim(rt, n, n.iter, prefix=paste("DF =", df, ""), df=df)

বিকল্পগুলির জন্য হিস্টোগ্রামগুলি

এই ঝালর সামান্য অধ্যয়ন শক্তি সম্পর্কে ভাল অন্তর্দৃষ্টি সরবরাহ করে। আমি এর সর্বাধিক স্পষ্ট এবং কার্যকর দিকগুলির দিকে দৃষ্টি আকর্ষণ করতে চাই:

  • স্বাধীনতার ডিগ্রি হ্রাস হওয়ায় ν=64 বাম থেকে ν=1ডানদিকে, আরও বেশি করে পি-মানগুলি ছোট, যা দেখায় যে সাধারণ বিতরণ থেকে এই বিতরণগুলিকে বৈষম্য করার ক্ষমতা বৃদ্ধি পায়। (প্রতিটি প্লটের শিরোনামে শক্তি পরিমাণযুক্ত: এটি হিস্টগ্রামের ক্ষেত্রফলের পরিমাণের তুলনায় সমান যে লাল))

  • নমুনা আকার থেকে বৃদ্ধি হিসাবে n=5 উপরের সারিতে n=20 নীচে, শক্তি এছাড়াও বৃদ্ধি।

  • নাল ডিস্ট্রিবিউশন এবং নমুনার আকার বৃদ্ধির থেকে বিকল্প বিতরণ কীভাবে আরও বেশি পার্থক্য রয়েছে তা লক্ষ্য করুন, পি-মানগুলি বাম দিকে সংগ্রহ করা শুরু করে, তবে তাদের মধ্যে এখনও একটি "লেজ" রয়েছে যা সমস্ত দিকে প্রসারিত করে 1। এটি শক্তি অধ্যয়নের বৈশিষ্ট্য। এটি দেখায় যে পরীক্ষাটি একটি জুয়া : এমনকি যখন নাল অনুমানটি সুস্পষ্টভাবে লঙ্ঘন করা হয় এবং এমনকি যখন আমাদের নমুনার আকারটি যুক্তিযুক্তভাবে বড় হয়, তখনও আমাদের আনুষ্ঠানিক পরীক্ষাটি উল্লেখযোগ্য ফলাফল দিতে ব্যর্থ হতে পারে।

  • এমনকি ডানদিকে নীচে চরম ক্ষেত্রে, যেখানে একটি নমুনা 20 এর সাথে স্টুডেন্ট টি ডিস্ট্রিবিউশন থেকে আঁকা 1 স্বাধীনতা ডিগ্রি (একটি ছদ্ম বিতরণ), শক্তি নয় 1: সেখানে একটি 10086.57=13% সুযোগ যে একটি নমুনা 20 iid কচী প্রকরণের স্তরগুলিতে সাধারণের চেয়ে উল্লেখযোগ্যভাবে আলাদা বিবেচিত হবে না 5% (এটি, সাথে 95% আস্থা)।

  • আমরা যে কোনও মূল্যে শক্তি মূল্যায়ন করতে পারি αআমরা এই হিস্টোগ্রামগুলিতে আরও কম কয়েকটি বার রঙ করে বেছে নিয়েছি। উদাহরণস্বরূপ, পাওয়ারটি মূল্যায়নের জন্যα=0.10, প্রতিটি হিস্টোগ্রামের বাম দুটি বারে রঙ দিন এবং মোটটির একটি ভগ্নাংশ হিসাবে এর ক্ষেত্রফল অনুমান করুন।

    (এটি মানগুলির জন্য খুব ভাল কাজ করবে না α চেয়ে ছোট 0.05এই চিত্র সহ অনুশীলনে, কেউ হিস্টোগ্রামগুলি কেবলমাত্র ব্যবহৃত সীমার মধ্যে কেবলমাত্র পি-মানগুলিতে সীমাবদ্ধ করে0 প্রতি 20%, এবং এটিকে পাওয়ারের ভিজ্যুয়াল মূল্যায়ন সক্ষম করতে পর্যাপ্ত বিশদে তাদের দেখান α=0.01 অথবা এমনকি α=0.005। (এই breaksবিকল্পটির জন্য simএটিই ছিল)) সিমুলেশন ফলাফল পোস্ট-প্রসেসিং আরও বিশদ সরবরাহ করতে পারে))


এটি মজাদার যে, কার্যকরভাবে, কোডের তিনটি লাইনের পরিমাণ থেকে কী পরিমাণে সংগ্রহ করা যায়: একটি নির্দিষ্ট বন্টন থেকে আইডির নমুনাগুলি অনুকরণ করতে, একটি নাল ডিস্ট্রিবিউশনের অ্যারেতে প্রয়োগ করতে এবং তৃতীয়টি এটি প্রয়োগ করার জন্য বিকল্প বিতরণ একটি অ্যারে। এগুলি তিনটি পদক্ষেপ যা কোনও শক্তি বিশ্লেষণে যায়: বাকীগুলি কেবলমাত্র সংক্ষেপগুলি এবং ফলাফলগুলি ব্যাখ্যা করে।


1

(একটি মন্তব্যের চেয়ে বেশি, সম্ভবত একটি সম্পূর্ণ উত্তর নয়)

[আমি] প্রত্যাশা করব যে নমুনার আকারের ফলে নাল প্রত্যাখ্যান হওয়ার সম্ভাবনা হ্রাস পাবে

পক্ষপাতদুষ্ট পরীক্ষাগুলির বিবেচনার বিষয়গুলি বাদ দেওয়া (যা ফিটের পক্ষে ভাল কিছু অস্বাভাবিক নয়, সুতরাং এটি উল্লেখ করার মতো), প্রত্যাখ্যান হার সম্পর্কিত তিনটি পরিস্থিতি রয়েছে যা বিবেচনা করতে চাইতে পারে:

1) শূন্য থেকে সিমুলেট করার সময় প্রত্যাখ্যান হার (যেমন আপনি নিজের প্রশ্নে করছেন বলে মনে হচ্ছে)

এখানে, প্রত্যাখ্যান হার তাত্পর্য স্তরের কাছাকাছি বা তার কাছাকাছি হওয়া উচিত, সুতরাং, না, আপনি যদি তাত্পর্যপূর্ণ স্তরটি ধ্রুবক ধরে রাখেন তবে n বৃদ্ধি পাওয়ার সাথে সাথে প্রত্যাখ্যান হার কমবে না , তবে কাছাকাছি থাকবে / কাছে থাকবেα

2) কিছু বিকল্প থেকে অনুকরণ করার সময় প্রত্যাখ্যান হার

এখানে n বৃদ্ধির সাথে সাথে প্রত্যাখ্যান হার বৃদ্ধি করা উচিত ।

3) কিছু বাস্তব তথ্য সংগ্রহের জন্য প্রত্যাখ্যান হার

ব্যবহারিকভাবে, নালটি আসলে কখনই সত্য হয় না এবং বাস্তব ডেটাতে কিছু পরিমাণে অ-স্বাভাবিকতা থাকে (যেমন পরীক্ষার পরিসংখ্যান অনুসারে পরিমাপ করা হয়)। যদি অ-স্বাভাবিকতার ডিগ্রি নমুনা আকারের সাথে সম্পর্কিত না হয় তবে n বৃদ্ধি পাওয়ার সাথে সাথে প্রত্যাখ্যান হার বাড়ানো উচিত ।

সুতরাং প্রকৃতপক্ষে, এই পরিস্থিতিতে কোনওটিই আমাদের নমুনা আকারের সাথে প্রত্যাখ্যান হার হ্রাস দেখতে পাওয়া উচিত নয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.