একটি স্বাভাবিকতা পরীক্ষার শক্তি মূল্যায়ন (আর মধ্যে)

9

আমি আর-তে বিভিন্ন নমুনা আকারের চেয়ে স্বাভাবিকতা পরীক্ষার যথার্থতা মূল্যায়ন করতে চাই (আমি বুঝতে পারি যে স্বাভাবিকতা পরীক্ষাগুলি বিভ্রান্তিমূলক হতে পারে )। উদাহরণস্বরূপ, শাপিরো-উইলক পরীক্ষাটি দেখার জন্য, আমি নিম্নলিখিত সিমুলেশনটি পরিচালনা করছি (পাশাপাশি ফলাফলগুলি পরিকল্পনা করার জন্য) এবং প্রত্যাশা করব যে নমুনার আকারটি নাল প্রত্যাখ্যান করার সম্ভাবনা হ্রাস পাবে:

n <- 1000
pvalue_mat <- matrix(NA, ncol = 1, nrow = n)

for(i in 10:n){
    x1 <- rnorm(i, mean = 0, sd = 1)
    pvalue_mat[i,] <- shapiro.test(x1)$p.value
}   

plot(pvalue_mat)

আমার ধারণাটি হবে যে নমুনার আকার বাড়ার সাথে সাথে সেখানে প্রত্যাখ্যানের হার কম হওয়া উচিত, তবে এটি বেশ অভিন্ন বলে মনে হচ্ছে। আমি মনে করি আমি এটির ভুল বোঝাবুঝি করছি - যে কোনও এবং সমস্ত ধারণা স্বাগত।

r simulation power-analysis normality-assumption

— user94759
সূত্র

2

আপনি একটি নজর রাখতে চাইতে পারেন: stats.stackexchange.com/questions/2492/…

— নিকো

7

আপনি নাল অনুমানের (সাধারণ বিতরণ) এর অধীনে সিমুলেট করছেন, সুতরাং প্রত্যাখ্যান হার প্রত্যাশার মতো তাৎপর্য স্তরের দিকে ঝুঁকবে। শক্তিটি মূল্যায়নের জন্য, আপনাকে কোনও অ-সাধারণ বিতরণে সিমুলেট করা প্রয়োজন need আপনার অধ্যয়নের ক্ষেত্রের উপর নির্ভর করে বেছে নেওয়া অসীম সম্ভাবনা / পরিস্থিতি (যেমন ক্রমবর্ধমান স্কিউনেস সহ গামা বিতরণ, হ্রাস ডিএফ এর সাথে টি-বিতরণ) বেছে নিতে পারেন।

— মাইকেল এম
সূত্র

উত্তরের জন্য ধন্যবাদ. আমি যখন নন-নরমাল ডিস্ট্রিবিউশনের উপর অনুকরণ করি তখন আমি উত্সের প্রতি শ্রদ্ধাশীল নমুনা পর্যবেক্ষণ করি - যেমন নমুনার আকারটি কোনও সাধারণ-স্বাভাবিক বিতরণের ক্ষেত্রে বড় হওয়ার সাথে সাথে স্বাভাবিকতার নালকে প্রত্যাখ্যান করার সম্ভাবনা বৃদ্ধি পায়। তবে, আমি বুঝতে পারি না যে কোনও সাধারণ বিতরণ থেকে অঙ্কনের সময় কেন এটি বিপরীত হয় না: নমুনার আকারটি বড় হওয়ার সাথে সাথে নালকে প্রত্যাখ্যান করার সম্ভাবনা কেন হ্রাস পাবে না? ধন্যবাদ

— user94759

3

কারণ এই ধরণের 1-ত্রুটি করার সম্ভাবনাটি তাত্পর্যপূর্ণ স্তরের সমান সংজ্ঞা দ্বারা হয়, যা ধ্রুবক। বা অন্যভাবে বলতে গেলে, পি মানগুলি শূন্যের নীচে সমানভাবে বিতরণ করা হয়। বিটিডব্লিউ, আপনার কোড অনুসারে কেবলমাত্র একটি নয়, এন এর পছন্দ সহ সেটিং অনুযায়ী অনেকগুলি সিমুলেশন করার পরামর্শ দেওয়া হচ্ছে।

— মাইকেল এম

7

পরিসংখ্যান অনুমানের পরীক্ষাগুলির শক্তি বিশ্লেষণকে কিছু বোঝার সাথে সাথে ফলাফলগুলি ঘনিষ্ঠভাবে দেখার দ্বারা বাড়ানো যেতে পারে।

নকশা দ্বারা, আকারের একটি পরীক্ষা $\alpha$ হয় অভিপ্রেত অন্তত একটি সুযোগ নাল হাইপোথিসিস প্রত্যাখ্যান করার $\alpha$ নালটি সত্য হলে (এটি প্রত্যাশিত মিথ্যা ধনাত্মক হার )। যখন আমাদের এই সম্পত্তিটির সাথে বিকল্প পদ্ধতির মধ্যে বাছাই করার ক্ষমতা (বা বিলাসিতা) থাকে তখন আমরা তাদের পছন্দ করতাম যে (ক) আসলে নামমাত্র ভ্রান্ত ইতিবাচক হারের কাছাকাছি আসে এবং (খ) নাল অনুমানকে প্রত্যাখ্যান করার অপেক্ষাকৃত উচ্চতর সম্ভাবনা থাকে সত্য না.

দ্বিতীয় মাপদণ্ডে আমাদের কীভাবে (গুলি) এবং নাল কতটা সত্য হতে ব্যর্থ হয় তা নির্ধারণ করার প্রয়োজন। পাঠ্যপুস্তকের ক্ষেত্রে এটি সহজ, কারণ বিকল্পগুলি সুযোগে সীমাবদ্ধ এবং স্পষ্টভাবে সুনির্দিষ্ট। শাপিরো-উইলকের মতো বিতরণ পরীক্ষার সাথে, বিকল্পগুলি আরও বেশি অস্পষ্ট: এগুলি হ'ল "অস্বাভাবিক" " বিতরণ পরীক্ষার মধ্যে বাছাই করার সময়, বিশ্লেষককে সম্ভবত সমস্যাটি উদ্বেগের সাথে সম্পর্কিত আরও নির্দিষ্ট বিকল্প অনুমানের বিরুদ্ধে পরীক্ষাগুলি কতটা কার্যকরভাবে কাজ করে তা নির্ধারণ করার জন্য তাদের নিজস্ব এক-অফ শক্তি অধ্যয়ন পরিচালনা করার সম্ভাবনা রয়েছে।

মাইকেল মায়ারের উত্তরের দ্বারা অনুপ্রাণিত একটি উদাহরণ পোষ্ট দেয় যে বিকল্প বিতরণে শিক্ষার্থীদের টি বিতরণের পরিবারের মতো একই গুণ থাকতে পারে। এই পরিবারটি একটি সংখ্যা দ্বারা প্যারামিটারাইজড $\nu\ge 1$ (পাশাপাশি অবস্থান এবং স্কেল দ্বারা) বৃহত্তর সীমাতে অন্তর্ভুক্ত $\nu$ সাধারণ বিতরণ।

উভয় পরিস্থিতিতেই - প্রকৃত পরীক্ষার আকার বা তার শক্তির মূল্যায়ন করা হোক না কেন - আমাদের অবশ্যই একটি নির্দিষ্ট বিতরণ থেকে স্বতন্ত্র নমুনা তৈরি করতে হবে, প্রতিটি নমুনার উপর পরীক্ষা চালাতে হবে এবং এটি নাল অনুমানকে প্রত্যাখ্যান করে এমন হারটি খুঁজে বের করতে হবে। তবে যে কোনও পরীক্ষার ফলাফলে আরও তথ্য পাওয়া যায়: এর পি-মান। এই জাতীয় সিমুলেশন চলাকালীন উত্পাদিত পি-মানগুলির সেটটি ধরে রেখে আমরা পরবর্তীতে সেই হারটি মূল্যায়ন করতে পারি যে পরীক্ষার যে কোনও মানের জন্য নালকে প্রত্যাখ্যান করবে $\alpha$ আমরা যত্নশীল হতে পারে। শক্তি বিশ্লেষণের হৃদয়, তখন, একটি সাবরুটাইন যা এই পি-মান বিতরণ তৈরি করে (হয় সিমুলেশন দ্বারা, যেমনটি কেবল বর্ণিত, বা - মাঝে মাঝে - তাত্ত্বিক সূত্র সহ)। এখানে কোড করা একটি উদাহরণ R। এর যুক্তিতে অন্তর্ভুক্ত রয়েছে

rdist, কিছু বিতরণ থেকে একটি এলোমেলো নমুনা উত্পাদন একটি ফাংশন নাম
n, অনুরোধ করতে নমুনার আকার rdist
n.iter, প্রাপ্ত নমুনার সংখ্যা
..., যে কোনও alচ্ছিক পরামিতিগুলি পাস করতে হবে rdist(যেমন স্বাধীনতার ডিগ্রি হিসাবে $\nu$ )।

অবশিষ্ট পরামিতি ফলাফল প্রদর্শন নিয়ন্ত্রণ করে; তারা মূলত এই উত্তরের পরিসংখ্যান তৈরির সুবিধার্থে অন্তর্ভুক্ত রয়েছে।

sim <- function(rdist, n, n.iter, prefix="",
                breaks=seq(0, 1, length.out=20), alpha=0.05,
                plot=TRUE, ...) {

  # The simulated P-values.
  # NB: The optional arguments "..." are passed to `rdist` to specify
  #     its parameters (if any).
  x <- apply(matrix(rdist(n*n.iter, ...), ncol=n.iter), 2, 
             function(y) shapiro.test(y)$p.value)

  # The histogram of P-values, if requested.
  if (plot) {
    power <- mean(x <= alpha)
    round.n <- 1+ceiling(log(1 + n.iter * power * (1-power), base=10) / 2)
    hist(x[x <= max(breaks)], xlab=paste("P value (n=", n, ")", sep=""), 
         breaks=breaks, 
         main=paste(prefix, "(power=", format(power, digits=round.n), ")", sep=""))
    # Specially color the "significant" part of the histogram
    hist(x[x <= alpha], breaks=breaks, col="#e0404080", add=TRUE)
  }

  # Return the array of P-values for any further processing.
  return(x)
}

আপনি দেখতে পাচ্ছেন যে গণনাটি কেবল একটি লাইন নেয়; কোডের বাকি অংশগুলি হিস্টোগ্রাম প্লট করে। উদাহরণস্বরূপ, আসুন এটি প্রত্যাশিত মিথ্যা ধনাত্মক হারগুলি গণনা করতে ব্যবহার করুন। "রেট" বহুবচনতে থাকে কারণ একটি পরীক্ষার বৈশিষ্ট্য সাধারণত নমুনার আকারের সাথে পরিবর্তিত হয়। যেহেতু এটি সুপরিচিত যে নমুনা আকারগুলি বড় হয় তখন বিতরণমূলক পরীক্ষাগুলির গুণগতভাবে ছোট বিকল্পগুলির বিরুদ্ধে উচ্চ ক্ষমতা থাকে, তাই এই গবেষণাটি ছোট ছোট নমুনা আকারের একটি ক্ষেত্রকে কেন্দ্র করে যেখানে প্রায়শই অনুশীলনের ক্ষেত্রে এই ধরনের পরীক্ষাগুলি প্রয়োগ করা হয়: সাধারণত $5$ প্রতি $100.$ গণনার সময় বাঁচাতে, আমি কেবল মানগুলির প্রতিবেদন করি $n$ থেকে $5$ প্রতি $20.$

n.iter <- 10^5                 # Number of samples to generate
n.spec <- c(5, 10, 20)         # Sample sizes to study
par(mfrow=c(1,length(n.spec))) # Organize subsequent plots into a tableau
system.time(
  invisible(sapply(n.spec, function(n) sim(rnorm, n, n.iter, prefix="DF = Inf ")))
)

পরামিতিগুলি নির্দিষ্ট করার পরে, এই কোডটিও কেবল একটি লাইন। এটি নিম্নলিখিত আউটপুট উত্পাদন করে:

নাল জন্য হিস্টোগ্রাম

এটি প্রত্যাশিত চেহারা: হিস্টোগ্রামগুলি থেকে সম্পূর্ণ পরিসীমা জুড়ে পি-মানগুলির প্রায় অভিন্ন বিতরণ দেখায় $0$ প্রতি $1$ । নামমাত্র আকার সেট এ $\alpha=0.05,$ মধ্যে সিমুলেশন রিপোর্ট $.0481$ এবং $0.0499$ পি-মানগুলির প্রকৃতপক্ষে সেই প্রান্তিকের চেয়ে কম ছিল: এগুলি লাল রঙে হাইলাইট করা ফলাফল। নামমাত্র মানটির সাথে এই ফ্রিকোয়েন্সিগুলির ঘনিষ্ঠতা প্রমাণিত করে যে শাপিরো-উইলক পরীক্ষাটি বিজ্ঞাপন হিসাবে সম্পাদন করে।

(কাছাকাছি পি-মানগুলির একটি অস্বাভাবিক উচ্চ ফ্রিকোয়েন্সিটির দিকে ঝোঁক বলে মনে হচ্ছে $1$ । এটি সামান্য উদ্বেগের কারণ, প্রায় সমস্ত অ্যাপ্লিকেশনগুলিতে একমাত্র পি-মানগুলিই দেখায় $0.2$ বা কম.)

আসুন এখন ক্ষমতাটি মূল্যায়নের দিকে ঘুরে আসি। এর মানগুলির সম্পূর্ণ পরিসীমা $\nu$ শিক্ষার্থীদের জন্য বিতরণের আশেপাশের কয়েকটি ঘটনা মূল্যায়ন করে পর্যাপ্ত পরিমাণে অধ্যয়ন করা যেতে পারে $\nu=100$ নিচে $\nu=1$ । আমি কীভাবে জানি? আমি খুব অল্প সংখ্যক পুনরুক্তি ব্যবহার করে প্রাথমিক পাঠিয়েছি (থেকে) $100$ প্রতি $1000$ ), যা মোটেও সময় নেয় না। কোডটি এখন একটি ডাবল লুপের প্রয়োজন (এবং আরও জটিল পরিস্থিতিতে আমাদের প্রায়শই বিভিন্ন দিকের পরিবর্তনের জন্য আমাদের ট্রিপল বা চতুর্ভুজ লুপের প্রয়োজন হয়): নমুনা আকারের সাথে শক্তি কীভাবে পরিবর্তিত হয় তা অধ্যয়ন করতে হবে এবং অন্যটি কীভাবে এর সাথে পরিবর্তিত হয় তা অধ্যয়ন করতে হবে to স্বাধীনতার ডিগ্রি। আবার একবার, যদিও, সমস্ত কিছু কোডের এক লাইনে (তৃতীয় এবং চূড়ান্ত) সম্পন্ন হয়:

df.spec <- c(64, 16, 4, 2, 1)
par(mfrow=c(length(n.spec), length(df.spec)))
for (n in n.spec) 
  for (df in df.spec)
    tmp <- sim(rt, n, n.iter, prefix=paste("DF =", df, ""), df=df)

বিকল্পগুলির জন্য হিস্টোগ্রামগুলি

এই ঝালর সামান্য অধ্যয়ন শক্তি সম্পর্কে ভাল অন্তর্দৃষ্টি সরবরাহ করে। আমি এর সর্বাধিক স্পষ্ট এবং কার্যকর দিকগুলির দিকে দৃষ্টি আকর্ষণ করতে চাই:

স্বাধীনতার ডিগ্রি হ্রাস হওয়ায় $\nu=64$ বাম থেকে $\nu=1$ ডানদিকে, আরও বেশি করে পি-মানগুলি ছোট, যা দেখায় যে সাধারণ বিতরণ থেকে এই বিতরণগুলিকে বৈষম্য করার ক্ষমতা বৃদ্ধি পায়। (প্রতিটি প্লটের শিরোনামে শক্তি পরিমাণযুক্ত: এটি হিস্টগ্রামের ক্ষেত্রফলের পরিমাণের তুলনায় সমান যে লাল))
নমুনা আকার থেকে বৃদ্ধি হিসাবে $n=5$ উপরের সারিতে $n=20$ নীচে, শক্তি এছাড়াও বৃদ্ধি।
নাল ডিস্ট্রিবিউশন এবং নমুনার আকার বৃদ্ধির থেকে বিকল্প বিতরণ কীভাবে আরও বেশি পার্থক্য রয়েছে তা লক্ষ্য করুন, পি-মানগুলি বাম দিকে সংগ্রহ করা শুরু করে, তবে তাদের মধ্যে এখনও একটি "লেজ" রয়েছে যা সমস্ত দিকে প্রসারিত করে $1$ । এটি শক্তি অধ্যয়নের বৈশিষ্ট্য। এটি দেখায় যে পরীক্ষাটি একটি জুয়া : এমনকি যখন নাল অনুমানটি সুস্পষ্টভাবে লঙ্ঘন করা হয় এবং এমনকি যখন আমাদের নমুনার আকারটি যুক্তিযুক্তভাবে বড় হয়, তখনও আমাদের আনুষ্ঠানিক পরীক্ষাটি উল্লেখযোগ্য ফলাফল দিতে ব্যর্থ হতে পারে।
এমনকি ডানদিকে নীচে চরম ক্ষেত্রে, যেখানে একটি নমুনা $20$ এর সাথে স্টুডেন্ট টি ডিস্ট্রিবিউশন থেকে আঁকা $1$ স্বাধীনতা ডিগ্রি (একটি ছদ্ম বিতরণ), শক্তি নয় $1$ : সেখানে একটি $100 - 86.57 = 13\%$ সুযোগ যে একটি নমুনা $20$ iid কচী প্রকরণের স্তরগুলিতে সাধারণের চেয়ে উল্লেখযোগ্যভাবে আলাদা বিবেচিত হবে না $5\%$ (এটি, সাথে $95\%$ আস্থা)।
আমরা যে কোনও মূল্যে শক্তি মূল্যায়ন করতে পারি $\alpha$ আমরা এই হিস্টোগ্রামগুলিতে আরও কম কয়েকটি বার রঙ করে বেছে নিয়েছি। উদাহরণস্বরূপ, পাওয়ারটি মূল্যায়নের জন্য $\alpha=0.10$ , প্রতিটি হিস্টোগ্রামের বাম দুটি বারে রঙ দিন এবং মোটটির একটি ভগ্নাংশ হিসাবে এর ক্ষেত্রফল অনুমান করুন।

(এটি মানগুলির জন্য খুব ভাল কাজ করবে না $\alpha$ চেয়ে ছোট $0.05$ এই চিত্র সহ অনুশীলনে, কেউ হিস্টোগ্রামগুলি কেবলমাত্র ব্যবহৃত সীমার মধ্যে কেবলমাত্র পি-মানগুলিতে সীমাবদ্ধ করে $0$ প্রতি $20\%$ , এবং এটিকে পাওয়ারের ভিজ্যুয়াল মূল্যায়ন সক্ষম করতে পর্যাপ্ত বিশদে তাদের দেখান $\alpha=0.01$ অথবা এমনকি $\alpha=0.005$ । (এই breaksবিকল্পটির জন্য simএটিই ছিল)) সিমুলেশন ফলাফল পোস্ট-প্রসেসিং আরও বিশদ সরবরাহ করতে পারে))

এটি মজাদার যে, কার্যকরভাবে, কোডের তিনটি লাইনের পরিমাণ থেকে কী পরিমাণে সংগ্রহ করা যায়: একটি নির্দিষ্ট বন্টন থেকে আইডির নমুনাগুলি অনুকরণ করতে, একটি নাল ডিস্ট্রিবিউশনের অ্যারেতে প্রয়োগ করতে এবং তৃতীয়টি এটি প্রয়োগ করার জন্য বিকল্প বিতরণ একটি অ্যারে। এগুলি তিনটি পদক্ষেপ যা কোনও শক্তি বিশ্লেষণে যায়: বাকীগুলি কেবলমাত্র সংক্ষেপগুলি এবং ফলাফলগুলি ব্যাখ্যা করে।

— whuber
সূত্র

1

(একটি মন্তব্যের চেয়ে বেশি, সম্ভবত একটি সম্পূর্ণ উত্তর নয়)

[আমি] প্রত্যাশা করব যে নমুনার আকারের ফলে নাল প্রত্যাখ্যান হওয়ার সম্ভাবনা হ্রাস পাবে

পক্ষপাতদুষ্ট পরীক্ষাগুলির বিবেচনার বিষয়গুলি বাদ দেওয়া (যা ফিটের পক্ষে ভাল কিছু অস্বাভাবিক নয়, সুতরাং এটি উল্লেখ করার মতো), প্রত্যাখ্যান হার সম্পর্কিত তিনটি পরিস্থিতি রয়েছে যা বিবেচনা করতে চাইতে পারে:

1) শূন্য থেকে সিমুলেট করার সময় প্রত্যাখ্যান হার (যেমন আপনি নিজের প্রশ্নে করছেন বলে মনে হচ্ছে)

এখানে, প্রত্যাখ্যান হার তাত্পর্য স্তরের কাছাকাছি বা তার কাছাকাছি হওয়া উচিত, সুতরাং, না, আপনি যদি তাত্পর্যপূর্ণ স্তরটি ধ্রুবক ধরে রাখেন তবে n বৃদ্ধি পাওয়ার সাথে সাথে প্রত্যাখ্যান হার কমবে না , তবে কাছাকাছি থাকবে / কাছে থাকবে $\alpha$ ।

2) কিছু বিকল্প থেকে অনুকরণ করার সময় প্রত্যাখ্যান হার

এখানে n বৃদ্ধির সাথে সাথে প্রত্যাখ্যান হার বৃদ্ধি করা উচিত ।

3) কিছু বাস্তব তথ্য সংগ্রহের জন্য প্রত্যাখ্যান হার

ব্যবহারিকভাবে, নালটি আসলে কখনই সত্য হয় না এবং বাস্তব ডেটাতে কিছু পরিমাণে অ-স্বাভাবিকতা থাকে (যেমন পরীক্ষার পরিসংখ্যান অনুসারে পরিমাপ করা হয়)। যদি অ-স্বাভাবিকতার ডিগ্রি নমুনা আকারের সাথে সম্পর্কিত না হয় তবে n বৃদ্ধি পাওয়ার সাথে সাথে প্রত্যাখ্যান হার বাড়ানো উচিত ।

সুতরাং প্রকৃতপক্ষে, এই পরিস্থিতিতে কোনওটিই আমাদের নমুনা আকারের সাথে প্রত্যাখ্যান হার হ্রাস দেখতে পাওয়া উচিত নয়।

— গ্লেন_বি -রাইনস্টেট মনিকা
সূত্র