পরিসংখ্যান অনুমানের পরীক্ষাগুলির শক্তি বিশ্লেষণকে কিছু বোঝার সাথে সাথে ফলাফলগুলি ঘনিষ্ঠভাবে দেখার দ্বারা বাড়ানো যেতে পারে।
নকশা দ্বারা, আকারের একটি পরীক্ষা αহয় অভিপ্রেত অন্তত একটি সুযোগ নাল হাইপোথিসিস প্রত্যাখ্যান করারαনালটি সত্য হলে (এটি প্রত্যাশিত মিথ্যা ধনাত্মক হার )। যখন আমাদের এই সম্পত্তিটির সাথে বিকল্প পদ্ধতির মধ্যে বাছাই করার ক্ষমতা (বা বিলাসিতা) থাকে তখন আমরা তাদের পছন্দ করতাম যে (ক) আসলে নামমাত্র ভ্রান্ত ইতিবাচক হারের কাছাকাছি আসে এবং (খ) নাল অনুমানকে প্রত্যাখ্যান করার অপেক্ষাকৃত উচ্চতর সম্ভাবনা থাকে সত্য না.
দ্বিতীয় মাপদণ্ডে আমাদের কীভাবে (গুলি) এবং নাল কতটা সত্য হতে ব্যর্থ হয় তা নির্ধারণ করার প্রয়োজন। পাঠ্যপুস্তকের ক্ষেত্রে এটি সহজ, কারণ বিকল্পগুলি সুযোগে সীমাবদ্ধ এবং স্পষ্টভাবে সুনির্দিষ্ট। শাপিরো-উইলকের মতো বিতরণ পরীক্ষার সাথে, বিকল্পগুলি আরও বেশি অস্পষ্ট: এগুলি হ'ল "অস্বাভাবিক" " বিতরণ পরীক্ষার মধ্যে বাছাই করার সময়, বিশ্লেষককে সম্ভবত সমস্যাটি উদ্বেগের সাথে সম্পর্কিত আরও নির্দিষ্ট বিকল্প অনুমানের বিরুদ্ধে পরীক্ষাগুলি কতটা কার্যকরভাবে কাজ করে তা নির্ধারণ করার জন্য তাদের নিজস্ব এক-অফ শক্তি অধ্যয়ন পরিচালনা করার সম্ভাবনা রয়েছে।
মাইকেল মায়ারের উত্তরের দ্বারা অনুপ্রাণিত একটি উদাহরণ পোষ্ট দেয় যে বিকল্প বিতরণে শিক্ষার্থীদের টি বিতরণের পরিবারের মতো একই গুণ থাকতে পারে। এই পরিবারটি একটি সংখ্যা দ্বারা প্যারামিটারাইজডν≥1 (পাশাপাশি অবস্থান এবং স্কেল দ্বারা) বৃহত্তর সীমাতে অন্তর্ভুক্ত ν সাধারণ বিতরণ।
উভয় পরিস্থিতিতেই - প্রকৃত পরীক্ষার আকার বা তার শক্তির মূল্যায়ন করা হোক না কেন - আমাদের অবশ্যই একটি নির্দিষ্ট বিতরণ থেকে স্বতন্ত্র নমুনা তৈরি করতে হবে, প্রতিটি নমুনার উপর পরীক্ষা চালাতে হবে এবং এটি নাল অনুমানকে প্রত্যাখ্যান করে এমন হারটি খুঁজে বের করতে হবে। তবে যে কোনও পরীক্ষার ফলাফলে আরও তথ্য পাওয়া যায়: এর পি-মান। এই জাতীয় সিমুলেশন চলাকালীন উত্পাদিত পি-মানগুলির সেটটি ধরে রেখে আমরা পরবর্তীতে সেই হারটি মূল্যায়ন করতে পারি যে পরীক্ষার যে কোনও মানের জন্য নালকে প্রত্যাখ্যান করবেαআমরা যত্নশীল হতে পারে। শক্তি বিশ্লেষণের হৃদয়, তখন, একটি সাবরুটাইন যা এই পি-মান বিতরণ তৈরি করে (হয় সিমুলেশন দ্বারা, যেমনটি কেবল বর্ণিত, বা - মাঝে মাঝে - তাত্ত্বিক সূত্র সহ)। এখানে কোড করা একটি উদাহরণ R
। এর যুক্তিতে অন্তর্ভুক্ত রয়েছে
rdist
, কিছু বিতরণ থেকে একটি এলোমেলো নমুনা উত্পাদন একটি ফাংশন নাম
n
, অনুরোধ করতে নমুনার আকার rdist
n.iter
, প্রাপ্ত নমুনার সংখ্যা
...
, যে কোনও alচ্ছিক পরামিতিগুলি পাস করতে হবে rdist
(যেমন স্বাধীনতার ডিগ্রি হিসাবেν)।
অবশিষ্ট পরামিতি ফলাফল প্রদর্শন নিয়ন্ত্রণ করে; তারা মূলত এই উত্তরের পরিসংখ্যান তৈরির সুবিধার্থে অন্তর্ভুক্ত রয়েছে।
sim <- function(rdist, n, n.iter, prefix="",
breaks=seq(0, 1, length.out=20), alpha=0.05,
plot=TRUE, ...) {
# The simulated P-values.
# NB: The optional arguments "..." are passed to `rdist` to specify
# its parameters (if any).
x <- apply(matrix(rdist(n*n.iter, ...), ncol=n.iter), 2,
function(y) shapiro.test(y)$p.value)
# The histogram of P-values, if requested.
if (plot) {
power <- mean(x <= alpha)
round.n <- 1+ceiling(log(1 + n.iter * power * (1-power), base=10) / 2)
hist(x[x <= max(breaks)], xlab=paste("P value (n=", n, ")", sep=""),
breaks=breaks,
main=paste(prefix, "(power=", format(power, digits=round.n), ")", sep=""))
# Specially color the "significant" part of the histogram
hist(x[x <= alpha], breaks=breaks, col="#e0404080", add=TRUE)
}
# Return the array of P-values for any further processing.
return(x)
}
আপনি দেখতে পাচ্ছেন যে গণনাটি কেবল একটি লাইন নেয়; কোডের বাকি অংশগুলি হিস্টোগ্রাম প্লট করে। উদাহরণস্বরূপ, আসুন এটি প্রত্যাশিত মিথ্যা ধনাত্মক হারগুলি গণনা করতে ব্যবহার করুন। "রেট" বহুবচনতে থাকে কারণ একটি পরীক্ষার বৈশিষ্ট্য সাধারণত নমুনার আকারের সাথে পরিবর্তিত হয়। যেহেতু এটি সুপরিচিত যে নমুনা আকারগুলি বড় হয় তখন বিতরণমূলক পরীক্ষাগুলির গুণগতভাবে ছোট বিকল্পগুলির বিরুদ্ধে উচ্চ ক্ষমতা থাকে, তাই এই গবেষণাটি ছোট ছোট নমুনা আকারের একটি ক্ষেত্রকে কেন্দ্র করে যেখানে প্রায়শই অনুশীলনের ক্ষেত্রে এই ধরনের পরীক্ষাগুলি প্রয়োগ করা হয়: সাধারণত5 প্রতি 100. গণনার সময় বাঁচাতে, আমি কেবল মানগুলির প্রতিবেদন করি n থেকে 5 প্রতি 20.
n.iter <- 10^5 # Number of samples to generate
n.spec <- c(5, 10, 20) # Sample sizes to study
par(mfrow=c(1,length(n.spec))) # Organize subsequent plots into a tableau
system.time(
invisible(sapply(n.spec, function(n) sim(rnorm, n, n.iter, prefix="DF = Inf ")))
)
পরামিতিগুলি নির্দিষ্ট করার পরে, এই কোডটিও কেবল একটি লাইন। এটি নিম্নলিখিত আউটপুট উত্পাদন করে:
এটি প্রত্যাশিত চেহারা: হিস্টোগ্রামগুলি থেকে সম্পূর্ণ পরিসীমা জুড়ে পি-মানগুলির প্রায় অভিন্ন বিতরণ দেখায়0 প্রতি 1। নামমাত্র আকার সেট এα=0.05, মধ্যে সিমুলেশন রিপোর্ট .0481 এবং 0.0499পি-মানগুলির প্রকৃতপক্ষে সেই প্রান্তিকের চেয়ে কম ছিল: এগুলি লাল রঙে হাইলাইট করা ফলাফল। নামমাত্র মানটির সাথে এই ফ্রিকোয়েন্সিগুলির ঘনিষ্ঠতা প্রমাণিত করে যে শাপিরো-উইলক পরীক্ষাটি বিজ্ঞাপন হিসাবে সম্পাদন করে।
(কাছাকাছি পি-মানগুলির একটি অস্বাভাবিক উচ্চ ফ্রিকোয়েন্সিটির দিকে ঝোঁক বলে মনে হচ্ছে 1। এটি সামান্য উদ্বেগের কারণ, প্রায় সমস্ত অ্যাপ্লিকেশনগুলিতে একমাত্র পি-মানগুলিই দেখায়0.2 বা কম.)
আসুন এখন ক্ষমতাটি মূল্যায়নের দিকে ঘুরে আসি। এর মানগুলির সম্পূর্ণ পরিসীমাν শিক্ষার্থীদের জন্য বিতরণের আশেপাশের কয়েকটি ঘটনা মূল্যায়ন করে পর্যাপ্ত পরিমাণে অধ্যয়ন করা যেতে পারে ν=100 নিচে ν=1। আমি কীভাবে জানি? আমি খুব অল্প সংখ্যক পুনরুক্তি ব্যবহার করে প্রাথমিক পাঠিয়েছি (থেকে)100 প্রতি 1000), যা মোটেও সময় নেয় না। কোডটি এখন একটি ডাবল লুপের প্রয়োজন (এবং আরও জটিল পরিস্থিতিতে আমাদের প্রায়শই বিভিন্ন দিকের পরিবর্তনের জন্য আমাদের ট্রিপল বা চতুর্ভুজ লুপের প্রয়োজন হয়): নমুনা আকারের সাথে শক্তি কীভাবে পরিবর্তিত হয় তা অধ্যয়ন করতে হবে এবং অন্যটি কীভাবে এর সাথে পরিবর্তিত হয় তা অধ্যয়ন করতে হবে to স্বাধীনতার ডিগ্রি। আবার একবার, যদিও, সমস্ত কিছু কোডের এক লাইনে (তৃতীয় এবং চূড়ান্ত) সম্পন্ন হয়:
df.spec <- c(64, 16, 4, 2, 1)
par(mfrow=c(length(n.spec), length(df.spec)))
for (n in n.spec)
for (df in df.spec)
tmp <- sim(rt, n, n.iter, prefix=paste("DF =", df, ""), df=df)
এই ঝালর সামান্য অধ্যয়ন শক্তি সম্পর্কে ভাল অন্তর্দৃষ্টি সরবরাহ করে। আমি এর সর্বাধিক স্পষ্ট এবং কার্যকর দিকগুলির দিকে দৃষ্টি আকর্ষণ করতে চাই:
স্বাধীনতার ডিগ্রি হ্রাস হওয়ায় ν=64 বাম থেকে ν=1ডানদিকে, আরও বেশি করে পি-মানগুলি ছোট, যা দেখায় যে সাধারণ বিতরণ থেকে এই বিতরণগুলিকে বৈষম্য করার ক্ষমতা বৃদ্ধি পায়। (প্রতিটি প্লটের শিরোনামে শক্তি পরিমাণযুক্ত: এটি হিস্টগ্রামের ক্ষেত্রফলের পরিমাণের তুলনায় সমান যে লাল))
নমুনা আকার থেকে বৃদ্ধি হিসাবে n=5 উপরের সারিতে n=20 নীচে, শক্তি এছাড়াও বৃদ্ধি।
নাল ডিস্ট্রিবিউশন এবং নমুনার আকার বৃদ্ধির থেকে বিকল্প বিতরণ কীভাবে আরও বেশি পার্থক্য রয়েছে তা লক্ষ্য করুন, পি-মানগুলি বাম দিকে সংগ্রহ করা শুরু করে, তবে তাদের মধ্যে এখনও একটি "লেজ" রয়েছে যা সমস্ত দিকে প্রসারিত করে 1। এটি শক্তি অধ্যয়নের বৈশিষ্ট্য। এটি দেখায় যে পরীক্ষাটি একটি জুয়া : এমনকি যখন নাল অনুমানটি সুস্পষ্টভাবে লঙ্ঘন করা হয় এবং এমনকি যখন আমাদের নমুনার আকারটি যুক্তিযুক্তভাবে বড় হয়, তখনও আমাদের আনুষ্ঠানিক পরীক্ষাটি উল্লেখযোগ্য ফলাফল দিতে ব্যর্থ হতে পারে।
এমনকি ডানদিকে নীচে চরম ক্ষেত্রে, যেখানে একটি নমুনা 20 এর সাথে স্টুডেন্ট টি ডিস্ট্রিবিউশন থেকে আঁকা 1 স্বাধীনতা ডিগ্রি (একটি ছদ্ম বিতরণ), শক্তি নয় 1: সেখানে একটি 100−86.57=13% সুযোগ যে একটি নমুনা 20 iid কচী প্রকরণের স্তরগুলিতে সাধারণের চেয়ে উল্লেখযোগ্যভাবে আলাদা বিবেচিত হবে না 5% (এটি, সাথে 95% আস্থা)।
আমরা যে কোনও মূল্যে শক্তি মূল্যায়ন করতে পারি αআমরা এই হিস্টোগ্রামগুলিতে আরও কম কয়েকটি বার রঙ করে বেছে নিয়েছি। উদাহরণস্বরূপ, পাওয়ারটি মূল্যায়নের জন্যα=0.10, প্রতিটি হিস্টোগ্রামের বাম দুটি বারে রঙ দিন এবং মোটটির একটি ভগ্নাংশ হিসাবে এর ক্ষেত্রফল অনুমান করুন।
(এটি মানগুলির জন্য খুব ভাল কাজ করবে না α চেয়ে ছোট 0.05এই চিত্র সহ অনুশীলনে, কেউ হিস্টোগ্রামগুলি কেবলমাত্র ব্যবহৃত সীমার মধ্যে কেবলমাত্র পি-মানগুলিতে সীমাবদ্ধ করে0 প্রতি 20%, এবং এটিকে পাওয়ারের ভিজ্যুয়াল মূল্যায়ন সক্ষম করতে পর্যাপ্ত বিশদে তাদের দেখান α=0.01 অথবা এমনকি α=0.005। (এই breaks
বিকল্পটির জন্য sim
এটিই ছিল)) সিমুলেশন ফলাফল পোস্ট-প্রসেসিং আরও বিশদ সরবরাহ করতে পারে))
এটি মজাদার যে, কার্যকরভাবে, কোডের তিনটি লাইনের পরিমাণ থেকে কী পরিমাণে সংগ্রহ করা যায়: একটি নির্দিষ্ট বন্টন থেকে আইডির নমুনাগুলি অনুকরণ করতে, একটি নাল ডিস্ট্রিবিউশনের অ্যারেতে প্রয়োগ করতে এবং তৃতীয়টি এটি প্রয়োগ করার জন্য বিকল্প বিতরণ একটি অ্যারে। এগুলি তিনটি পদক্ষেপ যা কোনও শক্তি বিশ্লেষণে যায়: বাকীগুলি কেবলমাত্র সংক্ষেপগুলি এবং ফলাফলগুলি ব্যাখ্যা করে।