আমি এই অনুমানটি পরীক্ষা করতে চাই যে নমুনাগুলির বিতরণ বা জনসংখ্যার বিষয়ে কোনও অনুমান না করেই একই জনসংখ্যা থেকে দুটি নমুনা আঁকা। আমি এই কিভাবে করা উচিত?
উইকিপিডিয়া থেকে আমার ধারণাটি হ'ল মান হুইটনি ইউ পরীক্ষাটি উপযুক্ত হওয়া উচিত, তবে অনুশীলনে এটি আমার পক্ষে কাজ করবে বলে মনে হয় না।
সংক্ষিপ্ততার জন্য আমি দুটি নমুনা (ক, খ) দিয়ে একটি ডেটাসেট তৈরি করেছি যা বড় (এন = 10000) এবং অ-সাধারণ (বিমোডাল) দুটি জনসংখ্যা থেকে আঁকা, একই (একই গড়), তবে পৃথক (মানক বিচ্যুতি) "হাম্পস।") এর আশেপাশে আমি একটি পরীক্ষা খুঁজছি যা সনাক্ত করবে যে এই নমুনাগুলি একই জনগোষ্ঠীর নয়।
হিস্টোগ্রাম দর্শন:
আর কোড:
a <- tibble(group = "a",
n = c(rnorm(1e4, mean=50, sd=10),
rnorm(1e4, mean=100, sd=10)))
b <- tibble(group = "b",
n = c(rnorm(1e4, mean=50, sd=3),
rnorm(1e4, mean=100, sd=3)))
ggplot(rbind(a,b), aes(x=n, fill=group)) +
geom_histogram(position='dodge', bins=100)
এখানে মান হুইটনি পরীক্ষা আশ্চর্যরূপে (?) নকল অনুমানটিকে একই জনসংখ্যার থেকে প্রত্যাখ্যান করতে ব্যর্থ হয়েছে:
> wilcox.test(n ~ group, rbind(a,b))
Wilcoxon rank sum test with continuity correction
data: n by group
W = 199990000, p-value = 0.9932
alternative hypothesis: true location shift is not equal to 0
সাহায্য করুন! বিভিন্ন বিতরণ সনাক্ত করার জন্য আমি কীভাবে কোড আপডেট করব? (আমি বিশেষত জেনেরিক র্যান্ডমাইজেশন / উপলব্ধ হলে পুনরায় মডেলিংয়ের উপর ভিত্তি করে একটি পদ্ধতি চাই))
সম্পাদনা করুন:
উত্তরের জন্য সবাইকে ধন্যবাদ! আমি উচ্ছ্বসিতভাবে কোলমোগোরভ – স্মিমনভ সম্পর্কে আরও শিখছি যা আমার উদ্দেশ্যগুলির পক্ষে খুব উপযুক্ত বলে মনে হচ্ছে।
আমি বুঝতে পারি যে কেএস পরীক্ষাটি দুটি নমুনার এই ইসিডিএফ তুলনা করছে:
এখানে আমি দৃশ্যত তিনটি আকর্ষণীয় বৈশিষ্ট্য দেখতে পাচ্ছি। (1) নমুনা বিভিন্ন বিতরণ থেকে। (২) ক নির্দিষ্ট বিন্দুতে স্পষ্টত বি এর উপরে। (৩) ক অন্যান্য নির্দিষ্ট পয়েন্টে স্পষ্টভাবে খ এর নীচে is
কেএস পরীক্ষা এই বৈশিষ্ট্যগুলির প্রতিটি অনুমান-পরীক্ষা করতে সক্ষম বলে মনে হচ্ছে:
> ks.test(a$n, b$n)
Two-sample Kolmogorov-Smirnov test
data: a$n and b$n
D = 0.1364, p-value < 2.2e-16
alternative hypothesis: two-sided
> ks.test(a$n, b$n, alternative="greater")
Two-sample Kolmogorov-Smirnov test
data: a$n and b$n
D^+ = 0.1364, p-value < 2.2e-16
alternative hypothesis: the CDF of x lies above that of y
> ks.test(a$n, b$n, alternative="less")
Two-sample Kolmogorov-Smirnov test
data: a$n and b$n
D^- = 0.1322, p-value < 2.2e-16
alternative hypothesis: the CDF of x lies below that of y
আসলেই ঝরঝরে! আমি এই বৈশিষ্ট্যগুলির প্রতিটি সম্পর্কে আমার ব্যবহারিক আগ্রহ এবং তাই এটি দুর্দান্ত যে কেএস পরীক্ষা তাদের প্রতিটি পরীক্ষা করতে পারে।