নমুনার আকার বৃদ্ধির সাথে কেন পি-মান এবং কে-পরীক্ষার পরিসংখ্যান হ্রাস পাবে? এই পাইথন কোডটিকে উদাহরণ হিসাবে ধরুন:
import numpy as np
from scipy.stats import norm, ks_2samp
np.random.seed(0)
for n in [10, 100, 1000, 10000, 100000, 1000000]:
x = norm(0, 4).rvs(n)
y = norm(0, 4.1).rvs(n)
print ks_2samp(x, y)
ফলাফলগুলি হ'ল:
Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508)
Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247)
Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662)
Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896)
Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855)
Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19)
স্বজ্ঞাতভাবে আমি বুঝতে পারি যে এন বাড়ার সাথে সাথে পরীক্ষাটি "আরও নিশ্চিত" যে দুটি বিতরণ আলাদা। তবে যদি নমুনার আকারটি খুব বড় হয় তবে এর মতো মিলগুলির পরীক্ষায় বিন্দুটি কী বলে এবং অ্যান্ডারসন ডার্লিং পরীক্ষা বা টি-টেস্ট বলে, কারণ এই জাতীয় ক্ষেত্রে যখন এন খুব বড় হয়, তখন বিতরণগুলি সর্বদা পাওয়া যায় "উল্লেখযোগ্যভাবে" আলাদা !? এখন আমি ভাবছি পৃথিবীতে পি-মানগুলির বিন্দুটি কী। এটি নমুনার আকারের উপর এতটা নির্ভর করে ... পি> 0.05 এবং আপনি যদি এটি কম রাখতে চান তবে আরও ডেটা পান; এবং যদি পি <0.05 থাকে এবং আপনি এটি উচ্চতর হতে চান তবে কিছু তথ্য সরিয়ে ফেলুন।
এছাড়াও, যদি দুটি বিতরণ একরকম হয়, তবে কেএস-পরীক্ষার পরিসংখ্যান 0 এবং p- মান 1 হবে। তবে আমার উদাহরণে, ns কেস-পরীক্ষার পরিসংখ্যান বৃদ্ধি করার সাথে সাথে বিতরণ সময়ের সাথে আরও বেশি একইরকম হওয়ার হ্রাস পায় (হ্রাস) , কিন্তু পি-মান অনুসারে তারা সময়ের সাথে আরও বেশি এবং আলাদা হয়ে যায় (এছাড়াও হ্রাসও পায়)।