আমি কোলমোগোরভ-স্মারনভ পরীক্ষার ফাংশন (দুটি নমুনা, দ্বিমুখী) বোঝার চেষ্টা করছি। এখানে একটি সহজ পরীক্ষা।
x <- c(1,2,2,3,3,3,3,4,5,6)
y <- c(2,3,4,5,5,6,6,6,6,7)
z <- c(12,13,14,15,15,16,16,16,16,17)
ks.test(x,y)
# Two-sample Kolmogorov-Smirnov test
#
#data: x and y
#D = 0.5, p-value = 0.1641
#alternative hypothesis: two-sided
#
#Warning message:
#In ks.test(x, y) : cannot compute exact p-value with ties
ks.test(x,z)
#Two-sample Kolmogorov-Smirnov test
#data: x and z
#D = 1, p-value = 9.08e-05
#alternative hypothesis: two-sided
#
#Warning message:
#In ks.test(x, z) : cannot compute exact p-value with ties
ks.test(x,x)
#Two-sample Kolmogorov-Smirnov test
#data: x and x
#D = 0, p-value = 1
#alternative hypothesis: two-sided
#
#Warning message:
#In ks.test(x, x) : cannot compute exact p-value with ties
এখানে কয়েকটি জিনিস আমি বুঝতে পারি না।
থেকে সাহায্যের , মনে হয় যে পি-মান অনুমান বোঝায়
var1=var2
। তবে, এখানে এর অর্থ এই হবে যে পরীক্ষাটি বলে (p<0.05
):ক। তা বলতে পারি না
X = Y
;খ। বলতে পারেন যে
X = Z
;গ। বলতে পারি না
X = X
(!)
এই এক্সটি নিজেকে (!) থেকে পৃথক করার পাশাপাশি এটি আমার কাছেও বেশ আশ্চর্যের বিষয় যে x=z
দুটি বিতরণের শূন্য ওভারল্যাপিং সমর্থন রয়েছে। কীভাবে সম্ভব?
পরীক্ষার সংজ্ঞা অনুযায়ী,
D
দুই সম্ভাবনা ডিস্ট্রিবিউশন মধ্যে সর্বোচ্চ পার্থক্য হওয়া উচিত, কিন্তু ক্ষেত্রে উদাহরণস্বরূপ(x,y)
এটি হওয়া উচিতD = Max|P(x)-P(y)| = 4
(কেস যখনP(x)
,P(y)
স্বাভাবিক নেই) অথবাD=0.3
(যদি তারা স্বাভাবিক হয়)। ডি এর থেকে আলাদা কেন?আমি ইচ্ছাকৃতভাবে অনেকগুলি বন্ধনের সাথে একটি উদাহরণ তৈরি করেছি , যেহেতু আমি যে ডেটা নিয়ে কাজ করছি তাতে প্রচুর অভিন্ন মান রয়েছে। কেন এই পরীক্ষা বিভ্রান্ত? আমি ভেবেছিলাম এটি একটি সম্ভাব্যতা বিতরণ গণনা করেছে যা বারবার মান দ্বারা প্রভাবিত হবে না। কোন ধারণা?