উদাহরণস্বরূপ, ধরুন আপনার একটি অর্ডার করা সেট রয়েছে যাতে প্রতিটি পদের বর্ণমালার কোনও ছোট হাতের অক্ষর হওয়ার সমান সম্ভাবনা রয়েছে। এই ক্ষেত্রে আমি অর্ডার করা সেটটিতে উপাদান যুক্ত করে তুলব ।1000
# generate a possible sequence of letters
s <- sample(x = letters, size = 1000, replace = TRUE)
দেখা যাচ্ছে যে যদি আদেশকৃত সেটগুলির প্রতিটি অবস্থান বর্ণমালার ছোট হাতের অক্ষরের উপর একটি সমান বিতরণ অনুসরণ করে তবে একই অক্ষরের দুটি সংখ্যার মধ্যবর্তী দূরত্বটি প্যারামিটার 1/26 সহ জ্যামিতিক বিতরণকে অনুসরণ করে । এই তথ্যের আলোকে, আসুন একই চিঠির ধারাবাহিক ঘটনাগুলির মধ্যে দূরত্বটি গণনা করি।পি = 1 / 26
# find the distance between occurences of the same letters
d <- vector(mode = 'list', length = length(unique(letters)))
for(i in 1:length(unique(letters))) {
d[[i]] <- diff(which(s == letters[i]))
}
d.flat <- unlist(x = d)
আসুন একই বর্ণের সংঘটনগুলির মধ্যে দূরত্বগুলির একটি হিস্টোগ্রামটি দেখুন এবং এটি উপরে উল্লিখিত জ্যামিতিক বিতরণের সাথে যুক্ত সম্ভাব্য ভর কার্যের সাথে তুলনা করি।
hist(x = d.flat, prob = TRUE, main = 'Histogram of Distances', xlab = 'Distance',
ylab = 'Probability')
x <- range(d.flat)
x <- x[1]:x[2]
y <- dgeom(x = x - 1, prob = 1/26)
points(x = x, y = y, pch = '.', col = 'red', cex = 2)
লাল বিন্দুগুলি আমরা যে দূরত্বের প্রত্যাশা করতাম তার প্রকৃত সম্ভাবনা ভর কার্যকারিতা উপস্থাপন করে যদি আদেশকৃত সেটগুলির প্রতিটি পদ অক্ষরের উপর একটি অভিন্ন বন্টন অনুসরণ করে এবং হিস্টোগ্রামের বারগুলি আদেশের সাথে সম্পর্কিত দূরত্বের অভিজ্ঞতাগত সম্ভাব্য গণকর্মের প্রতিনিধিত্ব করে সেট।
আশাকরি উপরের চিত্রটি জ্যামিতিক বিতরণ উপযুক্ত কিনা তা নিশ্চিত হয়ে উঠছে।
আবার, যদি আদেশকৃত সেটগুলির প্রতিটি অবস্থান অক্ষরগুলির উপর একটি অভিন্ন বিতরণ অনুসরণ করে, তবে আমরা প্যারামিটার 1/26 সহ জ্যামিতিক বিতরণ অনুসরণ করার জন্য একই চিঠির উপস্থিতির মধ্যে দূরত্ব আশা করব । তাহলে দূরত্বগুলির প্রত্যাশিত বিতরণ এবং পার্থক্যের অভিজ্ঞতা অভিজ্ঞতা কীভাবে সমান? ভট্টাচার্য দূরত্ব দুই বিযুক্ত ডিস্ট্রিবিউশন মধ্যে যখন ডিস্ট্রিবিউশন ঠিক একই এবং থাকে যেমন ডিস্ট্রিবিউশন ক্রমবর্ধমান বিভিন্ন হয়ে।0 ∞পি = 1 / 260∞
d.flat
ভট্টাচার্য দূরত্বের দিক থেকে উপরের থেকে প্রত্যাশিত জ্যামিতিক বন্টনের সাথে কীভাবে তুলনা হয়?
b.dist <- 0
for(i in x) {
b.dist <- b.dist + sqrt((sum(d.flat == i) / length(d.flat)) * dgeom(x = i - 1,
prob = 1/26))
}
b.dist <- -1 * log(x = b.dist)
প্রত্যাশিত জ্যামিতিক বন্টন এবং দূরত্বের অভিজ্ঞতামূলক বিতরণের মধ্যে ভট্টাচার্য দূরত্ব প্রায় , যা মোটামুটি কাছাকাছি ।00,0260
সম্পাদনা করুন:
উপরে বর্ণিত ভট্টাচার্য দূরত্ব ( ) মোটামুটি কাছাকাছি থাকার চেয়ে , আমি মনে করি যে সিমুলেশন কার্যকর হয় তার এটি একটি ভাল উদাহরণ। এখন প্রশ্নটি নিম্নরূপ: আদেশিত সেটের প্রতিটি অবস্থান যদি অক্ষরের উপর একরকম হয় তবে উপরে বর্ণিত ভট্টাচার্য দূরত্ব কীভাবে আদর্শ ভট্টাচার্য দূরত্বের সাথে তুলনা করে? আসুন মতো অর্ডারযুক্ত সেট তৈরি করি এবং প্রত্যাশিত জ্যামিতিক বিতরণ থেকে তাদের প্রতিটি ভট্টাচার্য দূরত্ব গণনা করি।0 10 , 0000,026010 , 000
gen.bhat <- function(set, size) {
new.seq <- sample(x = set, size = size, replace = TRUE)
d <- vector(mode = 'list', length = length(unique(set)))
for(i in 1:length(unique(set))) {
d[[i]] <- diff(which(new.seq == set[i]))
}
d.flat <- unlist(x = d)
x <- range(d.flat)
x <- x[1]:x[2]
b.dist <- 0
for(i in x) {
b.dist <- b.dist + sqrt((sum(d.flat == i) / length(d.flat)) * dgeom(x = i -1,
prob = 1/length(unique(set))))
}
b.dist <- -1 * log(x = b.dist)
return(b.dist)
}
dist.bhat <- replicate(n = 10000, expr = gen.bhat(set = letters, size = 1000))
এখন আমরা উপরে বর্ণিত ভট্টাচার্য দূরত্ব পর্যবেক্ষণের সম্ভাব্যতা বা আরও একটি চূড়ান্ত গণনা করতে পারি, যদি আদেশিত সেটটি এমনভাবে তৈরি করা হয় যাতে এর প্রতিটি পদ অক্ষরের উপর অভিন্ন বিতরণ অনুসরণ করে।
p <- ifelse(b.dist <= mean(dist.bhat), sum(dist.bhat <= b.dist) / length(dist.bhat),
sum(dist.bhat > b.dist) / length(dist.bhat))
এই ক্ষেত্রে, সম্ভাব্যতা প্রায় ।0.38
সম্পূর্ণতার জন্য, নিম্নলিখিত চিত্রটি সিমুলেটেড ভট্টাচার্য দূরত্বের একটি হিস্টোগ্রাম। আমি মনে করি এটি উপলব্ধি করা গুরুত্বপূর্ণ যে আপনি কখনই কোনও ভট্টাচার্য দূরত্ব পর্যবেক্ষণ করবেন না কারণ আদেশিত সেটটির সীমাবদ্ধ দৈর্ঘ্য রয়েছে। সর্বোপরি, একটি চিঠির কোন দুটি ঘটনার মধ্যে সর্বাধিক দূরত্ব সর্বাধিক হয় ।9990999