আনাড়ি মান স্ট্যান্ডার্ড?


13

আমার কাছে প্রচুর ডেটা রয়েছে এবং আমি এমন কিছু করতে চাই যা দেখতে খুব সহজ। এই বিশাল আকারের ডেটাতে, আমি নির্দিষ্ট উপাদানকে কতটা একসাথে নিয়ে যায় তাতে আগ্রহী। ধরা যাক যে আমার ডেটাগুলি এই জাতীয় অর্ডার করা সেট: {এ, সি, বি, ডি, এ, জেড, টি, সি ...}। আসুন আমি সেটটি জুড়ে এলোমেলোভাবে (বা আরও সমানভাবে) বিতরণ করার বিপরীতে একে একে একে একে একে একে একে খুঁজে পেতে চাই কিনা তা জানতে চাই say এটি সেই সম্পত্তি যা আমি "আচ্ছন্নতা" বলছি।

এখন, ডেটা "বিশৃঙ্খলা" এর কিছু সাধারণ পরিমাপ আছে? এটি হ'ল কিছু পরিসংখ্যান যা আমাকে জানাবে যে এলোমেলোভাবে বিতরণ করা কতটা দূরে? এবং যদি এটি করার কোনও সহজ উপায় না থাকে তবে মোটামুটিভাবে শক্ত পথটি কী হবে? যে কোনও পয়েন্টার প্রশংসিত!

উত্তর:


14

উদাহরণস্বরূপ, ধরুন আপনার একটি অর্ডার করা সেট রয়েছে যাতে প্রতিটি পদের বর্ণমালার কোনও ছোট হাতের অক্ষর হওয়ার সমান সম্ভাবনা রয়েছে। এই ক্ষেত্রে আমি অর্ডার করা সেটটিতে উপাদান যুক্ত করে তুলব ।1000

# generate a possible sequence of letters
s <- sample(x = letters, size = 1000, replace = TRUE)

দেখা যাচ্ছে যে যদি আদেশকৃত সেটগুলির প্রতিটি অবস্থান বর্ণমালার ছোট হাতের অক্ষরের উপর একটি সমান বিতরণ অনুসরণ করে তবে একই অক্ষরের দুটি সংখ্যার মধ্যবর্তী দূরত্বটি প্যারামিটার 1/26 সহ জ্যামিতিক বিতরণকে অনুসরণ করে । এই তথ্যের আলোকে, আসুন একই চিঠির ধারাবাহিক ঘটনাগুলির মধ্যে দূরত্বটি গণনা করি।p=1/26

# find the distance between occurences of the same letters
d <- vector(mode = 'list', length = length(unique(letters)))
for(i in 1:length(unique(letters))) {
    d[[i]] <- diff(which(s == letters[i]))
}
d.flat <- unlist(x = d)

আসুন একই বর্ণের সংঘটনগুলির মধ্যে দূরত্বগুলির একটি হিস্টোগ্রামটি দেখুন এবং এটি উপরে উল্লিখিত জ্যামিতিক বিতরণের সাথে যুক্ত সম্ভাব্য ভর কার্যের সাথে তুলনা করি।

hist(x = d.flat, prob = TRUE, main = 'Histogram of Distances', xlab = 'Distance',
     ylab = 'Probability')
x <- range(d.flat)
x <- x[1]:x[2]
y <- dgeom(x = x - 1, prob = 1/26)
points(x = x, y = y, pch = '.', col = 'red', cex = 2)

লাল বিন্দুগুলি আমরা যে দূরত্বের প্রত্যাশা করতাম তার প্রকৃত সম্ভাবনা ভর কার্যকারিতা উপস্থাপন করে যদি আদেশকৃত সেটগুলির প্রতিটি পদ অক্ষরের উপর একটি অভিন্ন বন্টন অনুসরণ করে এবং হিস্টোগ্রামের বারগুলি আদেশের সাথে সম্পর্কিত দূরত্বের অভিজ্ঞতাগত সম্ভাব্য গণকর্মের প্রতিনিধিত্ব করে সেট।

এখানে চিত্র বর্ণনা লিখুন

আশাকরি উপরের চিত্রটি জ্যামিতিক বিতরণ উপযুক্ত কিনা তা নিশ্চিত হয়ে উঠছে।

আবার, যদি আদেশকৃত সেটগুলির প্রতিটি অবস্থান অক্ষরগুলির উপর একটি অভিন্ন বিতরণ অনুসরণ করে, তবে আমরা প্যারামিটার 1/26 সহ জ্যামিতিক বিতরণ অনুসরণ করার জন্য একই চিঠির উপস্থিতির মধ্যে দূরত্ব আশা করব । তাহলে দূরত্বগুলির প্রত্যাশিত বিতরণ এবং পার্থক্যের অভিজ্ঞতা অভিজ্ঞতা কীভাবে সমান? ভট্টাচার্য দূরত্ব দুই বিযুক্ত ডিস্ট্রিবিউশন মধ্যে যখন ডিস্ট্রিবিউশন ঠিক একই এবং থাকে যেমন ডিস্ট্রিবিউশন ক্রমবর্ধমান বিভিন্ন হয়ে।0 p=1/260

d.flatভট্টাচার্য দূরত্বের দিক থেকে উপরের থেকে প্রত্যাশিত জ্যামিতিক বন্টনের সাথে কীভাবে তুলনা হয়?

b.dist <- 0
for(i in x) {
    b.dist <- b.dist + sqrt((sum(d.flat == i) / length(d.flat)) * dgeom(x = i - 1,
              prob = 1/26))
}
b.dist <- -1 * log(x = b.dist)

প্রত্যাশিত জ্যামিতিক বন্টন এবং দূরত্বের অভিজ্ঞতামূলক বিতরণের মধ্যে ভট্টাচার্য দূরত্ব প্রায় , যা মোটামুটি কাছাকাছি ।00.0260

সম্পাদনা করুন:

উপরে বর্ণিত ভট্টাচার্য দূরত্ব ( ) মোটামুটি কাছাকাছি থাকার চেয়ে , আমি মনে করি যে সিমুলেশন কার্যকর হয় তার এটি একটি ভাল উদাহরণ। এখন প্রশ্নটি নিম্নরূপ: আদেশিত সেটের প্রতিটি অবস্থান যদি অক্ষরের উপর একরকম হয় তবে উপরে বর্ণিত ভট্টাচার্য দূরত্ব কীভাবে আদর্শ ভট্টাচার্য দূরত্বের সাথে তুলনা করে? আসুন মতো অর্ডারযুক্ত সেট তৈরি করি এবং প্রত্যাশিত জ্যামিতিক বিতরণ থেকে তাদের প্রতিটি ভট্টাচার্য দূরত্ব গণনা করি।0 10 , 0000.026010,000

gen.bhat <- function(set, size) {
    new.seq <- sample(x = set, size = size, replace = TRUE)
    d <- vector(mode = 'list', length = length(unique(set)))
    for(i in 1:length(unique(set))) {
        d[[i]] <- diff(which(new.seq == set[i]))
    }
    d.flat <- unlist(x = d)
    x <- range(d.flat)
    x <- x[1]:x[2]
    b.dist <- 0
    for(i in x) {
        b.dist <- b.dist + sqrt((sum(d.flat == i) / length(d.flat)) * dgeom(x = i -1,
                  prob = 1/length(unique(set))))
    }
    b.dist <- -1 * log(x = b.dist)
    return(b.dist)
}
dist.bhat <- replicate(n = 10000, expr = gen.bhat(set = letters, size = 1000))

এখন আমরা উপরে বর্ণিত ভট্টাচার্য দূরত্ব পর্যবেক্ষণের সম্ভাব্যতা বা আরও একটি চূড়ান্ত গণনা করতে পারি, যদি আদেশিত সেটটি এমনভাবে তৈরি করা হয় যাতে এর প্রতিটি পদ অক্ষরের উপর অভিন্ন বিতরণ অনুসরণ করে।

p <- ifelse(b.dist <= mean(dist.bhat), sum(dist.bhat <= b.dist) / length(dist.bhat),
            sum(dist.bhat > b.dist) / length(dist.bhat))

এই ক্ষেত্রে, সম্ভাব্যতা প্রায় ।0.38

সম্পূর্ণতার জন্য, নিম্নলিখিত চিত্রটি সিমুলেটেড ভট্টাচার্য দূরত্বের একটি হিস্টোগ্রাম। আমি মনে করি এটি উপলব্ধি করা গুরুত্বপূর্ণ যে আপনি কখনই কোনও ভট্টাচার্য দূরত্ব পর্যবেক্ষণ করবেন না কারণ আদেশিত সেটটির সীমাবদ্ধ দৈর্ঘ্য রয়েছে। সর্বোপরি, একটি চিঠির কোন দুটি ঘটনার মধ্যে সর্বাধিক দূরত্ব সর্বাধিক হয় ।9990999

এখানে চিত্র বর্ণনা লিখুন


দেখে মনে হচ্ছে আপনি একেবারে প্রথম দিকে ধরে নিয়েছেন যে অক্ষরের বিতরণ প্রতিটি অক্ষরের সমান সম্ভাবনা সহ বহুজাতিক হয়। চিঠিগুলির বিতরণ অসম সম্ভাবনার যদি হয়? - প্রতিটি অক্ষরের উপস্থিতির মধ্যে দূরত্বের প্রত্যাশিত বিতরণটি কি এখনও জ্যামিতিক হবে? এবং কি পরামিতি দিয়ে?
ttnphns

প্রতিটি চিঠির অসম সম্ভাবনা থাকলেও প্রতিটি চিঠির উপস্থিতির মধ্যে দূরত্ব এখনও জ্যামিতিক। যাইহোক, প্যারামিটার চিঠির মাধ্যমে পরিবর্তিত হয় এবং প্রতিটি বর্ণের জন্য এটি চিঠিযুক্ত অর্ডারযুক্ত সেটটিতে কোনও অবস্থানের সম্ভাবনার সমান।
assumednormal

1
আমি আপনার পদ্ধতির পছন্দ। প্রতিটি চিঠির সংখ্যা স্থির এবং সমস্ত সম্ভাব্য ক্রমগুলির মধ্যে একটি অর্ডারে অভিন্নভাবে আঁকানো অনুমান করা কি আরও বাস্তববাদী হবে না? দুর্ভাগ্যক্রমে আমি জানি না যে ক্ষেত্রে বিতরণটি কী। কোন ধারণা?
gui11aume

@ gui11aume এটি একটি আকর্ষণীয় চিন্তাভাবনা। আপনি কি এমন এক ধরণের ক্রমচারণ পরীক্ষার পদ্ধতির কথা উল্লেখ করছেন যেখানে আমরা পর্যবেক্ষণকৃত অর্ডার সেটটিকে বহুবার অনুমতি দিয়েছি এবং দেখুন যে কোনও কিছু পরিসংখ্যান ব্যবহার করে মূল অর্ডারের সেটটি অনুমতিগুলির সাথে কতটা মিল?
অনুমানযোগ্য

হ্যাঁ, এটাই আমার মনে আছে। তারপরে সম্পূর্ণ মিশ্রণ থেকে প্রস্থান পরিমাপ করতে আপনি ভট্টাচার্য দূরত্ব বা কুলব্যাক-লেবেলার বিচ্যুতি ব্যবহার করতে পারেন।
gui11aume

7

আপনি ঠিক কী বর্ণনা করছেন তা রান টেস্ট নামক একটি পদ্ধতিতে কোডড হয়েছে। এটা আয়ত্ত করা জটিল নয়। আপনি এটি পরিসংখ্যান সংক্রান্ত পরীক্ষার অনেক উত্সে খুঁজে পেতে পারেন, যেমন, উইকিপিডিয়া বা নাটল ইনস্টিটিউট। স্ট্যান্ডার্ড এবং প্রযুক্তি বা ইউটিউব এর


+1 টি। @ অ্যালান, রান টেস্টকে ওয়াল্ড – ওল্ফওভিটস পরীক্ষাও বলা হয় - আপনার জানা জন্য।
ttnphns

রান টেস্টের ক্ষেত্রে সমস্যাটি হ'ল এটি কেবল দ্বৈতশক্তি বা দ্বিধাত্বিক ডেটা।
ttnphns

0

আপনি যদি এই বিষয়ে কিছুটা ভিন্ন দৃষ্টিভঙ্গিতে আগ্রহী হন তবে আপনি তথ্য তত্ত্বের একটি প্রাইমারটি দেখতে পছন্দ করতে পারেন - গণনা, চিত্র / ভিডিও / অডিও প্রসেসিং, যোগাযোগ তত্ত্ব এবং (সম্ভবত আরও আশ্চর্যজনকভাবে) পদার্থবিজ্ঞানের আগ্রহের গণিতের একটি ক্ষেত্র এবং মহাজাগতিক (ব্ল্যাক হোলগুলি বোঝার জন্য গুরুত্বপূর্ণ, পাশাপাশি ধ্রুপদী থার্মোডাইনামিক্স) এবং এমনকি জীববিজ্ঞান।

অনানুষ্ঠানিকভাবে, আমরা বলতে পারি যে কোনও সাধারণ উদ্দেশ্য সংকোচন অ্যালগরিদমের সাপেক্ষে অক্ষরের একটি "ক্লাম্পিয়ার" ক্রম (আপনার উদাহরণ অনুসারে) আরও ঘন সংকোচিত হবে - অর্থাত কাঁচা পাঠ্যযুক্ত একটি জিপ ফাইল আরও ছোট হবে। একইভাবে, একটি "ক্লাম্পি" চিত্র (যেমন, একটি সরল সবুজ বাইজে কয়েকটি বিলিয়ার্ড বলের বলি) অনেক বেশি দক্ষতার সাথে সংকুচিত হবে - যেমন একটি আরও বিচিত্র চিত্রের চেয়ে একটি ছোট জেপিগ ফাইল তৈরি করুন (যেমন একটি গ্রুপের একটি চিত্র) )। অবশ্যই এই জাতীয় ডেটা সম্পর্কিত তথ্য সামগ্রী (ওরফে নেগেটিভ এনট্রপি বা "নেজেন্ট্রপি") নির্দিষ্ট সংক্ষেপণ অ্যালগরিদমগুলির থেকে পৃথক বিভিন্ন আনুষ্ঠানিক সংজ্ঞা রয়েছে।

উপরের আরও ধ্রুপদী পরিসংখ্যানগত বিশ্লেষণগুলির চেয়ে তথ্য-তাত্ত্বিক পরিমাপটি আরও উদ্ভাসিত হতে পারে এমন একটি উদাহরণের উদাহরণ যদি আপনি একাধিক (বা সমস্ত) পর্যায়ে রেজোলিউশনে "আচ্ছন্নতা" চিহ্নিত করতে আগ্রহী হন। আপনার পাঠ্য স্ট্রিংয়ের উদাহরণে, যদি সিক্যুয়েন্সের শুরুতে প্রচুর "A" গুলি একসাথে হয়ে থাকে, তবে "A" গুলি খুব বেশি না ঘটায় এবং পরে পর্যায়ক্রমে আরও গুচ্ছ এবং ক্রমটি চলার সাথে সাথে কম গুচ্ছ হয়, তবে একঘেয়েমিটিকে একাধিক রেজোলিউশনে উপস্থিত থাকতে পারে - এমন তথ্য যা তাত্ত্বিক ব্যবস্থা তথ্য দ্বারা খুব স্বাভাবিকভাবেই ধরা যায় captured

(সম্পাদনা) এটি আমার কাছে ঘটে যে আপনার উদ্বেগ যে এটি একটি হাস্যকর প্রশ্ন হতে পারে, যখন আসলে "অজ্ঞানতা" এর অধ্যয়ন - তথ্যের ছদ্মবেশে এবং (নেপ) এনট্রপি - আধুনিক জীবনের দৈনন্দিন ক্রিয়াকলাপ উভয়ই সম্পর্কে জাগ্রতভাবে আমাদের অবহিত করে (ইন্টারনেট, মোবাইল যোগাযোগ, ভাষা নিজেই) এবং মহাবিশ্বের প্রকৃতি (ব্ল্যাক হোলস, গ্যালাক্সি গঠন, মহাজাগতিক ব্যাকগ্রাউন্ড রেডিয়েশনের ব্যাখ্যা, "জীবিত" কী তা নির্ধারণ করে) এই প্রবাদের সাথে উত্তর দেওয়া উচিত যে "কোনও বোকা প্রশ্ন নেই , কেবল বোকা উত্তর "[অবৈধ উদ্ধৃতি]।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.