ছড়িয়ে যাওয়ার 'সমতা' কি আছে?


14

আমি ওয়েবে সন্ধান করেছি, কিন্তু সহায়ক কিছু খুঁজে পেল না।

আমি মূলত একটি মূল্য কীভাবে 'সমানভাবে' বিতরণ করা হয় তা পরিমাপ করার উপায় খুঁজছি। যেমনটি, এক্সের মতো একটি 'সমান' বিতরণ বিতরণ : এখানে চিত্র বর্ণনা লিখুন

এবং প্রায় একই গড় এবং স্ট্যান্ডার্ড বিচ্যুতির একটি 'অসম' বিতরণ বিতরণ ওয়াই : এখানে চিত্র বর্ণনা লিখুন

তবে এম (এক্স)> মি (ওয়াই) এর মতো কোনও সমতা পরিমাপের কি আছে? যদি তা না থাকে তবে এর মতো পরিমাপ তৈরি করার সর্বোত্তম উপায় কী হবে?

(খান একাডেমির চিত্রাবলী)


1
স্কু সম্পর্কে কি?
ওল্ফসঠসেদুর

এন্ট্রপি একই রকম সমর্থনযুক্ত বিযুক্ত বিতরণের জন্য দুর্দান্ত। তবে ক্রমাগত বিতরণের জন্য এটি দুর্দান্ত কিনা তা আমি জানি না।
স্টাফেন লরেন্ট

আপনি কি নিশ্চিত যে ডট প্লট আপনি যা চান আমি মনে করি না আপনি সত্যিকার অর্থেই অভিন্নতা সম্পর্কে জিজ্ঞাসা করেছেন। এটি "ক্লাম্পনেস" বা "ক্লাস্টারিংয়ের ডিগ্রি" বা এমনকি মাল্টিমোডাল্টি সম্পর্কিত কোনও প্রশ্নের মতো শোনাচ্ছে।
শ্যাডট্যালকার

@ স্টাফেনলরেন্ট - আমাকে আরও কয়েকজন ইন্ট্রপি দেওয়ার পরামর্শ দিয়েছিলেন। আপনি দয়া করে সময় নিতে এবং এটিতে কিছুটা বিস্তৃত করতে পারেন?
কেতন

1
"সমানভাবে বিতরণ করা" দ্বারা আপনি কী বোঝাতে চাইছেন আপনাকে আরও পরিষ্কারভাবে ব্যাখ্যা করতে হবে। আমার আক্ষরিক মনের মস্তিষ্ক বলে যে এই জাতীয় 1,4,7,10,13, ... ডেটা পুরোপুরি সমানভাবে বিতরণ করা হয়েছে। তবে আপনি সম্পূর্ণ ভিন্ন কিছু বোঝাতে পারেন।
এমিল ফ্রিডম্যান

উত্তর:


16

একটি আদর্শ, শক্তিশালী, সু-বোঝা, তাত্ত্বিকভাবে সু-প্রতিষ্ঠিত এবং ঘন ঘন প্রয়োগ করা "সমতা" এর পরিমাপ হ'ল রিপলে কে ফাংশন এবং এর নিকটাত্মীয় এল ফাংশন। যদিও এগুলি সাধারণত দ্বি-মাত্রিক স্থানিক বিন্দু কনফিগারেশনগুলি মূল্যায়নের জন্য ব্যবহৃত হয়, তবুও তাদেরকে একটি মাত্রায় (যা সাধারণত রেফারেন্সগুলিতে দেওয়া হয় না) অভিযোজিত করার জন্য প্রয়োজনীয় বিশ্লেষণটি সহজ।


তত্ত্ব

কে ফাংশনটি একটি সাধারণ পয়েন্টের দূরত্ব এর মধ্যে পয়েন্টগুলির গড় অনুপাতটি অনুমান করে । ব্যবধানে [ 0 , 1 ] এ অভিন্ন বিতরণের জন্য , সত্য অনুপাতটি গণনা করা যায় এবং (নমুনা আকারে asyptotically) সমান 1 - ( 1 - d ) 2 । এল ফাংশনের উপযুক্ত এক-মাত্রিক সংস্করণ অভিন্নতা থেকে বিচ্যুতিগুলি দেখানোর জন্য কে থেকে এই মানটি বিয়োগ করে অতএব আমরা কোনও একক ব্যাচের উপাত্তকে ইউনিট সীমার জন্য সাধারণকরণ এবং শূন্যের কাছাকাছি বিচ্যুতিগুলির জন্য এর এল ফাংশনটি পরীক্ষা করার বিষয়ে বিবেচনা করতে পারি।d[0,1]1(1d)2


কাজের উদাহরণ

উদাহরণ হিসেবে বলা যায় , আমি কৃত্রিম আছে আকার স্বাধীন নমুনার 64 (থেকে একটি অভিন্ন বিতরণ থেকে এবং খাটো দূরত্বের জন্য তাদের (স্বাভাবিক) এল ফাংশন অঙ্কিত 0 থেকে 1 / 3 ), যার ফলে এল ফাংশনের স্যাম্পলিং বন্টন অনুমান করার জন্য একটা খাম তৈরি করা। (এই খামের মধ্যে ভালভাবে প্লট করা পয়েন্টগুলি অভিন্নতার থেকে উল্লেখযোগ্যভাবে আলাদা করা যায় না)) এরজন্য আমি একটি ইউ-আকারের বিতরণ, চারটি সুস্পষ্ট উপাদানযুক্ত মিশ্রণ বিতরণ এবং একটি আদর্শ সাধারণ বিতরণ থেকে একই আকারের নমুনার জন্য এল ফাংশন প্লট করেছি। এই ফাংশনগুলির হিস্টোগ্রামগুলি (এবং তাদের পিতামাত বিতরণগুলির) রেফারেন্সের জন্য এল ফাংশনের সাথে মেলে লাইন চিহ্ন ব্যবহার করে দেখানো হয়েছে।9996401/3

ব্যক্তিত্ব

ইউ-আকারের বিতরণের তীক্ষ্ণ পৃথক স্পাইকগুলি (ড্যাশযুক্ত লাল রেখা, বামতম হিস্টোগ্রাম) খুব কাছাকাছি ব্যবধানযুক্ত মানগুলির ক্লাস্টার তৈরি করে। এটি এ L ফাংশনে খুব বড় opeাল দ্বারা প্রতিফলিত হয় । এর পরে এল ফাংশন হ্রাস পায়, শেষ পর্যন্ত মধ্যবর্তী দূরত্বের ফাঁকগুলি প্রতিফলিত করতে নেতিবাচক হয়ে ওঠে।0

সাধারণ বিতরণ থেকে নমুনা (সলিড ব্লু লাইন, ডান দিকের হিস্টোগ্রাম) অভিন্ন বিতরণ করার কাছাকাছি। তদনুসারে, এর এল ফাংশনটি থেকে দ্রুত প্রস্থান করে না । যাইহোক, ০.১০ বা তার বেশি দূরত্বে , এটি ক্লাস্টারের সামান্য প্রবণতার সংকেত দেওয়ার জন্য খামের উপরে যথেষ্ট পরিমাণে উঠে গেছে। মধ্যবর্তী দূরত্ব জুড়ে অবিচ্ছিন্ন বৃদ্ধি ইঙ্গিত দেয় যে গুচ্ছ ছড়িয়ে ছিটিয়ে থাকা এবং বিস্তৃত (কিছু বিচ্ছিন্ন শিখরে সীমাবদ্ধ নয়)।00.10

মিশ্রণ বিতরণ (মিডল হিস্টোগ্রাম) থেকে নমুনার জন্য প্রাথমিক বৃহত opeালটি ছোট দূরত্বগুলিতে ( এরও কম) ক্লাস্টারিং প্রকাশ করে । নেতিবাচক স্তরে নেমে এটি মধ্যবর্তী দূরত্বে পৃথকীকরণের ইঙ্গিত দেয়। এটি ইউ-আকারের বিতরণের এল ফাংশনের সাথে তুলনা করে প্রকাশ করছে: 0 তে slালু , যে পরিমাণগুলি দ্বারা এই বক্ররেখা 0-এর উপরে উঠে যায় এবং যে হারে তারা শেষ পর্যন্ত 0 এ নেমে আসে সেগুলি উপস্থিত ক্লাস্টারিংয়ের প্রকৃতি সম্পর্কে তথ্য সরবরাহ করে তথ্যটি. এই বৈশিষ্ট্যগুলির যে কোনও একটি নির্দিষ্ট অ্যাপ্লিকেশন অনুসারে "সমতা" একক পরিমাপ হিসাবে চয়ন করা যেতে পারে।0.15000

এই উদাহরণগুলি দেখায় যে কীভাবে অভিন্নতা ("সমতা") থেকে ডেটার প্রস্থানগুলি মূল্যায়ন করতে একটি এল-ফাংশন পরীক্ষা করা যেতে পারে এবং কীভাবে প্রস্থানগুলির স্কেল এবং প্রকৃতি সম্পর্কে পরিমাণগত তথ্য এটি থেকে বের করা যায়।

( অভিন্নতা থেকে বড় আকারের প্রস্থানগুলি মূল্যায়ন করার জন্য, সম্পূর্ণরূপে এর সম্পূর্ণ স্বাভাবিক দূরত্বের প্রসারিত পর্যন্ত পুরো এল ফাংশনটি প্লট করা যেতে পারে Ord সাধারণত, যদিও, ছোট দূরত্বে ডেটার আচরণের মূল্যায়ন বেশি গুরুত্বপূর্ণ))1


সফটওয়্যার

Rএই চিত্রটি তৈরির কোডটি নিম্নলিখিত। এটি কে এবং এল গণনা করার জন্য ফাংশনগুলি সংজ্ঞায়িত করে শুরু করে It এটি একটি মিশ্রণ বিতরণ থেকে অনুকরণ করার সক্ষমতা তৈরি করে। তারপরে এটি সিমুলেটেড ডেটা উত্পন্ন করে প্লটগুলি তৈরি করে।

Ripley.K <- function(x, scale) {
  # Arguments:
  # x is an array of data.
  # scale (not actually used) is an option to rescale the data.
  #
  # Return value:
  # A function that calculates Ripley's K for any value between 0 and 1 (or `scale`).
  #
  x.pairs <- outer(x, x, function(a,b) abs(a-b))  # All pairwise distances
  x.pairs <- x.pairs[lower.tri(x.pairs)]          # Distances between distinct pairs
  if(missing(scale)) scale <- diff(range(x.pairs))# Rescale distances to [0,1]
  x.pairs <- x.pairs / scale
  #
  # The built-in `ecdf` function returns the proportion of values in `x.pairs` that
  # are less than or equal to its argument.
  #
  return (ecdf(x.pairs))
}
#
# The one-dimensional L function.
# It merely subtracts 1 - (1-y)^2 from `Ripley.K(x)(y)`.  
# Its argument `x` is an array of data values.
#
Ripley.L <- function(x) {function(y) Ripley.K(x)(y) - 1 + (1-y)^2}
#-------------------------------------------------------------------------------#
set.seed(17)
#
# Create mixtures of random variables.
#
rmixture <- function(n, p=1, f=list(runif), factor=10) {
  q <- ceiling(factor * abs(p) * n / sum(abs(p)))
  x <- as.vector(unlist(mapply(function(y,f) f(y), q, f)))
  sample(x, n)
}
dmixture <- function(x, p=1, f=list(dunif)) {
  z <- matrix(unlist(sapply(f, function(g) g(x))), ncol=length(f))
  z %*% (abs(p) / sum(abs(p)))
}
p <- rep(1, 4)
fg <- lapply(p, function(q) {
  v <- runif(1,0,30)
  list(function(n) rnorm(n,v), function(x) dnorm(x,v), v)
  })
f <- lapply(fg, function(u) u[[1]]) # For random sampling
g <- lapply(fg, function(u) u[[2]]) # The distribution functions
v <- sapply(fg, function(u) u[[3]]) # The parameters (for reference)
#-------------------------------------------------------------------------------#
#
# Study the L function.
#
n <- 64                # Sample size
alpha <- beta <- 0.2   # Beta distribution parameters

layout(matrix(c(rep(1,3), 3, 4, 2), 2, 3, byrow=TRUE), heights=c(0.6, 0.4))
#
# Display the L functions over an envelope for the uniform distribution.
#
plot(c(0,1/3), c(-1/8,1/6), type="n", 
     xlab="Normalized Distance", ylab="Total Proportion",
     main="Ripley L Functions")
invisible(replicate(999, {
  plot(Ripley.L(x.unif <- runif(n)), col="#00000010", add=TRUE)
}))
abline(h=0, lwd=2, col="White")
#
# Each of these lines generates a random set of `n` data according to a specified
# distribution, calls `Ripley.L`, and plots its values.
#
plot(Ripley.L(x.norm <- rnorm(n)), col="Blue", lwd=2, add=TRUE)
plot(Ripley.L(x.beta <- rbeta(n, alpha, beta)), col="Red", lwd=2, lty=2, add=TRUE)
plot(Ripley.L(x.mixture <- rmixture(n, p, f)), col="Green", lwd=2, lty=3, add=TRUE)
#
# Display the histograms.
#
n.breaks <- 24
h <- hist(x.norm, main="Normal Sample", breaks=n.breaks, xlab="Value")
curve(dnorm(x)*n*mean(diff(h$breaks)), add=TRUE, lwd=2, col="Blue")
h <- hist(x.beta, main=paste0("Beta(", alpha, ",", beta, ") Sample"), 
          breaks=n.breaks, xlab="Value")
curve(dbeta(x, alpha, beta)*n*mean(diff(h$breaks)), add=TRUE, lwd=2, lty=2, col="Red")
h <- hist(x.mixture, main="Mixture Sample", breaks=n.breaks, xlab="Value")
curve(dmixture(x, p, g)*n*mean(diff(h$breaks)), add=TRUE, lwd=2, lty=3, col="Green")

1
আমি বেশিরভাগ নম্পি এবং সাইকপাইতে কাজ করি। এই পরিমাপটি যদি কোনও পরিসংখ্যান পাইথন লাইব্রেরিতে পাওয়া যায় তবে আপনার কি ধারণা আছে? এটি অনুসন্ধান করা কোনও প্রাসঙ্গিক কিছু ফেরত দেয় না।
কেতন

এল ফাংশন সম্ভবত উপলব্ধ নয়, কারণ এটি সাধারণত দুই বা ততোধিক মাত্রার জন্য কোড করা হয়। অ্যালগরিদমটি সহজ, আপনি এখানে বাস্তবায়ন থেকে দেখতে পাচ্ছেন: সমস্ত স্বতন্ত্র জোড় ডেটার মধ্যে দূরত্বগুলির বংশগত সংগ্রহমূলক বিতরণ ফাংশনটি গণনা করুন এবং তারপরে যেমন দেখানো হয়েছে তেমনভাবে সামঞ্জস্য করুন Ripley.L
whuber

পরিমাপের ভেরিয়েন্স অজিনোস্টিক বা ভেরিয়েন্স নির্ভর?
কেতন

1
আমি এখানে বর্ণিত প্রাথমিক পদ্ধতিটি পরিসীমাটিকে অন্তর সাথে সামঞ্জস্য করতে ডেটাকে স্বাভাবিক করে তোলে । এটি হ'ল "ভেরিয়েন্স অগ্নিস্টিক"। তবে এটি এটি বিদেশীদের কাছে সংবেদনশীল করে তোলে। (এই সমস্যাটি উচ্চ মাত্রায় একটি গুরুতর সমস্যা হতে পারে)) কেউ এই পরিমাণ সীমাবদ্ধতা কাটিয়ে উঠতে পারে সাধারণভাবে, বলে, একটি পরিমাণের পরিসীমাতে (যেমন আইকিউআর) এবং 1 - ( 1 - ডি ) 2 সংশোধনের জন্য উপযুক্ত সমন্বয় করে এল ফাংশন। এটি ফলাফলের এল-ফাংশনটিকে ননপ্যারমেট্রিক এবং শক্তিশালী করে তুলবে যা আমি মনে করি আপনার মন্তব্যের পিছনে উদ্বেগের সমাধান করে। [0,1]1(1d)2
হুঁশিয়ারি

আপনি বলেছিলেন "উচ্চতর ক্ষেত্রে এই সমস্যাটি একটি গুরুতর সমস্যা হতে পারে"। এটি অবিচ্ছিন্ন অ্যারেগুলির জন্য মানিয়ে নেওয়া হয়েছে, তাই না? আমি পুরোপুরি নিশ্চিত নই যে আমি সবকিছু ভালভাবে বুঝতে পেরেছি কিনা। আপনি দয়া করে অন্য কোনও ভাষায় বা সিউডোকোডে রিপ্লে.এল লিখতে পারেন? অথবা আপনি কেবলমাত্র বিদ্যমান কোডটি কিছুটা মন্তব্য করতে পারেন বা রিপ্লে.এল ফর্ম্যাট করতে পারেন তার পাঠযোগ্যতা বাড়ানোর জন্য একাধিক লাইনে format Statsmodels.sourceforge.net/stable/generated/… এ কোনও সঠিক ডকুমেন্টেশনের অভাব, যাইহোক আমাকে খুব বেশি সহায়তা করছে না।
কেতন

5

আমি ধরে নিলাম যে আপনি ইউনিফর্মটির বিতরণ কতটা নিকটে পরিমাপ করতে চান want

আপনি ইউনিফর্ম বিতরণের ক্রম বন্টন ফাংশন এবং নমুনার অভিজ্ঞতামূলক সংশ্লেষ বিতরণ ফাংশনের মধ্যে দূরত্ব দেখতে পারেন।

আসুন অনুমান পরিবর্তনশীল সেটে সংজ্ঞায়িত করা হয় । তারপরে অভিন্ন বিতরণে সিডিএফ এফ ইউ ( এক্স ) দেওয়া হয়েছে{1,2,3,4,5}Fu(x)

Fu(x)=i=1[x]1/5.

X1,3,5X

FX(1)=1/3,FX(2)=1/3,FX(3)=2/3,FX(4)=2/3,FX(5)=1

Y1,1,5Y

FY(1)=2/3,FY(2)=2/3,FY(3)=2/3,FY(4)=2/3,FY(5)=1

এখন, বিতরণের মধ্যকার দূরত্বের পরিমাপ হিসাবে আসুন প্রতিটি বিন্দুতে দূরত্বের যোগফল নেওয়া যাক, অর্থাৎ

d(F,G)=i=15|F(x)G(x)|.

আপনি সহজেই জানতে পারবেন যে d(Fu,FX)<d(Fu,FY)

আরও জটিল ক্ষেত্রে আপনাকে উপরে ব্যবহৃত আদর্শটি সংশোধন করতে হবে, তবে মূল ধারণাটি একই থাকবে। আপনার যদি পরীক্ষার প্রক্রিয়া প্রয়োজন হয়, তবে নিয়মগুলি ব্যবহার করা ভাল হতে পারে যার জন্য পরীক্ষাগুলি বিকশিত হয় (যেগুলি @ টমমিংকা নির্দেশ করেছেন)।


ডিস্ট্রিবিউশনের দূরত্বের আরও কয়েকটি জনপ্রিয় ব্যবস্থা হ'ল কোলমোগোরভ – স্মিমনভ পরীক্ষা এবং অ্যান্ডারসন – ডার্লিং পরীক্ষা
টম মিনকা

ওহে. উত্তরের জন্য ধন্যবাদ. দয়া করে বিশৃঙ্খলার জন্য আপডেট হওয়া প্রশ্নটি আবার দেখুন এবং আপনার উত্তর এটিতে প্রযোজ্য কিনা তা আমাকে জানান। যদি হয়। আমি এটি যাচাই করতে হবে।
কেতন

হ্যাঁ, আমার উত্তর এটিতে প্রযোজ্য, যতক্ষণ না 'এমনকি' অর্থ 'অভিন্ন'।
asukasz Kidziński

ঠিক আছে. আপনি দয়া করে দয়া করে উত্তরটি কিছুটা ব্যাখ্যা করতে পারেন।
কেতন

@ টমমিংকার ধন্যবাদ, নিশ্চিতভাবেই এই নিয়মগুলি আরও ভাল, যেহেতু একটি পরীক্ষার পদ্ধতি তৈরি করা হয়েছে।
asukasz Kidziński

1

যদি আমি আপনার প্রশ্নটি সঠিকভাবে বুঝতে পারি তবে আপনার জন্য "সর্বাধিক এমনকি" বিতরণ এমন এক হবে যেখানে এলোমেলো পরিবর্তনশীল প্রতিটি পর্যবেক্ষণ করা মান একবারে এক অর্থে গ্রহণ করে। যদি একই মানে পর্যবেক্ষণগুলির "ক্লাস্টার" থাকে তবে তা অসম হবে। ধরে নিই আমরা স্বতন্ত্র পর্যবেক্ষণের কথা বলছি, সম্ভবত আপনি সম্ভাব্য ভর পয়েন্টগুলির মধ্যে সর্বোচ্চ পার্থক্য, সর্বাধিক পার্থক্য বা কতগুলি পর্যবেক্ষণের একটি নির্দিষ্ট প্রান্তিকের উপর "গড়" থেকে পার্থক্য রয়েছে উভয়ই দেখতে পাবেন।

যদি এটি পর্যবেক্ষণে সত্যই অভিন্ন হয়, সমস্ত প্রধান প্রধান পয়েন্টের সমান মান হওয়া উচিত, এবং সর্বোচ্চ এবং ন্যূনতমের মধ্যে পার্থক্য 0। গড় পার্থক্যটি 0 এর কাছাকাছি, আরও বেশি "এমনকি" পর্যবেক্ষণের পরিমাণ কম, কম সর্বাধিক পার্থক্য এবং কম "পিক" রয়েছে তা বোধগম্য পর্যবেক্ষণগুলি "এমনকি" কীভাবে তা দেখায়।

আপডেট অবশ্যই, আপনি অভিন্নতার জন্য চ-বর্গ পরীক্ষা ব্যবহার করতে পারেন বা একটি ইউনিফর্মের সাথে অভিজ্ঞতা অভিজ্ঞতা বিতরণ ফাংশন তুলনা করতে পারেন, তবে এই ক্ষেত্রে, পর্যবেক্ষণগুলির বিতরণ এখনও অবধি থাকা সত্ত্বেও আপনাকে পর্যবেক্ষণগুলিতে কোনও বড় "ফাঁক" দ্বারা দণ্ডিত করা হবে though "এমন কি".


সম্ভাব্য মানগুলির একটি প্রদত্ত সেটগুলির জন্য, আমি মূলত মডেল করতে চাই যে 'বিরল' বা 'উদ্ভট' এটির মানগুলির সেট থেকে কোনও নির্দিষ্ট মান হবে। অন্য কোনও বিকল্পের অভাবে, আমি মানগুলি সমান বা সমানভাবে বিতরণ করা হয় তা পরিমাপ করার চেষ্টা করছি। যত বেশি বিতরণ, সেট থেকে কোনও অদ্ভুত মান থাকার সম্ভাবনা তত কম। যদিও, উদাহরণস্বরূপ যদি সমস্ত ডেটা একটি বিতরণের চূড়ান্ত মধ্যে থাকে তবে যে কোনও মানই 'উদ্ভট' হিসাবে বিবেচিত হওয়ার উপযুক্ত কিছু হতে পারে। আমি আশা করি আপনি এটি পেয়েছেন?
কেতন

1

আপনি যে পরিমাপটির জন্য সন্ধান করছেন সেটিকে আনুষ্ঠানিকভাবে তাত্পর্য বলা হয় ।

এক-মাত্রিক সংস্করণটি নিম্নরূপ:

I=[a,b)x1,,xNI

JIA(J,N)J

A(J,N)=|{x1,,xN}J|,
and let V(J) denote the volume of J.

The discrepancy of the sequence x1,,xN is defined as

>DN=supJ|A(J,N)V(J)N|,
where the supremum is taken over all half-open subintervals J=j=1[0,tj), with 0tj1.

The discrepancy thus compares the actual number of points in a given volume with the expected number of points in that volume, assuming the sequence x1,,xN is uniformly distributed in I.

Low discrepancy sequences are often called quasirandom sequences.

A basic overview of low discrepancy sequences can be found here, and my blog post "The unreasonable effectiveness of quasirandom sequences" compares various methods when applied to Numerical Integration, mapping points to the surface of a sphere, and quasiperiodic tiling.


0

It sounds like you are interested in the pairwise differences of randomly observed values in a particular sequence, as in the case of modeling growth or trend. There are a number of ways to do so in time series analyses. A very basic approach is just a simple linear model regressing the sequence values upon their index values. In the first case, your linear model would give you a singular regression coefficient of 1 (predictive R2=1). In the later case, this would be a coefficient of 1.51 and an R2 of 0.78.


I don't know if I understood clearly enough what you meant, but I simply need to understand how 'evenly' something is distributed in a distribution. Variance is not that useful given that one can get the same variance and mean for two very differently distributed distributions.
Ketan

@Ketan, you changed your question substantially. Either way, I am not clear what that might be. In any regard, it's clear that my answer is not addressing what you are interested in based on the most recent version of your question.
AdamO

For a given set of possible values, I want to basically model how 'rare' or 'peculiar' it would be have a particular value from that set of values. In lack of any other options, I'm trying to measure how evenly or uniformly distributed the values are. The more even the distribution, the less chance there is to have any peculiar value from the set. Whereas, if for example all the data lies in the extremes of a distribution, any value can be something worthy to be considered as 'peculiar'. I hope you get it?
Ketan

No, sorry still not following. Just to verify, are you familiar with the formal definition of "uniformly" distributed data? A "normal" distribution, for example, is not uniform. Both are symmetric. You seem to allude to whether symmetry might be of interest, but then you seem to say that the probability of sampling "rare" values is of interest. For instance, a Cauchy distribution is symmetric, but is known to be an example of a distribution that will generate outliers as a probability model.
AdamO

Let me put it this way: Each set is simply the set of all values of a particular attribute in a dataset. I basically want to quantify each attribute by how 'stable' its values are, for which I've been using simple variance till now. But last night, I realized that exactly same variance and mean is possible for 2 attributes, even though one could be 'even', and other having most of the values in 2 extremes. Hence now I want an additional measure to measure if the values can be found evenly, or do they reside more in the extremes.
Ketan
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.