দূরত্বের মধ্যে পার্থক্যের পরিসংখ্যানগত তাত্পর্য


12

আমার প্রায় দ্বি-মাত্রিক গ্রিডে প্রায় 3000 টির বেশি ভেক্টর রয়েছে, প্রায় একই ধরণের আলাদা আলাদা বিতরণ। কিছু জোড়া ভেক্টর একটি নির্দিষ্ট শর্ত পূরণ করে। দ্রষ্টব্য: শর্ত কেবল প্রযোজ্য জোড়া পৃথক ভেক্টর না, ভেক্টর। আমার প্রায় 1500 টির মতো জোড়াগুলির একটি তালিকা রয়েছে, আসুন একে গ্রুপ 1 বলুন Group গ্রুপ 2 এ অন্য সমস্ত ভেক্টর জোড়া রয়েছে। আমি জানতে চাই যে গ্রুপ 1 এর একটি জোড়ায় ভেক্টরগুলির মধ্যকার দূরত্ব দুটি ভেক্টরগুলির মধ্যে গড় দূরত্বের তুলনায় উল্লেখযোগ্য পরিমাণে কম কিনা। আমি এটা কিভাবে করবো?

পরিসংখ্যান পরীক্ষা : কেন্দ্রীয় সীমাবদ্ধতাটি কি আমার ক্ষেত্রে প্রযোজ্য? তা হল, আমি কি দূরত্বের নমুনার মাধ্যম নিতে পারি এবং শর্ত পূরণ না করে এমন নমুনাগুলির সাথে শর্তটি পূরণ করে এমন নমুনাগুলির সাথে তুলনা করতে শিক্ষার্থীর টি-টেস্ট ব্যবহার করতে পারি? অন্যথায়, এখানে কোন পরিসংখ্যান পরীক্ষা উপযুক্ত হবে?

নমুনা আকার এবং নমুনার সংখ্যা : আমি বুঝি দুটি ভেরিয়েবল এখানে আছেন যে, দুই দলের মধ্যে প্রত্যেকের জন্য আমি নেওয়া প্রয়োজন এন আকার নমুনা মি এবং নমুনার প্রতিটি গড় নিয়ে থাকেন। এন এবং এম বেছে নেওয়ার কোনও নীতিগত উপায় আছে কি ? তাদের যতটা সম্ভব বড় হওয়া উচিত? বা এগুলি যতটা সম্ভব সামান্য হওয়া উচিত, যতক্ষণ তারা পরিসংখ্যানের তাত্পর্য দেখায়? দুটি গ্রুপের জন্য কি তাদের এক হওয়া উচিত? বা তাদের গ্রুপ 2 এর জন্য আরও বড় হওয়া উচিত, এতে আরও বেশ কয়েকটি ভেক্টর জোড়া রয়েছে?


1
সাধারণত লোকেরা তাদের ডেটা পয়েন্টের সুনির্দিষ্ট সীমানা রাখতে এত ভাগ্যবান হয় না - অন্যথায় সীমানা জটিল। এটি দূরত্বগুলির মধ্যে পারস্পরিক সম্পর্কের পাশাপাশি (ত্রিভুজ বৈষম্য দ্বারা তৈরি) গড় দূরত্বের নমুনা বন্টনের জন্য একটি বিশ্লেষণাত্মক অভিব্যক্তি বিকাশকে বাধা দেয়। সুতরাং তারা সাধারণত ডেটা থেকে পুনরায় মডেলিংয়ের মাধ্যমে গড় দূরত্বগুলির নমুনা বিতরণগুলি অনুমান করে।
whuber

@whuber আমি নিশ্চিত যদি আমি আপনি সঠিকভাবে বুঝতে আপনি ইঙ্গিত করা হয় যে, আমি নিতে এসেছি এন দুই দলের প্রতিটি নমুনা, এবং যারা নমুনার মাধ্যমে তুলনা করার t-test এর ব্যবহার? আমি আমার প্রশ্নটি সম্পাদনা করেছি, আমি আশা করি এটি আরও পরিষ্কার হয়ে যাবে।
মিচাউ

উত্তর:


14

"উল্লেখযোগ্যভাবে" প্রশ্ন সর্বদা পৃথক, সর্বদা ডেটাগুলির জন্য একটি পরিসংখ্যানের মডেলকে প্রস্তাব দেয়। এই উত্তরটি এমন একটি সর্বাধিক সাধারণ মডেলের প্রস্তাব দেয় যা প্রশ্নের ন্যূনতম তথ্যের সাথে সামঞ্জস্যপূর্ণ। সংক্ষেপে, এটি বিস্তৃত বিভিন্ন ক্ষেত্রে কাজ করবে তবে কোনও পার্থক্য সনাক্ত করার জন্য এটি সর্বদা সবচেয়ে শক্তিশালী উপায় নাও হতে পারে।

তথ্যের তিনটি দিক সত্যই গুরুত্বপূর্ণ: পয়েন্ট দ্বারা দখল করা স্থানের আকৃতি; যে স্থান মধ্যে পয়েন্ট বিতরণ; এবং গ্রাফটি "শর্ত "যুক্ত পয়েন্ট-জোয়ার দ্বারা গঠিত - যা আমি" চিকিত্সা "গ্রুপ বলব। "গ্রাফ" বলতে আমার অর্থ চিকিত্সা গোষ্ঠীর পয়েন্ট-জোড় দ্বারা সূচিত পয়েন্ট এবং আন্তঃসংযোগগুলির প্যাটার্ন। উদাহরণস্বরূপ, গ্রাফের দশটি পয়েন্ট-জুড়ি ("প্রান্তগুলি") 20 টি স্বতন্ত্র পয়েন্ট বা পাঁচটি পয়েন্ট হিসাবে কম জড়িত থাকতে পারে। পূর্ববর্তী ক্ষেত্রে কোনও দুটি প্রান্ত একটি সাধারণ বিন্দু ভাগ করে না, তবে পরবর্তী ক্ষেত্রে প্রান্তগুলি পাঁচটি পয়েন্টের মধ্যে সমস্ত সম্ভাব্য জোড়া নিয়ে গঠিত।

n=3000σ(vi,vj)(vσ(i),vσ(j))3000!1021024একাধিক বিন্যাসন। যদি তা হয় তবে এর গড় দূরত্বটি সেই অনুমানের মধ্যে উপস্থিত দূরত্বের সাথে তুলনীয় হওয়া উচিত। এই সমস্ত অনুমতিগুলির কয়েক হাজার নমুনা তৈরি করে আমরা এলোমেলো গড় দূরত্বগুলির বিতরণটি খুব সহজেই অনুমান করতে পারি।

(এটি লক্ষণীয় যে এই পন্থাটি কেবলমাত্র সামান্য পরিবর্তনগুলি সহ, যে কোনও দূরত্ব বা প্রকৃতপক্ষে প্রতিটি সম্ভাব্য পয়েন্ট জোড়ার সাথে যুক্ত যে কোনও পরিমাণের সাথে কাজ করবে It এটি কেবলমাত্র দূরত্বের কোনও সংক্ষিপ্তসার জন্যও কাজ করবে।)


n=1002810010013928

10028

চিত্র 1

10000

স্যাম্পলিং বিতরণগুলি পৃথক: যদিও গড় গড় দূরত্ব একই হয় তবে কিনারাগুলির মধ্যে গ্রাফিকাল আন্তঃনির্ভরতার কারণে গড় দূরত্বের পার্থক্য দ্বিতীয় ক্ষেত্রে বেশি হয় এটি একটি কারণ যা কেন্দ্রীয় সীমাবদ্ধ উপপাদ্যের কোনও সাধারণ সংস্করণ ব্যবহার করা যায় না: এই বিতরণের মানক বিচ্যুতি গণনা করা কঠিন।

n=30001500

চিত্র ২

56

সাধারণত, সিমুলেশন এবং চিকিত্সা গ্রুপ যেগুলি চিকিত্সা গ্রুপের গড় দূরত্বের চেয়ে সমান বা তার চেয়ে বেশি উভয় থেকে মধ্যবর্তী দূরত্বের অনুপাত এই ননপ্যারমেট্রিক ক্রমায়ন পরীক্ষার পি-মান হিসাবে নেওয়া যেতে পারে


এই Rকনটেন্ট কপিরাইট আইনে পূর্বানুমতি তৈরি করতে ব্যবহার করা কোড।

n.vectors <- 3000
n.condition <- 1500
d <- 2              # Dimension of the space
n.sim <- 1e4        # Number of iterations
set.seed(17)
par(mfrow=c(2, 2))
#
# Construct a dataset like the actual one.
#
# `m` indexes the pairs of vectors with a "condition."
# `x` contains the coordinates of all vectors.
x <- matrix(runif(d*n.vectors), nrow=d)
x <- x[, order(x[1, ]+x[2, ])]
#
# Create two kinds of conditions and analyze each.
#
for (independent in c(TRUE, FALSE)) {
  if (independent) {
    i <- sample.int(n.vectors, n.condition)
    j <- sample.int(n.vectors-1, n.condition)
    j <- (i + j - 1) %% n.condition + 1
    m <- cbind(i,j)
  } else {
    u <- floor(sqrt(2*n.condition))
    v <- ceiling(2*n.condition/u)
    m <- as.matrix(expand.grid(1:u, 1:v))
    m <- m[m[,1] < m[,2], ]
  }
  #
  # Plot the configuration.
  #
  plot(t(x), pch=19, cex=0.5, col="Gray", asp=1, bty="n",
       main="The Data", xlab="X", ylab="Y",
       sub=paste(length(unique(as.vector(m))), "points"))
  invisible(apply(m, 1, function(i) lines(t(x[, i]), col="#80000040")))
  points(t(x[, unique(as.vector(m))]), pch=16, col="Red", cex=0.6)
  #
  # Precompute all distances between all points.
  #
  distances <- sapply(1:n.vectors, function(i) sqrt(colSums((x-x[,i])^2)))
  #
  # Compute the mean distance in any set of pairs.
  #
  mean.distance <- function(m, distances)
    mean(distances[m])
  #
  # Sample from the points using the same *pattern* in the "condition."
  # `m` is a two-column array pairing indexes between 1 and `n` inclusive.
  sample.graph <- function(m, n) {
    n.permuted <- sample.int(n, n)
    cbind(n.permuted[m[,1]], n.permuted[m[,2]])
  }
  #
  # Simulate the sampling distribution of mean distances for randomly chosen
  # subsets of a specified size.
  #
  system.time(
    sim <- replicate(n.sim, mean.distance(sample.graph(m, n.vectors), distances))
  stat <- mean.distance(m, distances)
  p.value <- 2 * min(mean(c(sim, stat) <= stat), mean(c(sim, stat) >= stat))

  hist(sim, freq=FALSE, 
       sub=paste("p-value:", signif(p.value, ceiling(log10(length(sim))/2)+1)),
       main="Histogram of mean distances", xlab="Distance")
  abline(v = stat, lwd=2, lty=3, col="Red")
}

অনেক ধন্যবাদ! এটাই আমি খুঁজছিলাম। তবে আপনি কী পি-ভ্যালু গণনা করা উচিত তা স্পষ্ট করতে আপত্তি করবেন? আমি "সংকলন এবং চিকিত্সা গ্রুপের গড় দূরত্বের চেয়ে সমান বা তার চেয়ে বেশি যে চিকিত্সা গ্রুপের মধ্য থেকে দূরত্বের অনুপাত" বুঝতে পারি না। আপনি দুটি গড় দূরত্বের অনুপাতের বিষয়ে কথা বলছেন এবং তার মধ্যে একটি হ'ল চিকিত্সা গোষ্ঠীর মধ্যবর্তী দূরত্বের সমান বা তার চেয়ে বড় চিকিত্সা গোষ্ঠী থেকে [...] দূরত্ব "ces আমি বিভ্রান্ত, এটি টোটোলজির মতো শোনাচ্ছে। আপনি কি আরও সূত্র বা আর কোড লিখতে পারছেন এটি পরিষ্কার করার জন্য?
মিচাউ

যাই হোক না কেন, এটি প্রমাণিত হয়েছে যে আমার কেসটি আপনার দ্বিতীয় উদাহরণের মতো mean পার্থক্য পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ। আমি এখন যে সমস্যার সাথে লড়াই করছি তা হ'ল পি-মানটির অনুমান। প্রকৃতপক্ষে, নির্ধারনের মোটামুটি বৃহত নমুনা (10000) থাকা সত্ত্বেও ব্যতিক্রম ছাড়া সমস্ত উপায় মোটামুটি সংকীর্ণ ব্যবধানে রয়েছে, আসুন [21, 23] বলুন। এটি কি আমি পি-মানটি অনুমান করার জন্য ব্যবহার করতে পারি?
মিচাউ

1
ঠিক আছে, আমি এখন মন্টি কার্লো ক্রমশক্তি পরীক্ষা সম্পর্কে কিছুটা পড়েছি। আমার উপলব্ধি অনুসারে: যদি আমি চেষ্টা করেছি যে 10000 ক্রম ব্যবহারের চেষ্টা করা হয়েছে চিকিত্সার গোষ্ঠীর চেয়ে উচ্চতর হয়, আমি এই সিদ্ধান্ত নিতে পারি যে পি <0.0001। এটা কি এত সহজ?
মিচাউ

1
হ্যাঁ, এটি এতই সহজ! আমি একটি দ্বি-পুচ্ছ পি-মান গণনা এবং প্রদর্শনের জন্য শেষে কোড যুক্ত করেছি (যা আপনার অবস্থার জন্য যথাযথভাবে উপযুক্ত)। এক-লেজযুক্ত পি-মানের জন্য, হয় mean(c(sim, stat) <= stat)বা mean(c(sim, stat) >= stat)যথাযথ হিসাবে ব্যবহার করুন ।
whuber

গ্রেট! এক-লেজযুক্ত পরীক্ষার পরিস্থিতি এখন পুরোপুরি স্পষ্ট, তবে আমি এখনও দুটি-লেজযুক্ত পরীক্ষাটি বুঝতে পারি না, বিশেষত ২ দ্বারা গুণফল If এর অর্থ হল যে 12 এবং 32 উভয়ই 99.99% আত্মবিশ্বাসের ব্যবধানের বাইরে, যা পি <0.0001 এর সাথে মিলে যায়? আমি কি কেবল দূরত্বে যে statদু'দিক দিয়ে বিতরণের মাঝখানে থেকে দূরত্বে গণনা করব ? কিছু একটা p.value <- mean(abs(c(sim, stat)-mean(sim)) >= abs(stat-mean(sim)))
মিচাউ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.