ঘনত্ব নির্ধারণের পদ্ধতির নাম কী যেখানে সাধারণ মিশ্রণ বিতরণ তৈরি করতে সমস্ত সম্ভাব্য জোড়া ব্যবহার করা হয়?


12

আমি মাত্র একটি মাত্রিক ঘনত্বের প্রাক্কলন তৈরির ঝরঝরে (অগত্যা ভাল নয়) উপায় সম্পর্কে চিন্তা করেছি এবং আমার প্রশ্নটি হ'ল:

এই ঘনত্ব অনুমান পদ্ধতির একটি নাম আছে? তা না হলে সাহিত্যে কি এটি অন্য কোনও পদ্ধতির বিশেষ ঘটনা?

আমরা একটি ভেক্টর আছে: এখানে পদ্ধতি যা আমরা ধরে নিই সেগুলি অনুমান করতে চাই এমন কিছু অজানা বিতরণ থেকে আঁকা। এটি করার একটি উপায় হ'ল এক্সে এবং প্রতিটি জোড়ার জন্য সমস্ত সম্ভাব্য জোড় মান নেওয়া [ x i , x j ] i j সর্বাধিক সম্ভাবনা ব্যবহার করে একটি সাধারণ বিতরণ মাপসই। ফলাফলের ঘনত্বের প্রাক্কলনটি হ'ল মিশ্রণ বিতরণ যা সমস্ত ফলাফল প্রাপ্ত সাধারণকে নিয়ে থাকে, যেখানে প্রতিটি সাধারণকে সমান ওজন দেওয়া হয়।X=[x1,x2,...,xn]X[xi,xj]ij

নীচের চিত্রটি ভেক্টরটিতে এই পদ্ধতিটি ব্যবহার করে চিত্রিত করে । এখানে চেনাশোনাগুলি ডেটাপয়েন্ট রয়েছে, রঙিন নরমালগুলি প্রতিটি সম্ভাব্য জোড় ব্যবহার করে অনুমান করা হয় সর্বোচ্চ সম্ভাবনা বিতরণ এবং ঘন কালো রেখার ফলে ঘনত্বের অনুমান (যা মিশ্রণ বিতরণ) প্রদর্শিত হয়।[1.3,0.15,0.73,1.4]

এখানে চিত্র বর্ণনা লিখুন

যাইহোক, আর-তে এমন একটি পদ্ধতি প্রয়োগ করা সহজ যা ফলস্বরূপ মিশ্রণ বিতরণ থেকে একটি নমুনা এনে দেয়:

# Generating some "data"
x <- rnorm(30)

# Drawing from the density estimate using the method described above.
density_estimate_sample <- replicate(9999, {
  pair <- sample(x, size = 2)
  rnorm(1, mean(pair), sd(pair))
})

# Plotting the density estimate compared with 
# the "data" and the "true" density.
hist(x ,xlim=c(-5, 5), main='The "data"')
hist(density_estimate_sample, xlim=c(-5, 5), main='Estimated density')
hist(rnorm(9999), xlim=c(-5, 5), main='The "true" density')

এখানে চিত্র বর্ণনা লিখুন


5
আপনার পদ্ধতিটি ব্যবহার করে দেখুনx <- c(rnorm(30), rnorm(30, 10))
ডেসন

2
@ ডেসন ইয়েপ, সেক্ষেত্রে পদ্ধতিটি মোটেই কার্যকর হয় না! :) এছাড়াও এটি বড় এন দিয়ে রূপান্তর করে না।
রাসমুস বুথ

4
এটি কার্নেল ঘনত্বের অনুমানের একটি দূষিত সংস্করণের মতো শোনাচ্ছে যেখানে ব্যান্ডউইথটি ক্রস-বৈধকরণের দ্বারা অনুমান করা হয়!
শি'আন

X=[x1,x2,,xn]n

উত্তর:


6

এটি একটি উদ্বেগজনক ধারণা, কারণ স্ট্যান্ডার্ড বিচ্যুতিটির প্রাক্কলনকারী সাধারণত মূল-গড়-বর্গের পদ্ধতির তুলনায় বহিরাগতদের কাছে কম সংবেদনশীল বলে মনে হয়। তবে আমি সন্দেহ করি যে এই অনুমানটি প্রকাশিত হয়েছে। তিনটি কারণ রয়েছে: এটি গণনামূলকভাবে অদক্ষ, এটি পক্ষপাতদুষ্ট এবং এমনকি যখন পক্ষপাত সংশোধন করা হয়, তখন এটি পরিসংখ্যানগতভাবে অক্ষম (তবে কেবলমাত্র সামান্য)। এগুলি একটি প্রাথমিক প্রাথমিক বিশ্লেষণের সাথে দেখা যায়, তাই আসুন প্রথমে এটি করা যাক এবং তারপরে সিদ্ধান্তগুলি আঁকুন।

বিশ্লেষণ

μσ(xi,xj)

μ^(xi,xj)=xi+xj2

এবং

σ^(xi,xj)=|xixj|2.

সুতরাং প্রশ্নে বর্ণিত পদ্ধতিটি হ'ল

μ^(x1,x2,,xn)=2n(n1)i>jxi+xj2=1ni=1nxi,

যা গড়ের স্বাভাবিক অনুমানকারী এবং

σ^(x1,x2,,xn)=2n(n1)i>j|xixj|2=1n(n1)i,j|xixj|.

E=E(|xixj|)ij

E(σ^(x1,x2,,xn))=1n(n1)i,jE(|xixj|)=E.

xixj2σ22σχ(1)2/π

E=2πσ.

2/π1.128

σ^

উপসংহার

  1. σ^n=20,000

    ব্যক্তিত্ব

  2. i,j|xixj|O(n2)O(n)n10,000R। (অন্যান্য প্ল্যাটফর্মে র্যামের প্রয়োজনীয়তা খুব কম হবে, সম্ভবত গণনার সময় সামান্য ব্যয়ে))

  3. এটি পরিসংখ্যানগতভাবে অদক্ষ। এটিকে সর্বোত্তম প্রদর্শনের জন্য, আসুন নিরপেক্ষ সংস্করণটি বিবেচনা করুন এবং একে সর্বনিম্ন স্কোয়ার বা সর্বাধিক সম্ভাবনা অনুমানকারকের নিরপেক্ষ সংস্করণটির সাথে তুলনা করুন

    σ^OLS=(1n1i=1n(xiμ^)2)(n1)Γ((n1)/2)2Γ(n/2).

    Rn=3n=300σ^OLSσ

পরে

σ^


কোড

sigma <- function(x) sum(abs(outer(x, x, '-'))) / (2*choose(length(x), 2))
#
# sigma is biased.
#
y <- rnorm(1e3) # Don't exceed 2E4 or so!
mu.hat <- mean(y)
sigma.hat <- sigma(y)

hist(y, freq=FALSE,
     main="Biased (dotted red) and Unbiased (solid blue) Versions of the Estimator",
     xlab=paste("Sample size of", length(y)))
curve(dnorm(x, mu.hat, sigma.hat), col="Red", lwd=2, lty=3, add=TRUE)
curve(dnorm(x, mu.hat, sqrt(pi/4)*sigma.hat), col="Blue", lwd=2, add=TRUE)
#
# The variance of sigma is too large.
#
N <- 1e4
n <- 10
y <- matrix(rnorm(n*N), nrow=n)
sigma.hat <- apply(y, 2, sigma) * sqrt(pi/4)
sigma.ols <- apply(y, 2, sd) / (sqrt(2/(n-1)) * exp(lgamma(n/2)-lgamma((n-1)/2)))

message("Mean of unbiased estimator is ", format(mean(sigma.hat), digits=4))
message("Mean of unbiased OLS estimator is ", format(mean(sigma.ols), digits=4))
message("Variance of unbiased estimator is ", format(var(sigma.hat), digits=4))
message("Variance of unbiased OLS estimator is ", format(var(sigma.ols), digits=4))
message("Efficiency is ", format(var(sigma.ols) / var(sigma.hat), digits=4))

প্রাসঙ্গিক সাহিত্যের কিছুটা সময় ফিরে যায় যেমন ডাউন্টন, এফ 1966 বহুবর্ষীয় সহগের সাথে লিনিয়ার অনুমান। বায়োমেটিকার 53: 129-141 doi: 10.1093 / বায়োমেট / 53.1-2.129
নিক কক্স

বাহ, আমার চেয়ে বেশি দর কষাকষি! :)
রাসমুস বুথ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.