ইউনিট বৃত্ত এবং ইউনিট বর্গক্ষেত্রের মধ্যে দক্ষতার সাথে পয়েন্টগুলি তৈরি করুন

আমি এখানে বর্ণিত নীল অঞ্চল থেকে নমুনা তৈরি করতে চাই:

সাদাসিধা সমাধান ইউনিট স্কোয়ারে প্রত্যাখ্যান স্যাম্পলিং ব্যবহার করতে হয়, কিন্তু এই শুধুমাত্র একটি উপলব্ধ $1-\pi/4$ (~ 21.4%) দক্ষতা।

আমি আরও দক্ষতার সাথে নমুনা দেওয়ার কোন উপায় আছে?

— Cam.Davidson.Pilon
সূত্র

ইঙ্গিত : আপনার দক্ষতা দ্বিগুণ করার জন্য প্রতিসাম্য ব্যবহার করুন Use

— কার্ডিনাল

ওহ পছন্দ: মানটি যদি (0,0) হয় তবে এটি ম্যাপ করা যাবে (1,1)? আমি সেই ধারণাটি পছন্দ করি

— ক্যাম.ড্যাভিডসন.পিলন

@ কার্ডিনাল এটি দক্ষতা 4x করা উচিত নয়? আপনি নমুনা করতে পারেন

[0, \dots, 1] \times [0, \dots, 1]

$[0,\ldots,1] \times [0,\ldots,1]$ এবং তারপর জুড়ে x- অক্ষ, Y- অক্ষ এবং উৎপত্তি মিরর।

— মার্টিন ক্রিমার

@ মার্টিন: চারটি প্রতিসাম্য অঞ্চল জুড়ে আপনার ওভারল্যাপ হয়েছে, যা আপনাকে আরও সাবধানতার সাথে মোকাবেলা করতে হবে।

— কার্ডিনাল

@Martin: আমি বুঝতে করছি আপনি কি বর্ণনা করছি, যে দক্ষতা বাড়ে না এ সব । (আপনি একটি পয়েন্টটি খুঁজে পেয়েছেন এবং এখন তিনজনকে চেনেন --- একটি অঞ্চলে চারগুণ আকারে --- যা ইউনিট ডিস্কের মধ্যে সম্ভাব্যতার সাথে

কিনা তা নির্ধারণ করবে না বা করবে না

(x, y)

$(x,y)$ How কীভাবে এটি কী সহায়তা করে?) দক্ষতা বৃদ্ধির বিষয়টি হ'ল উত্পাদিত প্রতিটি

গ্রহণের সম্ভাবনা বাড়ানো

(x, y)

$(x,y)$ । আমিই কি ঘন হচ্ছে?

— কার্ডিনাল

উত্তর:

প্রতি সেকেন্ডে দুই মিলিয়ন পয়েন্ট কি করবে?

বিতরণটি প্রতিসম হয়: আমাদের কেবলমাত্র পুরো বৃত্তের এক-অষ্টমীর জন্য বিতরণ কাজ করা দরকার এবং তারপরে এটি অন্যান্য অক্টেন্টগুলির চারপাশে অনুলিপি করুন। মেরু স্থানাঙ্ক , কোণের ক্রমবর্ধমান বণ্টনের র্যান্ডম অবস্থানের জন্য মূল্য এ ত্রিভুজ মধ্যে এলাকায় দেওয়া হয় এবং বৃত্তের চাপটি থেকে প্রসারিত $(r,\theta)$ $\Theta$ $(X,Y)$ $\theta$ $(0,0), (1,0), (1,\tan\theta)$ থেকে । এটি এর সাথে আনুপাতিক $(1,0)$ $(\cos\theta,\sin\theta)$

F_{Θ} (θ) = Pr (Θ \leq θ) \propto \frac{1}{2} \tan (θ) - \frac{θ}{2},

$F_\Theta(\theta) = \Pr(\Theta \le \theta) \propto \frac{1}{2}\tan(\theta) - \frac{\theta}{2},$

যেহেতু এর ঘনত্ব

f_{Θ} (θ) = \frac{d}{d θ} F_{Θ} (θ) \propto \tan^{2} (θ) .

$f_\Theta(\theta) = \frac{d}{d\theta} F_\Theta(\theta) \propto \tan^2(\theta).$

আমরা এই ঘনত্ব থেকে নমুনা বলতে পারি, একটি প্রত্যাখ্যান পদ্ধতি (যা কার্যকারিতা ) ব্যবহার করে। $8/\pi-2 \approx 54.6479\%$

রশ্মীয় তুল্য এর শর্তাধীন ঘনত্ব সমানুপাতিক মধ্যে এবং । এটি সিডিএফের একটি সহজ বিপরীতে নমুনা তৈরি করা যেতে পারে। $R$ $rdr$ $r=1$ $r=\sec\theta$

যদি আমরা স্বতন্ত্র নমুনা উত্পন্ন কার্টেসিয়ান স্থানাঙ্কগুলিতে নমুনা এই অকট্যান্টটিতে ফিরে রূপান্তর । নমুনাগুলি স্বতন্ত্র হওয়ায়, স্থানাঙ্কগুলি এলোমেলোভাবে অদলবদল করা হলে ইচ্ছানুসারে প্রথম চতুর্ভুজ থেকে একটি স্বতন্ত্র এলোমেলো নমুনা তৈরি করে। (এলোমেলোভাবে অদলবদলের জন্য কতগুলি বাস্তবায়ন হবে তা নির্ধারণ করতে কেবল একটি একক দ্বিপদী পরিবর্তনশীল তৈরি করতে হবে)) $(r_i,\theta_i)$ $(x_i,y_i)$

প্রত্যেকটি ধরনের উপলব্ধি , প্রয়োজন গড়, এক অভিন্ন variate উপর (জন্য ) প্লাস বার দুই অভিন্ন (জন্য variates ) এবং (ফাস্ট) হিসাব অল্প পরিমাণ। এটা পয়েন্ট (যা, অবশ্যই, দুই স্থানাঙ্ক আছে) প্রতি variates। সম্পূর্ণ বিশদটি নীচের কোড উদাহরণে রয়েছে। এই চিত্রটি অর্ধ মিলিয়ন পয়েন্টের মধ্যে 10,000 টিরও বেশি প্লট করেছে। $(X,Y)$ $R$ $1/(8\pi-2)$ $\Theta$ $4/(\pi-4) \approx 4.66$

এই Rকোডটি এখানে এই সিমুলেশন তৈরি করেছে এবং এটি টাইম করেছে।

n.sim <- 1e6
x.time <- system.time({
  # Generate trial angles `theta`
  theta <- sqrt(runif(n.sim)) * pi/4
  # Rejection step.
  theta <- theta[runif(n.sim) * 4 * theta <= pi * tan(theta)^2]
  # Generate radial coordinates `r`.
  n <- length(theta)
  r <- sqrt(1 + runif(n) * tan(theta)^2)
  # Convert to Cartesian coordinates.
  # (The products will generate a full circle)
  x <- r * cos(theta) #* c(1,1,-1,-1)
  y <- r * sin(theta) #* c(1,-1,1,-1)
  # Swap approximately half the coordinates.
  k <- rbinom(1, n, 1/2)
  if (k > 0) {
    z <- y[1:k]
    y[1:k] <- x[1:k]
    x[1:k] <- z
  }
})
message(signif(x.time[3] * 1e6/n, 2), " seconds per million points.")
#
# Plot the result to confirm.
#
plot(c(0,1), c(0,1), type="n", bty="n", asp=1, xlab="x", ylab="y")
rect(-1, -1, 1, 1, col="White", border="#00000040")
m <- sample.int(n, min(n, 1e4))
points(x[m],y[m], pch=19, cex=1/2, col="#0000e010")

— whuber
সূত্র

আমি এই বাক্যটি বুঝতে পারি না: "যেহেতু নমুনাগুলি স্বতন্ত্র, পদ্ধতিগতভাবে প্রতি দ্বিতীয় নমুনা স্থানাঙ্কগুলিকে অদলবদল করে ইচ্ছামত প্রথম কোয়াড্রেন্ট থেকে একটি স্বতন্ত্র এলোমেলো নমুনা তৈরি করে" " এটি আমার কাছে মনে হয় যে নিয়মিতভাবে প্রতিটি দ্বিতীয় নমুনা স্থানাঙ্কগুলিকে অদলবদল করে অত্যন্ত নির্ভরশীল নমুনা তৈরি করে। উদাহরণস্বরূপ, আমার কাছে মনে হচ্ছে আপনার কোডটিতে প্রয়োগটি একই অকট্যান্ট থেকে এক সারি অর্ধ মিলিয়ন নমুনা উত্পন্ন করে?

— এ। রেক্স

কড়া কথায় বলতে গেলে এই পদ্ধতিটি বেশ কার্যকরভাবে কাজ করে না (আইআইডি পয়েন্টগুলির জন্য) যেহেতু এটি দুটি অক্টেন্টে অভিন্ন সংখ্যার নমুনা তৈরি করে: নমুনা পয়েন্টগুলি, সুতরাং নির্ভরশীল। এখন, আপনি যদি প্রতিটি নমুনার জন্য অক্ট্যান্ট নির্ধারণের জন্য পক্ষপাতহীন কয়েনগুলি ফ্লিপ করেন ...

— কার্ডিনাল

@ কার্ডিনাল আপনি সঠিক; আমি এটি সংশোধন করব - ছাড়াই (অ্যাসেম্পোটোটিকালি) উত্পন্ন করার জন্য এলোমেলো পরিবর্তনের সংখ্যা বাড়িয়ে তোলা!

— whuber

সীমাবদ্ধভাবে বলতে (এবং আবার কেবল খাঁটি তাত্ত্বিক অর্থে) সীমাবদ্ধ নমুনার ক্ষেত্রে, আপনার পরিবর্তনের জন্য কোনও অতিরিক্ত অভিন্ন র্যান্ডম পরিবর্তনের প্রয়োজন নেই । বুদ্ধিমান হতে: প্রথম অভিন্ন র্যান্ডম ভেরিয়েট থেকে, প্রথম

বিট থেকে উল্টানো ক্রমটি তৈরি করুন । তারপরে, উত্পাদিত প্রথম স্থানাঙ্ক হিসাবে বাকী (বার

) ব্যবহার করুন ।

n

$n$

2^{n}

$2^n$

— কার্ডিনাল

@ শি'আন আমি সুবিধাজনকভাবে গণনাযোগ্য বিপরীতটি পেতে সক্ষম হয়েছি। আমি আর্কসিন গণনা করার ব্যয়ে ঘনত্বের সমানুপাতিক

(দক্ষতা

) এর বিতরণ থেকে নমুনা প্রত্যাখ্যান করে কিছুটা আরও ভাল করতে পারি can ।

2 \sin (θ)^{2}

$2\sin(\theta)^2$

(4 - π) / (π - 2) \approx 75 %

$(4-\pi)/(\pi-2)\approx 75\%$

— হুবুহু

আমি নীচের সমাধানটির প্রস্তাব দিচ্ছি, এটি এখন পর্যন্ত @ কার্ডিনাল, @ হুইবার এবং @ স্টেফান-কোলাসার দ্বারা অন্যান্য আত্মার তুলনায় সহজ, আরও দক্ষ এবং / বা কম্পিউটেশনালি সস্তা হওয়া উচিত।

এটি নিম্নলিখিত সহজ পদক্ষেপ জড়িত:

1) দুটি স্ট্যান্ডার্ড ইউনিফর্ম নমুনা আঁকুন:

u_{1} \sim U n i f (0, 1) u_{2} \sim U n i f (0, 1) .

$u_1 \sim Unif(0,1)\\ u_2 \sim Unif(0,1).$

$\min\{u_1,u_2\}, \max\{u_1,u_2\}$

[\begin{matrix} x \\ y \end{matrix}] = [\begin{matrix} 1 \\ 1 \end{matrix}] + [\begin{matrix} \frac{\sqrt{2}}{2} & - 1 \\ \frac{\sqrt{2}}{2} - 1 & 0 \end{matrix}] [\begin{matrix} min {u_{1}, u_{2}} \\ max {u_{1}, u_{2}} \end{matrix}] .

$\begin{bmatrix} x\\y \end{bmatrix} = \begin{bmatrix} 1\\1 \end{bmatrix} + \begin{bmatrix} \frac{\sqrt{2}}{2} & -1\\ \frac{\sqrt{2}}{2} - 1 & 0\\ \end{bmatrix} \, \begin{bmatrix} \min\{u_1,u_2\}\\ \max\{u_1,u_2\}\\ \end{bmatrix}.$

2b) Swap $x$ and $y$ if $u_1 > u_2$ .

3) Reject the sample if inside the unit circle (acceptance should be around 72%), i.e.:

x^{2} + y^{2} < 1.

$x^2 + y^2 < 1.$

The intuition behind this algorithm is shown in the figure.

Steps 2a and 2b can be merged into a single step:

2) Apply shear transformation and swap

x = 1 + \frac{\sqrt{2}}{2} min (u_{1}, u_{2}) - u_{2} y = 1 + \frac{\sqrt{2}}{2} min (u_{1}, u_{2}) - u_{1}

$x = 1 + \frac{\sqrt{2}}{2} \min(u_1, u_2) - u_2\\ y = 1 + \frac{\sqrt{2}}{2} \min(u_1, u_2) - u_1$

The following code implements the algorithm above (and tests it using @whuber's code).

n.sim <- 1e6
x.time <- system.time({
    # Draw two standard uniform samples
    u_1 <- runif(n.sim)
    u_2 <- runif(n.sim)
    # Apply shear transformation and swap
    tmp <- 1 + sqrt(2)/2 * pmin(u_1, u_2)
    x <- tmp - u_2
    y <- tmp - u_1
    # Reject if inside circle
    accept <- x^2 + y^2 > 1
    x <- x[accept]
    y <- y[accept]
    n <- length(x)
})
message(signif(x.time[3] * 1e6/n, 2), " seconds per million points.")
#
# Plot the result to confirm.
#
plot(c(0,1), c(0,1), type="n", bty="n", asp=1, xlab="x", ylab="y")
rect(-1, -1, 1, 1, col="White", border="#00000040")
m <- sample.int(n, min(n, 1e4))
points(x[m],y[m], pch=19, cex=1/2, col="#0000e010")

Some quick tests yield the following results.

Algorithm /stats//a/258349 . Best of 3: 0.33 seconds per million points.

This algorithm. Best of 3: 0.18 seconds per million points.

— Luca Citi
সূত্র

+1 Very well done! Thank you for sharing a thoughtful, clever, and simple solution.

— whuber

Great idea! I was thinking about a mapping from the unit sq to this portion, but didn't think of an imperfect mapping and then a rejection scheme. Thanks for expanding my mind!

— Cam.Davidson.Pilon

Well, more efficiently can be done, but I sure hope you are not looking for faster.

The idea would be to sample an $x$ value first, with a density proportional to the length of the vertical blue slice above each $x$ value:

f (x) = 1 - \sqrt{1 - x^{2}} .

$f(x) = 1-\sqrt{1-x^2}.$

Wolfram helps you to integrate that:

\int_{0}^{x} f (y) d y = - \frac{1}{2} x \sqrt{1 - x^{2}} + x - \frac{1}{2} \arcsin x .

$\int_0^x f(y)dy = -\frac{1}{2}x\sqrt{1-x^2}+x-\frac{1}{2}\arcsin x.$

So the cumulative distribution function $F$ would be this expression, scaled to integrate to 1 (i.e., divided by $\int_0^1 f(y)dy$ ).

Now, to generate your $x$ value, pick a random number $t$ , uniformly distributed between $0$ and $1$ . Then find $x$ such that $F(x)=t$ . That is, we need to invert the CDF (inverse transform sampling). This can be done, but it's not easy. Nor fast.

Finally, given $x$ , pick a random $y$ that is uniformly distributed between $\sqrt{1-x^2}$ and $1$ .

Below is R code. Note that I am pre-evaluating the CDF at a grid of $x$ values, and even then this takes quite a few minutes.

You can probably speed the CDF inversion up quite a bit if you invest some thinking. Then again, thinking hurts. I personally would go for rejection sampling, which is faster and far less error-prone, unless I had very good reasons not to.

epsilon <- 1e-6
xx <- seq(0,1,by=epsilon)
x.cdf <- function(x) x-(x*sqrt(1-x^2)+asin(x))/2
xx.cdf <- x.cdf(xx)/x.cdf(1)

nn <- 1e4
rr <- matrix(nrow=nn,ncol=2)
set.seed(1)
pb <- winProgressBar(max=nn)
for ( ii in 1:nn ) {
    setWinProgressBar(pb,ii,paste(ii,"of",nn))
    x <- max(xx[xx.cdf<runif(1)])
    y <- runif(1,sqrt(1-x^2),1)
    rr[ii,] <- c(x,y)
}
close(pb)

plot(rr,pch=19,cex=.3,xlab="",ylab="")

— S. Kolassa - Reinstate Monica
সূত্র

I wonder if using Chebyshev polynomials to approximate the CDF would improve the evaluation speed.

— Sycorax says Reinstate Monica

@Sycorax, not without modifications; see e.g. the chebfun treatment of algebraic singularities at the endpoints.

— J. M. is not a statistician