আমি কীভাবে বিশ্লেষণ করে প্রমাণ করতে পারি যে এলোমেলোভাবে কোনও পরিমাণে বিভাজনের ফলে তাত্পর্যপূর্ণ বিতরণ হয় (যেমন আয় এবং সম্পদ)?


36

বিজ্ঞানের এই বর্তমান নিবন্ধে নিম্নলিখিত প্রস্তাব করা হচ্ছে:

মনে করুন আপনি এলোমেলোভাবে ১০,০০০ লোকের মধ্যে আয়ের 500 মিলিয়ন ভাগ করে নিন। প্রত্যেককে সমান, 50,000 ভাগ দেওয়ার একমাত্র উপায় রয়েছে। সুতরাং আপনি যদি এলোমেলোভাবে উপার্জন ডলার করেন তবে সমতা অত্যন্ত অসম্ভব। তবে কয়েকটি লোককে প্রচুর নগদ এবং অনেককে কিছু বা কিছু না দেওয়ার কয়েকটি উপায় রয়েছে। প্রকৃতপক্ষে, আপনি যে উপায়ে আয়কে ছাঁটাই করতে পারেন তার সমস্ত দিক দিয়ে, তাদের বেশিরভাগই আয়ের একটি তাত্পর্যপূর্ণ বিতরণ উত্পাদন করে।

আমি নিম্নলিখিত আর কোড দিয়ে এটি করেছি যা মনে হয় ফলাফলটিকে পুনরায় নিশ্চিত করে:

library(MASS)

w <- 500000000 #wealth
p <- 10000 #people

d <- diff(c(0,sort(runif(p-1,max=w)),w)) #wealth-distribution
h <- hist(d, col="red", main="Exponential decline", freq = FALSE, breaks = 45, xlim = c(0, quantile(d, 0.99)))

fit <- fitdistr(d,"exponential")
curve(dexp(x, rate = fit$estimate), col = "black", type="p", pch=16, add = TRUE)

এখানে চিত্র বর্ণনা লিখুন

আমার প্রশ্ন
আমি কীভাবে বিশ্লেষণ করে প্রমাণ করতে পারি যে ফলস্বরূপ বিতরণটি তাত্পর্যপূর্ণ?

যোগসূত্র
আপনার উত্তর এবং মন্তব্যের জন্য আপনাকে ধন্যবাদ। আমি সমস্যাটি সম্পর্কে চিন্তাভাবনা করেছি এবং নিম্নলিখিত স্বজ্ঞাত যুক্তি নিয়ে এসেছি। মূলত নিম্নলিখিতটি ঘটে থাকে (সাবধানতা: ওভারসিম্প্লিফিকেশন সামনে): আপনি ধরণের পরিমাণের সাথে এগিয়ে যান এবং একটি (পক্ষপাতদুষ্ট) মুদ্রা টস করেন। প্রতিবার আপনি যেমন মাথা পেতে আপনি পরিমাণ বিভক্ত। ফলস্বরূপ পার্টিশনগুলি বিতরণ করুন। পৃথক ক্ষেত্রে মুদ্রা টসিং দ্বিপদী বিতরণ অনুসরণ করে, পার্টিশনগুলি জ্যামিতিকভাবে বিতরণ করা হয়। অবিচ্ছিন্ন এনালগগুলি যথাক্রমে পোয়েসন বিতরণ এবং ঘনিষ্ঠভাবে বিতরণ! (একই যুক্তি দিয়ে এটি স্বজ্ঞাতভাবে পরিষ্কার হয়ে যায় যে জ্যামিতিক এবং তাত্পর্যপূর্ণ বিতরণে স্মৃতিহীনতার সম্পত্তি কেন - কারণ মুদ্রার কোনও স্মৃতি নেই)।


3
আপনি যদি একের পর এক টাকা দিয়ে দেন তবে তাদের সমানভাবে বিতরণ করার অনেকগুলি উপায় রয়েছে এবং প্রায় সমানভাবে বিতরণ করার জন্য আরও অনেকগুলি উপায় রয়েছে (যেমন একটি বিতরণ যা প্রায় স্বাভাবিক এবং গড় এবং 224 এর একটি আদর্শ বিচ্যুতি )50000224
হেনরি

@ হেনরি: আপনি দয়া করে এই পদ্ধতিটি আরও কিছুটা বর্ণনা করতে পারেন। বিশেষত "এক এক করে" বলতে কী বোঝ? সম্ভবত আপনি এমনকি আপনার কোড সরবরাহ করতে পারে। ধন্যবাদ.
ভনজড

vonjd: 500 মিলিয়ন কয়েন দিয়ে শুরু করুন। সমান সম্ভাবনা সহ 10 হাজার ব্যক্তির মধ্যে প্রতিটি কয়েন স্বাধীনভাবে এবং এলোমেলোভাবে বরাদ্দ করুন। প্রতিটি ব্যক্তি কয়টি মুদ্রা পায় তা যোগ করুন।
হেনরি

@ হেনরি: আসল বক্তব্যটি ছিল নগদ বিতরণের বেশিরভাগ উপায়ই একটি তাত্পর্যপূর্ণ বিতরণ দেয়। নগদ বিতরণ এর আচার-ব্যবহার ও কয়েন বিতরণ পথ যেহেতু শুধুমাত্র একটি উপায় বিতরণ করা হয়, isomorphic নয় $ 10,000 মানুষের মধ্যে অবিশেষে 500.000.000 (প্রতিটি দিতে $ 50,000) কিন্তু সেখানে 500.000.000! / ((50,000!) ^ 10,000) উপায় আছে 10,000 জনকে প্রত্যেককে 50,000 কয়েন বিতরণ করা।
সুপারক্যাট

1
@ হেনরি যে পরিস্থিতিতে আপনি উপরের মন্তব্যে বর্ণনা করেছেন, এটি শুরু থেকেই সেট করা হয়েছে যে প্রতিটি ব্যক্তির মুদ্রা পাওয়ার সমান সম্ভাবনা রয়েছে। এই শর্তটি কার্যকরভাবে সাধারণ বিতরণকে একটি বিশাল ওজন নির্ধারণ করে, কয়েনগুলি বিতরণের বিভিন্ন উপায়ের সমান বিবেচনা না করে।
হিগগ্যাসেস

উত্তর:


27

সমস্যাটিকে সহজতর করতে, আসুন সেই ক্ষেত্রে বিবেচনা করুন যেখানে প্রতিটি ব্যক্তির ভাগের অনুমোদিত মানগুলি পৃথক, যেমন, পূর্ণসংখ্যা হয়। সমানভাবে, কেউ "আয়ের অক্ষ "টিকে সমান ব্যবধানের ব্যবধানে বিভক্ত করতে এবং মধ্যবিন্দু দ্বারা প্রদত্ত ব্যবধানের মধ্যে পড়া সমস্ত মানকে প্রায় অনুমান করার কল্পনাও করতে পারেন।

হিসাবে মোট আয়ের বোঝাচ্ছেন , এক্স- এর হিসাবে s -th অনুমোদিত মান , N হিসাবে মোট লোকের সংখ্যা এবং অবশেষে, x s এর শেয়ার সহ লোকের সংখ্যা n এর হিসাবে নিম্নলিখিত শর্তগুলি সন্তুষ্ট করা উচিত: সি 1 ( { n s } ) s n s - N = 0 , এবং C 2 ( { n s } ) s n sXsxsNxsns

C1({ns})snsN=0,
C2({ns})snsxsX=0.

লক্ষ্য করুন যে ভাগ ভাগ করার বিভিন্ন উপায় একই বিতরণ উপস্থাপন করতে পারে। উদাহরণস্বরূপ, আমরা যদি দু'জনের মধ্যে $ 4 ভাগ করার বিষয়টি বিবেচনা করি তবে অ্যালিসকে $ 3 এবং ববকে 1 ডলার এবং তদ্বিপরীত উভয়ই অভিন্ন বন্টন দেবে। বিভাগটি এলোমেলো হওয়ার কারণে, ভাগকে ভাগ করে নেওয়ার সর্বাধিক সংখ্যক সাথে সম্পর্কিত বিতরণটি হওয়ার সবচেয়ে ভাল সুযোগ রয়েছে।

এই জাতীয় বিতরণ পেতে, একজনকে সর্বোচ্চ দুই সীমাবদ্ধতার অধীনে উপরে দেওয়া। ল্যাংরেঞ্জ মাল্টিপ্লায়ার্সের পদ্ধতি এটির জন্য একটি প্রচলিত পদ্ধতি। তদ্ব্যতীত,ডাব্লুনিজেইপরিবর্তেlnW এরসাথে কাজ করা চয়ন করতে পারেন, কারণ "এলএন" একটি একরঙা ক্রমবর্ধমান ফাংশন। যে, lnডাব্লু

W({ns})N!sns!,
lnWWln যেখানেλ1,2হ'লল্যাঞ্জরেঞ্জের গুণক। লক্ষ্য করুন যেস্টার্লিংয়ের সূত্রঅনুসারে, lnn! Lnlnn-n,dlnn এর দিকে অগ্রণী !
lnWns=λ1C1ns+λ2C1ns=λ1+λ2xs,
λ1,2
lnn!nlnnn,
সুতরাং, lnডাব্লু
dlnn!dnlnn.
এরপরে এটি অনুসরণ করে যে এনএসএক্সপ্রেস(-λ1-λ2এক্সএস)
lnWnslnns.
যা একটি সূচকীয় বণ্টনের হয়। সীমাবদ্ধতা ব্যবহার করে কেউ ল্যাঞ্জরেঞ্জের গুণকগুলি পেতে পারে। প্রথম বাধা থেকে, এন
nsexp(λ1λ2xs),
যেখানেΔxহল অনুমোদিত মানগুলির মধ্যে ব্যবধান। একইভাবে, এক্স
N=snssexp(λ1λ2xs)1Δx0exp(λ1λ2x)dx=1λ2Δxexp(λ1),
Δx অতএব, আমাদের এক্সপ্রেস(-λ1)=এন2Δx রয়েছে
X=snsxssxsexp(λ1λ2xs)1Δx0xexp(λ1λ2x)dx=1λ22Δxexp(λ1).
এবং λ2=এন
exp(λ1)=N2ΔxX,
λ2=NX.
lnWλ1C1λ2C2C1,2nslnW
2lnWns2=1ns<0,
and
2lnWnsnr=0(sr).
Hence the Hessian is concave, and what we have found is indeed a maximum.

The function W({ns}) is really the distribution of distributions. For distributions we typically observe to be close to the most probable one, W({ns}) should be narrow enough. It is seen from the Hessian that this condition amounts to ns1. (It is also the condition that Stirling's formula is reliable.) Therefore, to actually see the exponential distribution, partitions in the income axis (corresponding to bins in OP's histogram) should be wide enough so that number of people in a partition is much greater than unity. Towards the tail, where ns tends to zero, this condition is always destined to fail.

Note: This is exactly how physicists understand the Boltzmann distribution in statistical mechanics. The exponential distribution is essentially exact for this case, as we consider N1023.


1
Thank you, please have a look at Glen_b's answer. Is this consistent with your answer?
vonjd

2
@vonjd You're welcome! I think that his answer is consistent with mine. To me it seems that he is making an analogy to the Poisson process in the following sense: Consider a Poisson process with the "average time interval" of 50,000, and count 10,000 events. Then, on average, the "total time interval" is 50,000 x 10,000 = 500 million.
higgsss

2
@vonjd I updated my answer. Most notably, I added the discussion on the condition that the distribution we typically observe is something close to the most probable distribution.
higgsss

2
When considering discrete cases, would it be helpful to observe that T things can be divided among N people ((N+T-1) choose (N-1)) ways? If the first person receives f things, the number of ways one can distribute the remainder is ((N+T-f-2) choose (N-2)); the sum of that for values of f from 0 to N is the total number of ways of distributing everything.
supercat

1
@supercat It looks like another way to derive the exponential distribution to me. Suppose that TN,f (we consider the values of f that are not close to the tail of the distribution). Then, (N+Tf2) choose (N2)=(N+Tf2)!/(N2)!/(Tf)! (N+Tf2)!/(Tf)!(Tf)N2TN2e(N2)f/T.
higgsss

17

In fact you can prove it's not actually exponential, almost trivially:

Compute the probability that a given share is greater than 500 million. Compare with the probability that an exponential random variable is greater than 500 million.

However, it's not too hard to see that for your uniform-gap example that it should be close to exponential.

Consider a Poisson process - where events occur at random over along some dimension. The number of events per unit of the interval has a Poisson distribution, and the gap between events is exponential.

If you take a fixed interval then the events in a Poisson process that fall within it are uniformly distributed in the interval. See here.

[However, note that because the interval is finite, you simply can't observe larger gaps than the interval length, and gaps nearly that large will be unlikely (consider, for example, in a unit interval - if you see gaps of 0.04 and 0.01, the next gap you see can't be bigger than 0.95).]

So apart from the effect of restricting attention to a fixed interval on the distribution of the gaps (which will reduce for large n, the number of points in the interval), you would expect those gaps to be exponentially distributed.

Now in your code, you're dividing the unit interval by placing uniforms and then finding the gaps in successive order statistics. Here the unit interval is not time or space but represents a dimension of money (imagine the money as 50000 million cents laid out end to end, and call the distance they cover the unit interval; except here we can have fractions of a cent); we lay down n marks, and that divides the interval into n+1 "shares". Because of the connection between the Poisson process and uniform points in an interval, the gaps in the order statistics of a uniform will tend to look exponential, as long as n is not too small.

More specifically, any gap that starts in the interval placed over the Poisson process has a chance to be "censored" (effectively, cut shorter than it would otherwise have been) by running into the end of the interval.

enter image description here

Longer gaps are more likely to do that than shorter ones, and more gaps in the interval means the average gap length must go down -- more short gaps. This tendency to be 'cut off' will tend to affect the distribution of longer gaps more than short ones (and there's no chance any gap limited to the interval will exceed the length of the interval -- so the distribution of gap size should decrease smoothly to zero at the size of the whole interval).

In the diagram, a longish interval at the end has been cut shorter, and a relatively shorter interval at the start is also shorter. These effects bias us away from exponentiality.

(The actual distribution of the gaps between n uniform order statistics is Beta(1,n). )

So we should see the distribution at large n look exponential in the small values, and then less exponential at the larger values, since the density at its largest values will drop off more quickly.

Here's a simulation of the distribution of gaps for n=2:

enter image description here

Not very exponential.

But for n=20, it starts to look pretty close; in fact as n grows large it will be well approximated by an exponential with mean 1n+1.

enter image description here

If that was actually exponential with mean 1/21, then exp(21x) would be uniform... but we can see it isn't, quite:

enter image description here

The non-uniformity in the low values there corresponds to large values of the gaps -- which we'd expect from teh above discussion, because the effect of the "cutting off" the Poisson process to a finite interval means we don't see the largest gaps. But as you take more and more values, that goes further out into the tail, and so the result starts to look more nearly uniform. At n=10000, the equivalent display would be harder to distinguish from uniform - the gaps (representing shares of the money) should be very close to exponentially distributed except at the very unlikely, very very largest values.


2
So just to understand you correctly: You are saying that it is not exponential?!? higgsss proves above that it is exponential!
vonjd

3
Let me quote my answer: (i) "you can prove it's not actually exponential" BUT (ii) for the uniform gaps you looked at "...it must be close to exponential" ... "as long as n is not too small." ... What's unclear?
Glen_b -Reinstate Monica

5
I outlined the (trivial, obvious) proof that it isn't actually exponential in my answer. higgss doesn't prove that it is exponential. That (excellent) answer is completely consistent with my statements. In it, higgsss proves that it will be approximately exponential: nsexp(λ1λ2xs)
Glen_b -Reinstate Monica

2
I think that this answer is a great way to look at the problem, and deserves more upvotes. Yet I'm afraid that how the analogy to the Poisson process works (e.g., what "time" corresponds to) may appear unclear. Would you be willing give some more details?
higgsss

3
@higgsss I've reworded slightly (removing reference to time), added a little detail and a link. I may add some more discussion later. If you have any specific suggestions, I'd be interested in improving my answer further.
Glen_b -Reinstate Monica

8

Let's suppose the money is infinitely divisible so we can deal with real numbers rather than integers.

Then the uniform distribution of t=500000000 partitioned across n=10000 individuals will give a marginal density for each individual

p(x)=n1t(1xt)n2
for 0xt, and a marginal cumulative probability for each individual of
P(Xx)=1(1xt)n1.

If you want to apply this then use the marginal distribution to allocate a random amount X to any of the individuals, then reduce t to tX and n to n1 and repeat. Note that when n=2, this would give each individual a uniform marginal distribution across the remaining amount, much as one might expect; when n=1 you give all the remaining money to the single remaining person.

These expressions are polynomial rather than exponential, but for large n you will probably find it hard to distinguish their effects from an exponential distribution with a parameter close to nt. The distribution is asymptotically exponential because (1ym)mexp(y) as m.


8

To say, "suppose you randomly divide 500 million in income among 10,000 people" is insufficiently specific to answer the question. There are many different random process that could be used to allocate a fixed amount of money to a fixed number of people, and each will have its own characteristics for the resulting distribution. Here are three generative processes I could think of, and the distributions of wealth each creates.

library(MASS)

w <- 500000000 #wealth
p <- 10000 #people

Method 1, posted by OP:

Choose 'p' numbers from [0,w) uniformly at random. Sort these. Append '0' to the front. Hand out dollar amounts represented by the differences between successive elements in this list.

d <- diff(c(0,sort(runif(p-1,max=w)),w)) #wealth-distribution
h <- hist(d, col="red", main="Exponential decline", freq = FALSE, breaks = 45,
     xlim = c(0, quantile(d, 0.99)))
fit <- fitdistr(d,"exponential")
curve(dexp(x, rate = fit$estimate), col = "black", type="p", 
      pch=16, add = TRUE)

uniform interval breaks

Method 2:

Chose 'p' numbers from [0, w) uniformly at random. Consider these 'weights', so 'w' doesn't actually matter at this stage. Normalize the weights. Hand out dollar amounts represented by the fraction of 'w' corresponding to each weight.

d <- runif(p,max=w) #weigh-distribution
d <- d/sum(d)*w #wealth-distribution
h <- hist(d, col="red", main="pretty uniform", freq = FALSE, breaks = 45, 
          xlim = c(0, quantile(d, 0.99)))

rescaled weights

Method 3:

Start with 'p' 0s. w times, add 1 to a one of them, selected uniformly at random.

d <- rep(0, p)
for( i in 1:5000000){ ## for-loops in R are terrible, but this gives the idea.
    k <- floor(runif(1, max=p)) + 1    
    d[k] = (d[k] + 1)
}
h <- hist(d, col="red", main="kinda normalish?", freq = FALSE, breaks = 45,
          xlim = c(0, quantile(d, 0.99)))

iterative dollars


4

Let me add something regarding your addendum.

In the continuous case, as pointed out by Glen_b and Henry, the exact PDF for the amount each person receives is

p(x)=N1X(1xX)N2,
where N is the number of people, and X is the total amount of money.

In the discrete case, assuming that there are M coins to distribute, the probability for a particular person to receive m coins is

p(m)=N1M+1j=0N3(1mMj)N2.
When MN, two cases agree with each other. For sufficiently large N and as long as we stay away from the tail, they look like exponential distributions.

In both cases, as we are sampling N times from this true probability distribution, there will be error associated with the finite sample size.

However, performing the error analysis does not seem to be straightforward because different samplings in this case are not independent. They have to sum up to the total amount, and how much the first person receives affects the probability distribution for the second person, and so on.

My previous answer does not suffer from this issue, but I think it would be helpful to see how it can be resolved in this approach.


3

Good theoretical analysis done by the upvoted answers. However, here's my simple, empirical view on why the distribution is exponential.

When you distribute the money randomly, let's consider you do it one-by-one. Let S be the original sum.

For the first man, you must choose a random amount between 0 and S. Thus, on average, you will choose S/2 and remain with S/2.

For the second man, you would choose randomly between 0 and, on average, S/2. Thus, on average, you'll choose S/4 and remain with S/4.

So, you would basically be splitting the sum in half each time (statistically speaking).

Although in a real-life example you will not have continuously halved values, this shows why one should expect the distribution to be exponential.


3
Your algorithm tens to give more money to the first person than to any of the others. There are other approaches which do not have this bias.
Henry

@Henry How else would you begin sharing the money? You must start with someone. And when you do, you have the whole amount in front of you. Giving him a random fraction literally means selecting at random from the entire sum. One cannot say that the assumption of having a "first man" is wrong, because otherwise the one who shares the money would simply divide the sum by the number of men since he knows in advance how many people there are. That's just my point of view: when you say you split the money "randomly", there will simply be one man getting more money
Bogdan Alexandru

Bogdan Alexandru: My algorithm (another answer) has the feature that the distribution for each individual is the same no matter whether they are chosen first, in the middle or last. It also corresponds to a uniform density across the space constrained by the total amount being allocated.
Henry
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.