স্বজ্ঞাতভাবে বুঝুন কেন পইসন বিতরণ দ্বিপদী বিতরণের সীমিত ক্ষেত্রে the


14

ডিএস সিভিয়ার "ডেটা অ্যানালাইসিস" -তে, দ্বিপদী বিতরণ থেকে পইসন বিতরণটির একটি উত্স রয়েছে।

তারা যুক্তি দেয় যে পয়েসন বিতরণ দ্বিপদী বিতরণের সীমাবদ্ধ ক্ষেত্রে যখন M , যেখানে M পরীক্ষার সংখ্যা।

প্রশ্ন 1: কীভাবে সেই যুক্তিটি স্বজ্ঞাতভাবে বোঝা যাবে?

প্রশ্ন 2 কেন large- হয় M সীমা এম এন এরM!N!(MN)! সমানMNN!যেখানেNসফলতাগুলি সংখ্যাMবিচারের? (এই পদক্ষেপটি ডেরাইভেশনে ব্যবহৃত হয়))


উত্তর:


5

আমি একটি সহজ স্বজ্ঞাত ব্যাখ্যা চেষ্টা করব। রেকর্ড করে একটি দ্বিপদ দৈব চলক জন্য আমরা প্রত্যাশা করা হয় এন পি এবং ভ্যারিয়েন্স হয়XBin(n,p)np । এখন মনে করেন যে, এক্স খুব বড় সংখ্যা ঘটনা সংখ্যা রেকর্ড এন বিচারের, একটি খুব ছোট সম্ভাব্যতা সঙ্গে প্রতিটি পি , এই ধরনের যে আমরা খুব কাছাকাছি 1 - পি = 1 (সত্যিই )। তারপরে আমাদের এন পি = λ রয়েছে λnp(1p)Xnp1p=1np=λবলুন, এবং , তাই গড় এবং ভ্যারিয়েন্স উভয় সমান λ । তারপরে মনে রাখবেন যে পিসন বিতরণ করা এলোমেলো পরিবর্তনশীল, আমাদের সর্বদা গড় এবং বৈকল্পিক সমান হয়! এটি পিসন আনুমানিকের জন্য অন্তত একটি প্রশংসনীয় যুক্তি, তবে কোনও প্রমাণ নয়।np(1p)np1=λλ

তারপরে অন্য দৃষ্টিকোণ থেকে এটি দেখুন, রিয়েল লাইনে পোইসন পয়েন্ট প্রক্রিয়া https://en.wikedia.org/wiki/Poisson_Point_process । এটি লাইনটিতে র্যান্ডম পয়েন্টগুলির বিতরণ যা আমরা পাই যদি নিয়ম অনুসারে র্যান্ডম পয়েন্টগুলি ঘটে:

  1. বিরক্তি বিরতিতে পয়েন্টগুলি স্বাধীন
  2. খুব সংক্ষিপ্ত বিরতিতে এলোমেলো পয়েন্টের সম্ভাবনা অন্তরালের দৈর্ঘ্যের সমানুপাতিক
  3. খুব স্বল্প বিরতিতে দুই বা ততোধিক পয়েন্টের সম্ভাবনা মূলত শূন্য।

তারপর একটি প্রদত্ত অন্তর (অগত্যা সংক্ষিপ্ত নয়) বিন্দুর সংখ্যা বিতরণের পইসন (প্যারামিটার সাথে আছেন দৈর্ঘ্য সমানুপাতিক)। এখন, যদি আমরা এই ব্যবধানটিকে অনেকগুলি, সমানভাবে খুব সংক্ষিপ্ত subintervals ( n ) এ বিভক্ত করি তবে প্রদত্ত সাবিন্টেরালভায় দুটি বা ততোধিক পয়েন্টের সম্ভাবনা মূলত শূন্য হয়, সুতরাং সেই সংখ্যার খুব ভাল অনুমান, বার্নোলি বিতরণ, এটি, বিন ( 1 , পি ) , সুতরাং এই সমস্তটির যোগফল বিন ( এন , পি ) হবে , সুতরাং যে (দীর্ঘ) ব্যবধানে পয়েন্ট সংখ্যা নির্ধারণের বিতরণ একটি ভাল অনুমান।λnBin(1,p)Bin(n,p)

@ ইয়াতসেন ডি বোয়ার (ওপি) থেকে সম্পাদনা করুন : 2 নম্বর প্রশ্নের উত্তর সন্তুষ্টিজনকভাবে @ ইউকাস গ্র্যাডের দ্বারা দেওয়া হয়েছে।


6

আমাকে একটি বিকল্প হিউরিস্টিক সরবরাহ করুন। আমি কীভাবে পোইসন প্রক্রিয়াটিকে দ্বিপদী হিসাবে আনুমানিকভাবে প্রদর্শন করতে যাচ্ছি (এবং যুক্তি দিন যে কম সম্ভাবনার সাথে অনেকগুলি পরীক্ষার জন্য অনুমানটি আরও ভাল)। সুতরাং দ্বিপদী বিতরণ অবশ্যই পয়সন বিতরণের দিকে ঝোঁক।

আসুন বলি সময়ে সময়ে স্থিতিশীল হারের সাথে ইভেন্টগুলি ঘটছে। আমরা প্রত্যাশিত ইভেন্টের সংখ্যা knowing তা জেনে এক দিনে কতগুলি ঘটনা ঘটেছিল তার বিতরণ জানতে চাই λ

ভাল, প্রতি ঘন্টা প্রত্যাশিত ইভেন্টের সংখ্যা λ/24 । আসুন ভান করা যাক এর অর্থ এই যে একটি নির্দিষ্ট সময়ের মধ্যে ঘটে যাওয়া কোনও ঘটনার সম্ভাবনা λ/24 । [এটি একেবারেই সঠিক নয়, তবে λ / 24 1 হলে এটি একটি শালীন অনুমানλ/24«1 মূলত যদি আমরা ধরে নিতে পারি যে একাধিক ইভেন্ট একই ঘন্টার মধ্যে ঘটবে না) অনুমান। তারপরে আমরা এম=24 ট্রায়ালের দ্বিপদী হিসাবে ইভেন্টের সংখ্যার বন্টন আনুমানিক করতে পারি , যার প্রতিটি সাফল্যের সম্ভাবনা থাকে λ/24

আমরা আমাদের ব্যবধানটি কয়েক মিনিটে স্যুইচ করে প্রায় সীমাবদ্ধতা উন্নত করি। তারপরে এটি পি=λ/1440 সঙ্গেএম=1440 ট্রায়াল । তাহলে λ প্রায় 10 বলে, তারপর আমরা বেশ আত্মবিশ্বাসী কোনো মিনিটে দুটি ঘটনার ছিল হতে পারে।

অবশ্যই আমরা সেকেন্ডে স্যুইচ করলে এটি আরও ভাল হয়। এখন আমরা ক্ষুদ্র সম্ভাবনার সাথে প্রতিটি M=86400 ইভেন্ট দেখছিλ/86400

কোন ব্যাপার কিভাবে বড় আপনার λ , আমি অবশেষে একটা ছোট যথেষ্ট নির্বাচন করতে পারবেন Δt যাতে তা খুব সম্ভবত কোনো দুটি ঘটনার একই বিরতি ঘটতে না। তারপরে দ্বি দ্বি বিতরণ Δt সত্য পইসন বিতরণের একটি চমৎকার ম্যাচ হবে।

তারা ঠিক একই না হওয়ার একমাত্র কারণটি হ'ল শূন্যতার সম্ভাবনা রয়েছে যে একই সময়ে ব্যবধানে দুটি ঘটনা ঘটে। তবে প্রদত্ত কেবল প্রায় λ ইভেন্ট রয়েছে এবং এগুলি কয়েকটি λ চেয়ে অনেক বেশি বিন্দুতে বিতরণ করা হয়েছে , এর দু'টিই একই বিনের মধ্যে পড়ে থাকার সম্ভাবনা কম।

বা অন্য কথায়, দ্বিপদী বিতরণ এম as হিসাবে পোইসন বিতরণকে ঝোঁক করে M যদি সাফল্য সম্ভাব্যতা p=λ/M


5

প্রশ্ন 1

দ্বিপদী বিতরণের সংজ্ঞাটি স্মরণ করুন:

সাফল্যের একই সম্ভাবনা রয়েছে যার প্রত্যেকটিতে পরীক্ষার একটি প্রদত্ত সংখ্যার সফল ফলাফলের সম্ভাব্য সংখ্যার ফ্রিকোয়েন্সি বিতরণ ।

এটি পয়েসন বিতরণের সংজ্ঞার সাথে তুলনা করুন:

একটি পৃথক ফ্রিকোয়েন্সি বিতরণ যা একটি নির্দিষ্ট সময়ে সংঘটিত বিভিন্ন ইভেন্টের সম্ভাব্যতা দেয় ।

2 এর মধ্যে যথেষ্ট পার্থক্য হল দ্বিপদীটি ট্রায়ালগুলিতে, পোইসন একটি সময়ের মধ্যেn । সীমাটি স্বজ্ঞাতভাবে কীভাবে ঘটতে পারে?t

বলুন যে আপনাকে চিরকালের জন্য বার্নোল্লি ট্রায়াল চালিয়ে যেতে হবে। তদতিরিক্ত, আপনি প্রতি মিনিটে চালান । প্রতি মিনিট আপনি প্রতিটি সাফল্য গণনা। সুতরাং সমস্ত অনন্তকাল ধরে আপনি প্রতি মিনিটে একটি বি আই এন ( পি , 30 ) প্রক্রিয়া চালাচ্ছেন । 24 ঘন্টা ধরে, আপনার একটি বি আই এন ( পি ,n=30Bin(p,30)Bin(p,43200)

আপনি ক্লান্ত হয়ে পড়লে আপনাকে জিজ্ঞাসা করা হয় "18:00 থেকে 19:00 এর মধ্যে কতটা সাফল্য পেয়েছে?" আপনার উত্তর হতে পারে , অর্থাত আপনি এক ঘন্টাের মধ্যে গড় সাফল্য সরবরাহ করেন। যে পইসন প্যারামিটার মত অনেক শোনাচ্ছে λ আমাকে।3060pλ


5

প্রশ্ন 2)

M!N!(MN)!MNN!=M(M1)(MN+1)MN=1(11M)(1N1M)

সুতরাং নির্দিষ্ট এন এর সীমা নেওয়াN

limMM!N!(MN)!MNN!=limM1(11M)(1N1M)=1

+1 টি। আমি স্টার্লিংয়ের আনুমানিকতা দেখে শুরু করেছিলাম, তবে বৃত্তগুলিতে দৌড়ঝাঁপ শুরু করি। আপনার পদ্ধতিটি অনেক সহজ।

আমি মনে করি না যে এটিই ওপি স্বজ্ঞাত ...
কেজেটিল বি হালওয়ারসেন

@kjetilbhalvorsen আমি সহজ গণিত সম্ভব ব্যবহার করার চেষ্টা, intuitively, বড় জন্য আমরা আছে এম এম - জন্য সংশোধন করা হয়েছে < < এমMMMkk<<M
Łukasz সালে Grad

1
@ কেজেটিভালভর্সেন এই কিউ 2 (
ডাইরিভিশন

@ টেম্পলেটরেক্স হুম কিন্তু আমি মনে করি পয়েন্টওয়াইজ কনভার্জেন্স প্রমাণ করার সময় আমার কেবল প্রতিটি নির্দিষ্ট পক্ষে এটি প্রমাণ করা দরকার , এম এম ইনফাইটিতে চলে যায় তাই না? যে ω Ω লিম মি এক্স মি ( ω ) এক্স ( ω )NMωΩlimmXm(ω)X(ω)
Łukasz সালে Grad

5

সমস্যাটি হ'ল দ্বি-দ্বি বিতরণের সীমাবদ্ধ কেস হিসাবে পোয়েসনের আপনার বৈশিষ্ট্যটি যেমন বলা হয়েছে তেমন সঠিক নয়

পইসন দ্বিপদ যখন একটি সীমিত ক্ষেত্রে দেখা যায়: দ্বিতীয় অংশটি গুরুত্বপূর্ণ। যদি পি

MandMpλ.
p remains fixed, the first condition implies that the rate will also increase without bound.

λ[t,t+dt)p of an event (e.g. "success") is fixed for any given trial.

MpXMNpE[X]=Mp>N for M>N/p. Put another way, no matter how unlikely the probability of success, eventually you can achieve an average number of successes as large as you please if you perform sufficiently many trials. So, M (or, just saying "M is large") is not enough to justify a Poisson model for X.

It is not difficult to algebraically establish

Pr[X=x]=eλλxx!,x=0,1,2,
as a limiting case of
Pr[X=x]=(Mx)px(1p)Mx,x=0,1,2,,M
by setting p=λ/M and letting M. Other answers here have addressed the intuition behind this relationship and provided computational guidance as well. But it is important that p=λ/M. You can't ignore this.

0

I can only attempt a part answer and it is about the intuition for Question 2, not a rigorous proof.

The binomial coefficient gives you the number of samples of size N, from M, without replacement and without order.

Here though M becomes so large that you may approximate the scenario as sampling with replacement in which case you get MN ordered samples. If you don't care about the order of the N objects chosen this reduces to MN/N! because those N objects can be ordered in N! ways.


-2

Balls falling through layers of pegs

I think this is the best example that intuitively explains how binomial distribution converges to normal with large number of balls. Here, each ball has equal probability of falling on either side of the peg in each layer and all the balls have to face same number of pegs. It can be easily seen that as the number of balls goes very high the distribution of balls in different sections will be like normal distribution.

My answer to your question 2 is same as the answer given by Lukasz.


2
This isn't really answering the question, it answers another question ...
kjetil b halvorsen

I have tried to intuitively explain what asked in question 1. Can you please elaborate why you think it is not an answer to it?
samwise_the_wise

1
Sorry, I got the point now. I answered a completely different question. My bad.
samwise_the_wise

1
I see a heavily discretized version of a binomial distribution. Why should it be obvious that the distribution of balls at the bottom of this quincunx should be normal? Regardless of how many balls you drop through this machine, you will still get a distribution of counts in 13 bins: that cannot possibly be normal!
whuber
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.