কেন এই বিতরণ ইউনিফর্ম?

আমরা বায়েশিয়ান পরিসংখ্যান পরীক্ষার তদন্ত করছি, এবং একটি বিজোড় (আমার কাছে ন্যূনতম) কাছে আসি।

নিম্নলিখিত ক্ষেত্রে বিবেচনা করুন: কোন জনসংখ্যার A বা B উচ্চতর রূপান্তর হার রয়েছে তা পরিমাপ করতে আমরা আগ্রহী। স্যানিটি পরীক্ষা করার জন্য, আমরা সেট করেছি $p_A = p_B$ , যা উভয় গ্রুপে রূপান্তর হওয়ার সম্ভাবনা সমান। আমরা একটি দ্বিপদ মডেল, যেমন ব্যবহার কৃত্রিম ডেটা উৎপন্ন

n_{A} \sim Binomial (N, p_{A})

$n_A \sim \text{Binomial}(N, p_A)$

তারপরে আমরা একটি বয়েসীয় বিটা-দ্বিপদী মডেল ব্যবহার করে অনুমান করার চেষ্টা $p_A, p_B$ করি যাতে আমরা প্রতিটি রূপান্তর হারের জন্য পোস্টারিয়র পাই, যেমন

P_{A} \sim Beta (1 + n_{A}, N - n_{A} + 1)

$P_A \sim \text{Beta}(1 + n_A, N - n_A +1 )$

আমাদের পরীক্ষার পরিসংখ্যানগুলি ) গণনা করে গণনা করা হয় $S = P(P_A > P_B\; |\; N, n_A, n_B)$ মন্টি কার্লো হয়ে।

আমাকে কী আশ্চর্য করে তা হ'ল যদি $p_A = p_B$ তবে $S \sim \text{Uniform(0,1)}$ । আমার ধারণা ছিল যে এটি প্রায় 0.5 এর কেন্দ্রিক হবে এবং এমনকি নমুনার আকার, হিসাবে $N$ বৃদ্ধি পায় 0.5 তে রূপান্তরিত ।

আমার প্রশ্ন হচ্ছে, কেন $S \sim \text{Uniform(0,1)}$ যখন $p_A = p_B$ ?

এখানে কিছু পাইথন কোড প্রদর্শন করতে হবে:

%pylab
from scipy.stats import beta
import numpy as np
import pylab as P

a = b = 0.5
N = 10000
samples = [] #collects the values of S
for i in range(5000):
    assert a==b
    A = np.random.binomial(N, a); B = np.random.binomial(N, b)
    S = (beta.rvs(A+1, N-A+1, size=15000) > beta.rvs(B+1, N-B+1, size=15000)).mean() 
    samples.append(S)

P.hist(samples)
P.show()

— Cam.Davidson.Pilon
সূত্র

S

$S$

N

$N$

100 / min (p, 1 - p)

$100/\min(p,1-p)$

p = p_{A} = p_{B}

$p=p_A=p_B$

@ হুইবার এস বিযুক্ত নয়, এটি একটি সম্ভাবনা যা 0 থেকে 1 এর মধ্যে পড়তে পারে এছাড়াও, এমনকি কম এন এর জন্যও আমি অভিন্ন আচরণ পর্যবেক্ষণ করছি।

— ক্যাম.ড্যাভিডসন.পিলন

আমাকে অবশ্যই আপনার সেটআপটি ভুল বুঝাবুঝি করা উচিত। যতদূর আমি বলতে পারি যে এর প্রদত্ত মানগুলির জন্য এর মান একটি সংখ্যা। সুতরাং, এবং এই মুহুর্তের জন্য স্থির করা হয়েছে তা গ্রহণ করে (তারা আপনার কোড হিসাবে রয়েছে), এর একটি ফাংশন । তবে দ্বিতীয়টি দ্বিপদী বিতরণের উপলব্ধি হওয়ায় কেবল মূল্যবোধের একটি পৃথক সেট অর্জন করতে পারে। আমি যখন আপনার কোডটি পুনরুত্পাদন করি তখন আমি ছোট জন্য নির্ধারিতভাবে অ-ইউনিফর্ম হিস্টোগ্রামগুলি পাই ।

N, n_{A}, n_{B},

$N,n_A,n_B,$

S

$S$

N, p_{A},

$N, p_A,$

p_{B}

$p_B$

S

$S$

(n_{A}, n_{B})

$(n_A,n_B)$ R

N

$N$

— whuber

যদিও আপনার এর মান এবং মধ্যে রয়েছে তবে এটি অ-বিযুক্তের সাথে বিভ্রান্ত করবেন না: এটির সর্বাধিক স্বতন্ত্র মান থাকতে পারে (এবং আসলে এর চেয়ে কম রয়েছে) has এই পুরোপুরি তোমাদের জন্য সুস্পষ্ট কারণ আপনার সিমুলেশন উত্পন্ন নাও হতে পারে অনুমান এর এর সঠিক মান বদলে এবং অনুমান মূলত একটি ক্রমাগত বন্টন আছে।

S

$S$

0

$0$

1

$1$

N^{2}

$N^2$

S

$S$

— whuber

@ হ্যাঁ, আপনি সঠিক, দুর্দান্ত পর্যবেক্ষণ। তখনও কেন এটি অভিন্ন দেখায় আমি এখনও আটকে আছি ।

— ক্যাম.ড্যাভিডসন.পিলন

উত্তর:

টিএল; ডিআর: বিন আকারগুলি বড় হলে সাধারণ বিতরণের মিশ্রণগুলি অভিন্ন দেখতে পারে।

এই উত্তরটি @ ভুবারের নমুনা কোড থেকে নেওয়া হয়েছে (যা আমি প্রথমে একটি ত্রুটি বলে মনে করেছি, তবে পূর্ববর্তী ক্ষেত্রে সম্ভবত একটি ইঙ্গিত ছিল)।

জনসংখ্যা অন্তর্নিহিত অনুপাত সমান আছেন: a = b = 0.5।
প্রতিটি গ্রুপ, A এবং B 10000 সদস্য রয়েছে: N = 10000।
আমরা একটি সিমুলেশন 5000 প্রতিলিপি আচার করতে যাচ্ছি: for i in range(5000):।

আসলে, আমরা কি করছেন একটি হল একটি । 5000 পুনরাবৃত্তিও প্রতিটি ক্ষেত্রে আমরা কি করব । $\rm simulation_\rm{prime}$ $\rm simulation_\rm{underlying}$ $\rm simulation_\rm{prime}$ $\rm simulation_\rm{underlying}$

প্রতিটি পুনরাবৃত্তির আমরা এর একটি র্যান্ডম সংখ্যা এবং B যে 'সাফল্য' (ওরফে রূপান্তরিত) সমান অন্তর্নিহিত অনুপাত আগের সংজ্ঞায়িত দেওয়া হয় সিমুলেট হবে: । সাধারণত এটি এ = 5000 এবং বি = 5000 উপার্জন করবে তবে এ এবং বি সিম রান থেকে সিম রান থেকে আলাদা এবং 5000 সিমুলেশনে স্বাধীনভাবে এবং (প্রায়) সাধারনত (আমরা ফিরে আসব) জুড়ে বিতরণ করা হয়। $\rm simulation_\rm{prime}$ A = np.random.binomial(N, a); B = np.random.binomial(N, b)

আসুন এখন একটি ite a এর একক পুনরাবৃত্তির জন্য পদক্ষেপ দিন যেখানে A এবং B সমান সংখ্যক সাফল্য নিয়েছে (যেমন গড় হিসাবে এটি হবে)। each এর প্রতিটি পুনরাবৃত্তিতে আমরা এ এবং বি প্রদত্ত প্রতিটি গ্রুপের বিটা বিতরণের এলোমেলো পরিবর্তনগুলি তৈরি করব। তারপরে আমরা সেগুলি তুলনা করব এবং ( , একটি সত্য বা মিথ্যা (1 বা 0) প্রদান করবে কিনা তা খুঁজে বের করব । of রানের শেষে , আমরা 15000 পুনরাবৃত্তি সম্পন্ন করেছি এবং 15000 সত্য / মিথ্যা মান রয়েছে। এর গড় অনুপাতের (প্রায় স্বাভাবিক) নমুনা বিতরণ থেকে একক মান পাওয়া যাবে $\rm simulation_\rm {underlying}$ $\rm simulation_\rm{prime}$ $\rm simulation_\rm{underlying}$ ${\rm Beta}_A > {\rm Beta}_B$ $\rm simulation_\rm {underlying}$ ${\rm Beta}_A > {\rm Beta}_B$ ।

এখন বাদে 5000 এ এবং বি মান নির্বাচন করতে চলেছে। এ এবং বি খুব কমই ঠিক সমান হবে তবে ক ও বি সাফল্যের সংখ্যার সাধারণ পার্থক্যগুলি এ এবং বি এর মোট নমুনার আকার দ্বারা বামনিত হয় সাধারণ As এবং Bs or এর অনুপাতের নমুনা বিতরণ থেকে আরও বেশি টান দেয় will , তবে এ / বি বিতরণের । $\rm simulation_\rm{prime}$ ${\rm Beta}_A > {\rm Beta}_B$

সুতরাং, মূলত আমরা অনেকগুলি সিম A এবং B এর সংমিশ্রণের জন্য বি স্যাম্পলিং বিতরণের সংমিশ্রণ (সাধারণ মানগুলি থেকে তৈরি নমুনা বিতরণগুলি থেকে আরও টানা) A এবং B এর অস্বাভাবিক মানগুলির তুলনায় A এবং B)। এটি সাধারণ-ইশ বিতরণের মিশ্রণে ফল দেয়। আপনি যখন এগুলি একটি ছোট বিন আকারের সাথে সংযুক্ত করেন (যেমন আপনি ব্যবহার করেছেন হিস্টগ্রাম ফাংশনটির জন্য এটি পূর্বনির্ধারিত এবং সরাসরি আপনার মূল কোডে নির্দিষ্ট করা হয়েছিল), আপনি এমন কিছু দিয়ে শেষ করেন যা দেখতে অভিন্ন বিতরণের মতো লাগে। ${\rm Beta}_A > {\rm Beta}_B$

বিবেচনা:

a = b = 0.5
N = 10
samples = [] #collects the values of S
for i in range(5000):
    assert a==b
    A = np.random.binomial(N, a); B = np.random.binomial(N, b)
    S = (beta.rvs(A+1, N-A+1, size=15000) > beta.rvs(B+1, N-B+1, size=15000)).mean() 
    samples.append(S)

P.hist(samples,1000)
P.show()

— russellpierce
সূত্র

সুতরাং আমার এবং আপনার কোডের মধ্যে পার্থক্য রয়েছে। আমি প্রতিটি লুপ এ এবং বি নমুনা, আপনি এটি একবার নমুনা এবং এস 5000 বার গণনা।

— ক্যাম.ড্যাভিডসন.পিলন

তাত্পর্য আপনার কলগুলিতে অন্তর্ভুক্ত rbinom, যা কোনও ভেক্টরকে ফেরত দেয়। পরবর্তী rbetaভিতরে কলটি replicateভেক্টরাইজড, সুতরাং অভ্যন্তরীণ (অভ্যন্তরীণ) লুপটি উত্পাদিত 15000 এলোমেলো ভেরিয়েবলগুলির প্রত্যেকটির জন্য আলাদা এবং ব্যবহার করছে (আপনার থেকে চূড়ান্ত 5000 এর জন্য মোড়ানো )। আরও জন্য দেখুন। এটি @ ক্যামের কোডের থেকে পৃথক , 5000 টি স্যাম্পলিং ( ) লুপগুলির জন্য প্রতিটি 15000 র্যান্ডম-ভেরিয়েট কলগুলিতে একক স্থির এবং ব্যবহার করা হয়েছে ।

A

$A$

B

$B$ NSIM = 10000?rbeta

A

$A$

B

$B$ replicate

— কার্ডিনাল

এখানে যারা আগ্রহী তাদের জন্য আউটপুটটি এখানে রয়েছে: imgur.com/ryvWbJO

— ক্যাম.ড্যাভিডসন.পিলন

কেবলমাত্র আমি যে বিষয়গুলি সম্পর্কে ধারণাগত পর্যায়ে প্রাসঙ্গিকভাবে সচেতন তা হ'ল ক) ফলাফলগুলির প্রত্যাশিত বিতরণটি প্রতিসম হয়, খ) প্রতিসাম্য বন্টনের জন্য 1 এর একটি বিন আকার সর্বদা অভিন্ন, গ) 2 বিনের আকারের এছাড়াও সর্বদা অভিন্ন প্রদর্শিত হবে, ঘ) এন এর সাথে বৃদ্ধি থেকে আঁকা যায় এমন সম্ভাব্য নমুনা বিতরণের সংখ্যা, ই) এস এর মানগুলি কেবল 0 বা 1 এ স্ট্যাক করতে পারে না কারণ উভয় গ্রুপে 0 সাফল্য থাকলে বিটা অপরিজ্ঞাত হয় , এবং চ) নমুনাগুলি 0 এবং 1-এর মধ্যে সীমাবদ্ধ রয়েছে

— রাসেলপিয়ার্স

একা পর্যবেক্ষণের বিষয় হিসাবে আমরা দেখতে পাচ্ছি যে নমুনা বিতরণগুলির সেন্ট্রয়েডগুলির মধ্যবর্তী দূরত্ব হ্রাস পেয়েছে কারণ নমুনা বিতরণগুলির সেন্ট্রয়েডগুলি .5 থেকে দূরে সরে গেছে (সম্ভবত উপরে পয়েন্ট এফ সম্পর্কিত)। এই প্রভাবটি গ্রুপ এ এবং গ্রুপ বি ক্ষেত্রে প্রায় সাধারণ সমান সাফল্যের জন্য পর্যবেক্ষণের উচ্চ ফ্রিকোয়েন্সিগুলির প্রবণতার বিরুদ্ধে লড়াই করার ঝোঁক দেয়। তবে এটি কেন বা কেন নির্দিষ্ট বিন আকারের জন্য এটি সাধারণ বিতরণ করা উচিত তা নিয়ে গাণিতিক সমাধান দেওয়ার বিষয়টি আমার অঞ্চলের কাছাকাছি কোথাও নেই।

— রাসেলপিয়েরেস

যা চলছে তার জন্য কিছুটা অন্তর্দৃষ্টি পেতে, আসুন আমরা খুব বড় করে তুলতে নির্দ্বিধায় থাকি এবং এর ফলে আচরণকে উপেক্ষা করি এবং অ্যাসিম্পটোটিক উপপাদাগুলি কাজে লাগাই যা বিটা এবং বিনোমিয়াল বিতরণ উভয়ই প্রায় স্বাভাবিক হয়ে যায়। (কিছুটা ঝামেলার সাথেই, এগুলি সমস্ত কঠোর করা যায়)) আমরা যখন এটি করি, ফলাফলটি বিভিন্ন পরামিতিগুলির মধ্যে একটি নির্দিষ্ট সম্পর্ক থেকে উদ্ভূত হয়। $N$ $O(1/N)$

যেহেতু আমরা সাধারণ আনুমানিকতা ব্যবহার করার পরিকল্পনা করি আমরা ভেরিয়েবলগুলির প্রত্যাশা এবং বৈচিত্রগুলিতে মনোযোগ দেব:

যেমন বিনোমিয়াল , এবং এর এবং এর প্রত্যাশা রয়েছে । ফলস্বরূপ এবং এর এবং ভেরিয়েন্স প্রত্যাশা রয়েছে । $(N, p)$ $n_A$ $n_B$ $pN$ $p(1-p)N$ $\alpha=n_A/N$ $\beta=n_B/N$ $p$ $p(1-p)/N$
বিটা , এবং একটি বৈকল্পিকের প্রত্যাশা রয়েছে । আনুমানিক, আমরা দেখতে যে এর একটি প্রত্যাশা আছে $(n_A+1, N+1-n_A)$ $P_A$ $(n_A+1)/(N+2)$ $(n_A+1)(N+1-n_A) / [(N+2)^2(N+3)]$ $P_A$

$E (P_{A}) = α + O (1 / N)$ $\mathbb{E}(P_A) = \alpha+O(1/N)$
এবং একটি বৈকল্পিক

$Var (P_{A}) = α (1 - α) / N + O (1 / N^{2}),$ $\text{Var}(P_A) = \alpha(1-\alpha)/N + O(1/N^2),$
জন্য একই রকম ফলাফল । $P_B$

সুতরাং আসুন আমরা সাধারণ এবং সাধারণ সাথে এবং এর আনুমানিক (যেখানে দ্বিতীয় প্যারামিটার বৈকল্পিক নির্ধারণ করে )। এর বিতরণ ফলস্বরূপ প্রায় স্বাভাবিক; বুদ্ধিমান, $P_A$ $P_B$ $(\alpha, \alpha(1-\alpha)/N)$ $(\beta,\beta(1-\beta)/N)$ $P_A-P_B$

P_{A} - P_{B} \approx Normal (α - β, \frac{α (1 - α) + β (1 - β)}{N}) .

$P_A-P_B \approx \text{Normal}\left(\alpha-\beta, \frac{\alpha(1-\alpha) + \beta(1-\beta)}{N}\right).$

খুব বড় , ব্যতীত এক্সপ্রেশনটি পৃথক হবে না খুব কম সম্ভাবনা (অন্য অবহেলিত পদ) সহ তদনুসারে, লেট আদর্শ স্বাভাবিক সিডিএফ হও, $N$ $\alpha(1-\alpha) + \beta(1-\beta)$ $p(1-p)+p(1-p)=2p(1-p)$ $O(1/N)$ $\Phi$

Pr (P_{A} > P_{B}) = Pr (P_{A} - P_{B} > 0) \approx Φ (\frac{α - β}{\sqrt{2 p (1 - p) / N}}) .

$\Pr(P_A\gt P_B) =\Pr(P_A-P_B\gt 0) \approx \Phi\left(\frac{\alpha-\beta}{\sqrt{2p(1-p)/N}}\right).$

তবে যেহেতু শূন্য গড় এবং ভেরিয়েন্স a একটি আদর্শ নরমাল পরিবর্তিত (কমপক্ষে আনুমানিক) হ'ল এর সম্ভাব্যতা অবিচ্ছেদ্য রূপান্তর ; হয় অভিন্ন । $\alpha-\beta$ $2p(1-p)/N,$ $Z=\frac{\alpha-\beta}{\sqrt{2p(1-p)/N}}$ $\Phi$ $\Phi(Z)$

— whuber
সূত্র

পি_এ হওয়ার আগ পর্যন্ত আপনার সাথে আছি না ... তবে আপনি অন্য দিকটি অনুসরণ করবেন যা আমি পুরোপুরি অনুসরণ করি নি। কি দ্বিগুণ সংজ্ঞা দেওয়া হয়েছে, একবার স্ট্যান্ডার্ড নরমাল সিডিএফ হিসাবে এবং তারপরে সম্ভাবনা ইন্টিগ্রাল ট্রান্সফর্ম হিসাবে? আমি আশা করছি আপনি এই ধাপগুলি ঘিরে আপনার বিবরণটি প্রসারিত করতে পারেন এবং তাদের প্রাথমিক কোড / সমস্যার সাথে সম্পর্কিত করতে পারেন। হয়ত চারপাশে লুপ করুন এবং কোন নির্দিষ্ট পরামিতিগুলি ইউনিফর্মের ফলাফল উত্পন্ন করে তা পুনরায় সেট করুন।

P_{A} - P_{B} \approx N o r m a l

$P_A - P_B \approx Normal$

Φ

$\Phi$

— রাসেলপিয়েরেস

@rpierce (1) পার্থক্যটি প্রায় স্বাভাবিক কারণ এবং স্বতন্ত্র এবং প্রতিটি প্রায় স্বাভাবিক। গড়টি হ'ল অর্থের পার্থক্য এবং প্রকরণটি হ'ল রূপগুলির সমষ্টি। (২) সম্ভাবনা ইন্টিগ্রাল ট্রান্সফর্মটি হ'ল সিডিএফ: এটি যে কোনও র্যান্ডম ভেরিয়েবল ক্ষেত্রে অবিচ্ছিন্ন ডিস্ট্রিবিউশন , এটি অভিন্ন।

P_{A} - P_{B}

$P_A-P_B$

P_{A}

$P_A$

P_{B}

$P_B$

X

$X$

F

$F$

F (X)

$F(X)$

— whuber

ওহ আমি 1 পেয়েছি, এটি আমার যেখানে হারিয়ে গেছে তার পরে এটি ছিল স্টাফ। এটি বোবা হয়ে যাবে, তবে কেন সিডিএফের সমান?

P r (P_{A} > P_{B})

$Pr(P_A>P_B)$

— রাসেলপিয়েরেস

@ আরপিয়ার্স এটি সংজ্ঞা থেকে সরাসরি অনুসরণ করে তবে একটি সামান্য মোচড় রয়েছে যেখানে সাধারণ বন্টনের প্রতিসাম্য যুক্ত হয়। আমরা একটি সাধারণ এর সাথে এবং বৈকল্পিক প্রত্যাশা আছে ধরে । মানক করা , সম্ভাব্যতা

X = P_{A} - P_{B}

$X = P_A-P_B$

μ = α - β

$\mu=\alpha-\beta$

σ^{2} = 2 p (1 - p) / N

$\sigma^2 = 2p(1-p)/N$

X

$X$

Pr (X > 0) = Pr ((X - μ) / σ > (0 - μ) / σ) = 1 - Φ (- μ / σ) = Φ (μ / σ) .

$\Pr(X\gt 0) = \Pr((X-\mu)/\sigma \gt (0-\mu)/\sigma) = 1-\Phi(-\mu/\sigma) = \Phi(\mu/\sigma).$

— whuber

@ যাহা এটি বেশ আশ্চর্যজনক। আপনি একটি দুর্দান্ত শিক্ষক। আমি আপনার এবং rpierce এর উত্তর উভয়ের প্রশংসা করি, আমি এখনও তাকে ক্রেডিট দেব কারণ এটি আমাদের সমস্যার সমাধান করেছিল এবং আপনি দেখিয়েছেন যে আচরণটি কেন ঘটে। Ty!

— ক্যাম.ড্যাভিডসন.পিলন