কেন এই বিতরণ ইউনিফর্ম?


12

আমরা বায়েশিয়ান পরিসংখ্যান পরীক্ষার তদন্ত করছি, এবং একটি বিজোড় (আমার কাছে ন্যূনতম) কাছে আসি।

নিম্নলিখিত ক্ষেত্রে বিবেচনা করুন: কোন জনসংখ্যার A বা B উচ্চতর রূপান্তর হার রয়েছে তা পরিমাপ করতে আমরা আগ্রহী। স্যানিটি পরীক্ষা করার জন্য, আমরা সেট করেছি pA=pB, যা উভয় গ্রুপে রূপান্তর হওয়ার সম্ভাবনা সমান। আমরা একটি দ্বিপদ মডেল, যেমন ব্যবহার কৃত্রিম ডেটা উৎপন্ন

nABinomial(N,pA)

তারপরে আমরা একটি বয়েসীয় বিটা-দ্বিপদী মডেল ব্যবহার করে অনুমান করার চেষ্টা pA,pBকরি যাতে আমরা প্রতিটি রূপান্তর হারের জন্য পোস্টারিয়র পাই, যেমন

PABeta(1+nA,NnA+1)

আমাদের পরীক্ষার পরিসংখ্যানগুলি এস = পি ( পি > পি বি ) গণনা করে গণনা করা হয়S=P(PA>PB|N,nA,nB) মন্টি কার্লো হয়ে।

আমাকে কী আশ্চর্য করে তা হ'ল যদি pA=pB তবে SUniform(0,1) । আমার ধারণা ছিল যে এটি প্রায় 0.5 এর কেন্দ্রিক হবে এবং এমনকি নমুনার আকার, হিসাবে Nবৃদ্ধি পায় 0.5 তে রূপান্তরিত ।

আমার প্রশ্ন হচ্ছে, কেন SUniform(0,1) যখন pA=pB ?


এখানে কিছু পাইথন কোড প্রদর্শন করতে হবে:

%pylab
from scipy.stats import beta
import numpy as np
import pylab as P

a = b = 0.5
N = 10000
samples = [] #collects the values of S
for i in range(5000):
    assert a==b
    A = np.random.binomial(N, a); B = np.random.binomial(N, b)
    S = (beta.rvs(A+1, N-A+1, size=15000) > beta.rvs(B+1, N-B+1, size=15000)).mean() 
    samples.append(S)

P.hist(samples)
P.show()

SN100/min(p,1p)p=pA=pB

@ হুইবার এস বিযুক্ত নয়, এটি একটি সম্ভাবনা যা 0 থেকে 1 এর মধ্যে পড়তে পারে এছাড়াও, এমনকি কম এন এর জন্যও আমি অভিন্ন আচরণ পর্যবেক্ষণ করছি।
ক্যাম.ড্যাভিডসন.পিলন

2
আমাকে অবশ্যই আপনার সেটআপটি ভুল বুঝাবুঝি করা উচিত। যতদূর আমি বলতে পারি যে এর প্রদত্ত মানগুলির জন্য এর মান একটি সংখ্যা। সুতরাং, এবং এই মুহুর্তের জন্য স্থির করা হয়েছে তা গ্রহণ করে (তারা আপনার কোড হিসাবে রয়েছে), এর একটি ফাংশন । তবে দ্বিতীয়টি দ্বিপদী বিতরণের উপলব্ধি হওয়ায় কেবল মূল্যবোধের একটি পৃথক সেট অর্জন করতে পারে। আমি যখন আপনার কোডটি পুনরুত্পাদন করি তখন আমি ছোট জন্য নির্ধারিতভাবে অ-ইউনিফর্ম হিস্টোগ্রামগুলি পাই । N,nA,nB,SN,pA,pBS(nA,nB)RN
whuber

1
যদিও আপনার এর মান এবং মধ্যে রয়েছে তবে এটি অ-বিযুক্তের সাথে বিভ্রান্ত করবেন না: এটির সর্বাধিক স্বতন্ত্র মান থাকতে পারে (এবং আসলে এর চেয়ে কম রয়েছে) has এই পুরোপুরি তোমাদের জন্য সুস্পষ্ট কারণ আপনার সিমুলেশন উত্পন্ন নাও হতে পারে অনুমান এর এর সঠিক মান বদলে এবং অনুমান মূলত একটি ক্রমাগত বন্টন আছে। S01N2S
whuber

1
@ হ্যাঁ, আপনি সঠিক, দুর্দান্ত পর্যবেক্ষণ। তখনও কেন এটি অভিন্ন দেখায় আমি এখনও আটকে আছি ।
ক্যাম.ড্যাভিডসন.পিলন

উত্তর:


11

টিএল; ডিআর: বিন আকারগুলি বড় হলে সাধারণ বিতরণের মিশ্রণগুলি অভিন্ন দেখতে পারে।

এই উত্তরটি @ ভুবারের নমুনা কোড থেকে নেওয়া হয়েছে (যা আমি প্রথমে একটি ত্রুটি বলে মনে করেছি, তবে পূর্ববর্তী ক্ষেত্রে সম্ভবত একটি ইঙ্গিত ছিল)।

জনসংখ্যা অন্তর্নিহিত অনুপাত সমান আছেন: a = b = 0.5
প্রতিটি গ্রুপ, A এবং B 10000 সদস্য রয়েছে: N = 10000
আমরা একটি সিমুলেশন 5000 প্রতিলিপি আচার করতে যাচ্ছি: for i in range(5000):

আসলে, আমরা কি করছেন একটি হল একটি । 5000 পুনরাবৃত্তিও প্রতিটি ক্ষেত্রে আমরা কি করব ।simulationprimesimulationunderlyingsimulationprimesimulationunderlying

প্রতিটি পুনরাবৃত্তির আমরা এর একটি র্যান্ডম সংখ্যা এবং B যে 'সাফল্য' (ওরফে রূপান্তরিত) সমান অন্তর্নিহিত অনুপাত আগের সংজ্ঞায়িত দেওয়া হয় সিমুলেট হবে: । সাধারণত এটি এ = 5000 এবং বি = 5000 উপার্জন করবে তবে এ এবং বি সিম রান থেকে সিম রান থেকে আলাদা এবং 5000 সিমুলেশনে স্বাধীনভাবে এবং (প্রায়) সাধারনত (আমরা ফিরে আসব) জুড়ে বিতরণ করা হয়।simulationprimeA = np.random.binomial(N, a); B = np.random.binomial(N, b)

আসুন এখন একটি ite a এর একক পুনরাবৃত্তির জন্য পদক্ষেপ দিন যেখানে A এবং B সমান সংখ্যক সাফল্য নিয়েছে (যেমন গড় হিসাবে এটি হবে)। each এর প্রতিটি পুনরাবৃত্তিতে আমরা এ এবং বি প্রদত্ত প্রতিটি গ্রুপের বিটা বিতরণের এলোমেলো পরিবর্তনগুলি তৈরি করব। তারপরে আমরা সেগুলি তুলনা করব এবং ( , একটি সত্য বা মিথ্যা (1 বা 0) প্রদান করবে কিনা তা খুঁজে বের করব । of রানের শেষে , আমরা 15000 পুনরাবৃত্তি সম্পন্ন করেছি এবং 15000 সত্য / মিথ্যা মান রয়েছে। এর গড় অনুপাতের (প্রায় স্বাভাবিক) নমুনা বিতরণ থেকে একক মান পাওয়া যাবেsimulationunderlyingsimulationprimesimulationunderlyingBetaA>BetaBsimulationunderlyingBetaA>BetaB

এখন বাদে 5000 এ এবং বি মান নির্বাচন করতে চলেছে। এ এবং বি খুব কমই ঠিক সমান হবে তবে ক ও বি সাফল্যের সংখ্যার সাধারণ পার্থক্যগুলি এ এবং বি এর মোট নমুনার আকার দ্বারা বামনিত হয় সাধারণ As এবং Bs or এর অনুপাতের নমুনা বিতরণ থেকে আরও বেশি টান দেয় will , তবে এ / বি বিতরণের ।simulationprimeBetaA>BetaB

সুতরাং, মূলত আমরা অনেকগুলি সিম A এবং B এর সংমিশ্রণের জন্য বি স্যাম্পলিং বিতরণের সংমিশ্রণ (সাধারণ মানগুলি থেকে তৈরি নমুনা বিতরণগুলি থেকে আরও টানা) A এবং B এর অস্বাভাবিক মানগুলির তুলনায় A এবং B)। এটি সাধারণ-ইশ বিতরণের মিশ্রণে ফল দেয়। আপনি যখন এগুলি একটি ছোট বিন আকারের সাথে সংযুক্ত করেন (যেমন আপনি ব্যবহার করেছেন হিস্টগ্রাম ফাংশনটির জন্য এটি পূর্বনির্ধারিত এবং সরাসরি আপনার মূল কোডে নির্দিষ্ট করা হয়েছিল), আপনি এমন কিছু দিয়ে শেষ করেন যা দেখতে অভিন্ন বিতরণের মতো লাগে।BetaA>BetaB

বিবেচনা:

a = b = 0.5
N = 10
samples = [] #collects the values of S
for i in range(5000):
    assert a==b
    A = np.random.binomial(N, a); B = np.random.binomial(N, b)
    S = (beta.rvs(A+1, N-A+1, size=15000) > beta.rvs(B+1, N-B+1, size=15000)).mean() 
    samples.append(S)

P.hist(samples,1000)
P.show()

1
সুতরাং আমার এবং আপনার কোডের মধ্যে পার্থক্য রয়েছে। আমি প্রতিটি লুপ এ এবং বি নমুনা, আপনি এটি একবার নমুনা এবং এস 5000 বার গণনা।
ক্যাম.ড্যাভিডসন.পিলন

1
তাত্পর্য আপনার কলগুলিতে অন্তর্ভুক্ত rbinom, যা কোনও ভেক্টরকে ফেরত দেয়। পরবর্তী rbetaভিতরে কলটি replicateভেক্টরাইজড, সুতরাং অভ্যন্তরীণ (অভ্যন্তরীণ) লুপটি উত্পাদিত 15000 এলোমেলো ভেরিয়েবলগুলির প্রত্যেকটির জন্য আলাদা এবং ব্যবহার করছে (আপনার থেকে চূড়ান্ত 5000 এর জন্য মোড়ানো )। আরও জন্য দেখুন। এটি @ ক্যামের কোডের থেকে পৃথক , 5000 টি স্যাম্পলিং ( ) লুপগুলির জন্য প্রতিটি 15000 র্যান্ডম-ভেরিয়েট কলগুলিতে একক স্থির এবং ব্যবহার করা হয়েছে । ABNSIM = 10000?rbetaABreplicate
কার্ডিনাল

1
এখানে যারা আগ্রহী তাদের জন্য আউটপুটটি এখানে রয়েছে: imgur.com/ryvWbJO
ক্যাম.ড্যাভিডসন.পিলন

1
কেবলমাত্র আমি যে বিষয়গুলি সম্পর্কে ধারণাগত পর্যায়ে প্রাসঙ্গিকভাবে সচেতন তা হ'ল ক) ফলাফলগুলির প্রত্যাশিত বিতরণটি প্রতিসম হয়, খ) প্রতিসাম্য বন্টনের জন্য 1 এর একটি বিন আকার সর্বদা অভিন্ন, গ) 2 বিনের আকারের এছাড়াও সর্বদা অভিন্ন প্রদর্শিত হবে, ঘ) এন এর সাথে বৃদ্ধি থেকে আঁকা যায় এমন সম্ভাব্য নমুনা বিতরণের সংখ্যা, ই) এস এর মানগুলি কেবল 0 বা 1 এ স্ট্যাক করতে পারে না কারণ উভয় গ্রুপে 0 সাফল্য থাকলে বিটা অপরিজ্ঞাত হয় , এবং চ) নমুনাগুলি 0 এবং 1-এর মধ্যে সীমাবদ্ধ রয়েছে
রাসেলপিয়ার্স

1
একা পর্যবেক্ষণের বিষয় হিসাবে আমরা দেখতে পাচ্ছি যে নমুনা বিতরণগুলির সেন্ট্রয়েডগুলির মধ্যবর্তী দূরত্ব হ্রাস পেয়েছে কারণ নমুনা বিতরণগুলির সেন্ট্রয়েডগুলি .5 থেকে দূরে সরে গেছে (সম্ভবত উপরে পয়েন্ট এফ সম্পর্কিত)। এই প্রভাবটি গ্রুপ এ এবং গ্রুপ বি ক্ষেত্রে প্রায় সাধারণ সমান সাফল্যের জন্য পর্যবেক্ষণের উচ্চ ফ্রিকোয়েন্সিগুলির প্রবণতার বিরুদ্ধে লড়াই করার ঝোঁক দেয়। তবে এটি কেন বা কেন নির্দিষ্ট বিন আকারের জন্য এটি সাধারণ বিতরণ করা উচিত তা নিয়ে গাণিতিক সমাধান দেওয়ার বিষয়টি আমার অঞ্চলের কাছাকাছি কোথাও নেই।
রাসেলপিয়েরেস

16

যা চলছে তার জন্য কিছুটা অন্তর্দৃষ্টি পেতে, আসুন আমরা খুব বড় করে তুলতে নির্দ্বিধায় থাকি এবং এর ফলে আচরণকে উপেক্ষা করি এবং অ্যাসিম্পটোটিক উপপাদাগুলি কাজে লাগাই যা বিটা এবং বিনোমিয়াল বিতরণ উভয়ই প্রায় স্বাভাবিক হয়ে যায়। (কিছুটা ঝামেলার সাথেই, এগুলি সমস্ত কঠোর করা যায়)) আমরা যখন এটি করি, ফলাফলটি বিভিন্ন পরামিতিগুলির মধ্যে একটি নির্দিষ্ট সম্পর্ক থেকে উদ্ভূত হয়।NO(1/N)


যেহেতু আমরা সাধারণ আনুমানিকতা ব্যবহার করার পরিকল্পনা করি আমরা ভেরিয়েবলগুলির প্রত্যাশা এবং বৈচিত্রগুলিতে মনোযোগ দেব:

  • যেমন বিনোমিয়াল , এবং এর এবং এর প্রত্যাশা রয়েছে । ফলস্বরূপ এবং এর এবং ভেরিয়েন্স প্রত্যাশা রয়েছে ।(N,p)nAnBpNp(1p)Nα=nA/Nβ=nB/Npp(1p)/N

  • বিটা , এবং একটি বৈকল্পিকের প্রত্যাশা রয়েছে । আনুমানিক, আমরা দেখতে যে এর একটি প্রত্যাশা আছে(nA+1,N+1nA)PA(nA+1)/(N+2)(nA+1)(N+1nA)/[(N+2)2(N+3)]PA

    E(PA)=α+O(1/N)

    এবং একটি বৈকল্পিক

    Var(PA)=α(1α)/N+O(1/N2),

    জন্য একই রকম ফলাফল ।PB

সুতরাং আসুন আমরা সাধারণ এবং সাধারণ সাথে এবং এর আনুমানিক (যেখানে দ্বিতীয় প্যারামিটার বৈকল্পিক নির্ধারণ করে )। এর বিতরণ ফলস্বরূপ প্রায় স্বাভাবিক; বুদ্ধিমান,PAPB(α,α(1α)/N)(β,β(1β)/N)PAPB

PAPBNormal(αβ,α(1α)+β(1β)N).

খুব বড় , ব্যতীত এক্সপ্রেশনটি পৃথক হবে না খুব কম সম্ভাবনা (অন্য অবহেলিত পদ) সহ তদনুসারে, লেট আদর্শ স্বাভাবিক সিডিএফ হও,Nα(1α)+β(1β)p(1p)+p(1p)=2p(1p)O(1/N)Φ

Pr(PA>PB)=Pr(PAPB>0)Φ(αβ2p(1p)/N).

তবে যেহেতু শূন্য গড় এবং ভেরিয়েন্স a একটি আদর্শ নরমাল পরিবর্তিত (কমপক্ষে আনুমানিক) হ'ল এর সম্ভাব্যতা অবিচ্ছেদ্য রূপান্তর ; হয় অভিন্নαβ2p(1p)/N, Z=αβ2p(1p)/NΦΦ(Z)


1
পি_এ হওয়ার আগ পর্যন্ত আপনার সাথে আছি না ... তবে আপনি অন্য দিকটি অনুসরণ করবেন যা আমি পুরোপুরি অনুসরণ করি নি। কি দ্বিগুণ সংজ্ঞা দেওয়া হয়েছে, একবার স্ট্যান্ডার্ড নরমাল সিডিএফ হিসাবে এবং তারপরে সম্ভাবনা ইন্টিগ্রাল ট্রান্সফর্ম হিসাবে? আমি আশা করছি আপনি এই ধাপগুলি ঘিরে আপনার বিবরণটি প্রসারিত করতে পারেন এবং তাদের প্রাথমিক কোড / সমস্যার সাথে সম্পর্কিত করতে পারেন। হয়ত চারপাশে লুপ করুন এবং কোন নির্দিষ্ট পরামিতিগুলি ইউনিফর্মের ফলাফল উত্পন্ন করে তা পুনরায় সেট করুন। PAPBNormalΦ
রাসেলপিয়েরেস

1
@rpierce (1) পার্থক্যটি প্রায় স্বাভাবিক কারণ এবং স্বতন্ত্র এবং প্রতিটি প্রায় স্বাভাবিক। গড়টি হ'ল অর্থের পার্থক্য এবং প্রকরণটি হ'ল রূপগুলির সমষ্টি। (২) সম্ভাবনা ইন্টিগ্রাল ট্রান্সফর্মটি হ'ল সিডিএফ: এটি যে কোনও র্যান্ডম ভেরিয়েবল ক্ষেত্রে অবিচ্ছিন্ন ডিস্ট্রিবিউশন , এটি অভিন্ন। PAPBPAPBXFF(X)
whuber

1
ওহ আমি 1 পেয়েছি, এটি আমার যেখানে হারিয়ে গেছে তার পরে এটি ছিল স্টাফ। এটি বোবা হয়ে যাবে, তবে কেন সিডিএফের সমান? Pr(PA>PB)
রাসেলপিয়েরেস

1
@ আরপিয়ার্স এটি সংজ্ঞা থেকে সরাসরি অনুসরণ করে তবে একটি সামান্য মোচড় রয়েছে যেখানে সাধারণ বন্টনের প্রতিসাম্য যুক্ত হয়। আমরা একটি সাধারণ এর সাথে এবং বৈকল্পিক প্রত্যাশা আছে ধরে । মানক করা , সম্ভাব্যতাX=PAPBμ=αβσ2=2p(1p)/NX
Pr(X>0)=Pr((Xμ)/σ>(0μ)/σ)=1Φ(μ/σ)=Φ(μ/σ).
whuber

3
@ যাহা এটি বেশ আশ্চর্যজনক। আপনি একটি দুর্দান্ত শিক্ষক। আমি আপনার এবং rpierce এর উত্তর উভয়ের প্রশংসা করি, আমি এখনও তাকে ক্রেডিট দেব কারণ এটি আমাদের সমস্যার সমাধান করেছিল এবং আপনি দেখিয়েছেন যে আচরণটি কেন ঘটে। Ty!
ক্যাম.ড্যাভিডসন.পিলন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.