একটি মারা কত পক্ষের আছে? জেএজেজে বায়েশিয়ান অনুমান in


9

সমস্যা

আমি অজানা সংখ্যক পক্ষের সাথে মরার জন্য অনুরূপ একটি সিস্টেমে কিছুটা অনুমান করতে চাই। ডাইটি বেশ কয়েকবার ঘূর্ণিত হয়, তার পরে আমি মরার পাশের সংখ্যার সাথে সম্পর্কিত একটি প্যারামিটারের উপরে সম্ভাব্যতা বন্টন অনুমান করতে চাই θ θ

স্বজ্ঞা

যদি 40 রোলগুলির পরে আপনি 10 টি লাল, 10 ব্লুজ, 10 গ্রিনস এবং 10 ইয়েলো দেখেছেন তবে মনে হয় θ 4 এর উপরে উঠতে হবে এবং প্রতিটি পক্ষ ঘূর্ণনের পক্ষপাতগুলি 1/4 কেন্দ্রিক বিতরণগুলি হবে are

θ এর তুচ্ছ নিম্ন আবদ্ধ থাকে, যা ডেটাতে লক্ষ্য করা বিভিন্ন পক্ষের সংখ্যা।

উপরের গণ্ডি এখনও অজানা। পঞ্চম দিক থাকতে পারে যা সম্ভবত কম পক্ষপাতিত্ব করবে have পঞ্চম শ্রেণির অভাবের জন্য আপনি যত বেশি ডেটা পর্যবেক্ষণ করছেন, তার উচ্চতর prob = 4 এর সম্ভাবনা বেশি।

অভিগমন

আমি অনুরূপ সমস্যার জন্য আরএজিএস ব্যবহার করেছি (আর এবং রজ্যাগগুলির মাধ্যমে) যা এখানে উপযুক্ত বলে মনে হচ্ছে।

ডেটা সম্পর্কে শ্রদ্ধার সাথে, obs <- c(10, 10, 10, 10)উপরের উদাহরণে পর্যবেক্ষণের সাথে সামঞ্জস্য করতে বলি ।

আমি মনে করি পর্যবেক্ষণগুলি বহু-জাতীয় বিতরণের সাথে মডেল করা উচিত obs ~ dmulti(p, n), কোথায় p ~ ddirch(alpha)এবং n <- length(obs)

by দ্বারা উল্লিখিত বিভাগগুলির সংখ্যার সাথে লিঙ্কযুক্ত alpha, তাই আমি alphaবিভিন্ন সম্ভাব্য সংখ্যার বিভাগকে অন্তর্ভুক্ত করতে কীভাবে মডেল করব ?

বিকল্প?

আমি বেয়েসিয়ান বিশ্লেষণে একেবারে নতুন, যাতে ভুল গাছটি পুরোপুরি ঝাঁকিয়ে দেওয়া হতে পারে, এমন কোনও বিকল্প মডেল রয়েছে যা এই সমস্যাটির জন্য বিভিন্ন অন্তর্দৃষ্টি দিতে পারে?

অনেক ধন্যবাদ! ডেভিড

উত্তর:


6

এটি 'প্রজাতি-নমুনা' বলে অভিহিত করা একটি আকর্ষণীয় সমস্যা, যা বছরের পর বছর ধরে প্রচুর মনোযোগ পেয়েছে এবং অন্যান্য অনেক অনুমানের সমস্যা (যেমন চিহ্ন-পুনরুদ্ধার) অন্তর্ভুক্ত করে। এটি যথেষ্ট বলুন, জাগগুলি আপনাকে এই ক্ষেত্রে সাহায্য করবে না - জাএজিএসগুলি পুনরাবৃত্তির জুড়ে একটি পরিবর্তনশীল মাত্রা সহ মার্কভ চেইনগুলি পরিচালনা করতে পারে না। রিভার্সিবল জাম্প এমসিএমসির মতো সমস্যার জন্য নকশাকৃত এমসিসিএমির স্কিমটি অবশ্যই গ্রহণ করতে হবে।

আপনি যে নির্দিষ্ট মডেলের বর্ণনা দিচ্ছেন তার জন্য এখানে একটি পদ্ধতির উপযুক্ত যা আমি প্রথম জেফ মিলার ( আর্কাইভড ) এর কাজ করেছিলাম

প্রথম খণ্ড (মূল প্রশ্ন)

একটি ধারণা আমি করব যে একটি প্রদত্ত বিভাগটি একটি পর্যবেক্ষণটি কম র‌্যাঙ্কের বিভাগগুলির অস্তিত্বকে বোঝায়। অর্থাৎ, 9 পাশের ডাই রোলটি পর্যবেক্ষণ করা 1-8 পক্ষের অস্তিত্বকে বোঝায়। এটা তোলে না আছে এই ভাবে হতে - বিভাগ অবাধ হতে পারে - কিন্তু আমি আমার উদাহরণে তাই অনুমান করব। এর অর্থ হল অন্যান্য প্রজাতি-অনুমানের সমস্যার বিপরীতে 0 মানগুলি পর্যবেক্ষণযোগ্য।

ধরা যাক আমাদের একটি বহু-জাতীয় নমুনা রয়েছে,

Y={y1,y2,,ym,ym+1,,yn}M({p1,p2,,pm,pm+1,,pn})

কোথায় m সর্বাধিক বিভাগ পর্যবেক্ষণ করা হয়, n (অজানা) বিভাগগুলির সংখ্যা এবং সমস্ত {ym+1,,yn} সমান 0. পরামিতি nসীমাবদ্ধ, এবং আমাদের এটির জন্য পূর্বের প্রয়োজন। সমর্থন সঙ্গে কোনও পৃথক, যথাযথ পূর্বে[1,)কাজ করবে; উদাহরণস্বরূপ শূন্য-কাটা পোয়েসন নিন:

nP(λ),n>0

বহু-জাতীয় সম্ভাব্যতার জন্য সুবিধামত আগে হ'ল ডিরিচলেট,

P={p1,,pn}D({α1,,αn})

এবং জন্য সহজভাবে অনুমান α1=α2==αn=α~

সমস্যাটিকে আরও ট্র্যাকটেবল করতে, আমরা ওজনকে প্রান্তিক করে তুলি:

p(Y|α~,n)=Pp(Y|P,n)p(P|α~,n)dP

যা এক্ষেত্রে সুচতর্কিত ডিরিচলেট-বহুজাতিক বিতরণকে নেতৃত্ব দেয় । সেক্ষেত্রে লক্ষ্যটি শর্তাধীন পোস্টেরিয়রের অনুমান করা,

p(n|Y,α~,λ)=p(Y|n,α~)p(n|λ)p(Y|α~,λ)

যেখানে আমি স্পষ্টভাবে ধরে নিচ্ছি α~ এবং λহাইপারপাটারি স্থির করা হয়। এটি দেখতে সহজ:

p(Y|α~,λ)=n=1p(Y|n,α~)p(n|λ)

কোথায় p(Y|n,α~)=0 কোথায় n<m। এই অসীম সিরিজটি বরং দ্রুত রূপান্তরিত হওয়া উচিত (যতক্ষণ না পূর্বের লেজটি খুব বেশি ভারী না হয়), এবং তাই সহজেই অনুমান করা যায়। ছাঁটাই পোয়েসনের জন্য এটির ফর্মটি রয়েছে:

p(Y|α~,λ)=1(eλ1)n=mΓ(nα~)i=1nΓ(yi+α~)Γ(nα~+i=1nyi)Γ(α~)nλnn!

নেতৃস্থানীয়:

p(n|Y,α~,λ)=Γ(nα~)i=1nΓ(yi+α~)Γ(nα~+i=1nyi)Γ(α~)nλnn!(j=mΓ(jα~)i=1jΓ(yi+α~)Γ(jα~+i=1jyi)Γ(α~)jλjj!)1

যার সমর্থন আছে [m,)। এই ক্ষেত্রে এমসিসিসির দরকার নেই কারণ বেইসের নিয়মের ডিনোমিনেটরে থাকা সীমাহীন সীমাকে খুব বেশি প্রচেষ্টা ছাড়াই প্রায় করা যায়।

এখানে আর এর একটি নিবিড় উদাহরণ:

logPosteriorN <- function(max, Y, lambda, alpha){
    m <- length(Y)
    sumy <- sum(Y)
    pp <- sapply(1:max, function(j){
        prior <- log(lambda)*j - log(exp(lambda)-1) - lgamma(j+1)
        posterior <- lgamma(alpha*j) + sum(lgamma(Y + alpha)) - j*lgamma(alpha) - lgamma(sumy + j*alpha)
        if( j > m ) { posterior <- posterior + (j-m)*lgamma(alpha) } 
        else if( j < m ) { posterior = -Inf }
        prior + posterior
        })
    evidence <- log(sum(exp(pp))) # there's no check that this converges
    pp - evidence
}

## with even representation of sides
Y <- c(10, 10, 10, 10)
post <- logPosteriorN(30, Y, 10, 1.2)
plot(1:30, exp(post), pch=19, type="b")

## with uneven representation of sides
Y <- c(1, 2, 1, 0, 0, 2, 1, 0, 1)
post <- logPosteriorN(30, Y, 10, 1.2)
plot(1:30, exp(post), pch=19, type="b")

আপনার স্বজ্ঞাততাটি সঠিক: বিভাগগুলিতে বিচ্ছিন্ন নমুনা বিভাগের মোট সংখ্যা সম্পর্কে আরও অনিশ্চয়তার দিকে নিয়ে যায়। আপনি যদি চিকিত্সা করতে ইচ্ছুকα~ একটি অজানা প্যারামিটার হিসাবে, আপনার MCMC এবং এর বিকল্প আপডেট ব্যবহার করতে হবে এন এবং α~

অবশ্যই, এটি অনুমানের একটি পন্থা। আপনি সহজেই অন্যদের (বায়েশিয়ান এবং অ-বায়েশিয়ান স্বাদের) স্বল্প অনুসন্ধানের সাথে খুঁজে পাবেন।

দ্বিতীয় খণ্ড (মন্তব্যের জবাব)

ওয়াই={Y1,...,Yমি,Yমি+ +1,...,Yএন} আংশিকভাবে পর্যবেক্ষণ করা বহু সম্ভাব্য ভেক্টর যার সাথে সম্পর্কিত সম্ভাবনা রয়েছে Ω={ω1,...,ωমি,ωমি+ +1,...,ωএন}:

পিR(ওয়াই|Ω,এন)=Γ(Σআমি=1এনYআমি+ +1)Πআমি=1এনΓ(Yআমি+ +1)Πআমি=1এনωআমিYআমি

কোথায় Yএন, Y1...Yমি>0 এবং Yমি+ +1...Yএন=0তবে অন্যথায় সূচকগুলি আপত্তিজনক। আগের মতোই সমস্যাটি প্রকৃত সংখ্যার অনুমান করাএন, এবং আমরা একটি অগ্রিম সঙ্গে শুরু এন যেমন একটি শূন্য-কাটা পোয়েসন:

Pr(n|λ)=λn(exp{λ}1)n!, nZ+

Also as before, we treat the multinomial probabilities Ω as Dirichlet distributed with a symmetric hyperparameter α~, i.e. for a given n,

Pr(Ω|α~,n)=Γ(nα~)Γ(α~)ni=1nωiα~1

Integrating (marginalizing) over the vector of probabilities gives the multinomial Dirichlet:

Pr(Y|α~,n)=Pr(Y|Ω,n)Pr(Ω|α~,n)=Γ(nα~)Γ(i=1nyi+nα~)Γ(α~)ni=1nΓ(yi+α~)

এখানে আমরা উপরের অংশে মডেলটি থেকে আলাদা হয়েছি। প্রথম খণ্ডে, বিভাগগুলিতে একটি অন্তর্নিহিত আদেশ ছিল: উদাহরণস্বরূপ, একটিতেএন- পক্ষপাতদুষ্ট, বিভাগগুলির (পক্ষগুলির) একটি অন্তর্নিহিত ক্রম এবং কোনও বিভাগের পর্যবেক্ষণ রয়েছে আমি{1...এন} আরও কম বিভাগের অস্তিত্ব বোঝায় <আমি। দ্বিতীয় খণ্ডে, আমাদের একটি আংশিক পর্যবেক্ষণ করা বহু-জাতীয় র্যান্ডম ভেক্টর রয়েছে যার কোনও অন্তর্নিহিত ক্রম নেই order অন্য কথায়, ডেটাতে বিন্দুগুলিতে বিন্যস্ত বিভাজনকে উপস্থাপন করে ডেটামিএনপর্যবেক্ষণ বিভাগ। আমি অর্ডারযুক্ত বিভাজন চিহ্নিত করব যা এর ফলাফল fromওয়াই দ্বারা সংযোজন এন-মি অরক্ষিত বিভাগ, হিসাবে পি[ওয়াই]

The probability of the unordered partition conditional on a true number of categories n, can be found by considering the number of permutations of categories which result in the same partition:

Pr(P[Y]|α~,n)=n!(nm)!Pr(Y|α~,n)

And this can be integrated over n to give:

Pr(P[Y]|α~,λ)=j=mPr(P[Y]|α~,n)Pr(n|λ)

Using Bayes' rule to retrieve the posterior:

পিR(এন|পি[ওয়াই],α~,λ)=পিR(পি[ওয়াই]|এন,α~)পিR(এন|λ)পিR(পি[ওয়াই]|α~,λ)

উপরের সংজ্ঞাগুলি থেকে কেবল প্লাগ ইন করুন। আবার, ডিনোমিনেটর একটি অসীম সিরিজ যা দ্রুত রূপান্তরিত করবে: এই সাধারণ মডেলটিতে এমসিসিএমিকে পর্যাপ্ত সান্নিধ্য দেওয়ার প্রয়োজন নেই।

প্রথম ভাগ থেকে আর কোড পরিবর্তন করে:

logPosteriorN_2 <- function(max, Y, lambda, alpha){
    m <- length(Y)
    sumy <- sum(Y)
    pp <- sapply(1:max, function(j){
        prior <- log(lambda)*j - log(exp(lambda)-1) - lgamma(j+1)
        likelihood <- lchoose(j, m) + lgamma(m + 1) + lgamma(alpha*j) + sum(lgamma(Y + alpha)) - j*lgamma(alpha) - lgamma(sumy + j*alpha)
        if( j > m ) { likelihood <- likelihood + (j-m)*lgamma(alpha) } 
        else if( j < m ) { likelihood = -Inf }
        prior + likelihood
        })
    evidence <- log(sum(exp(pp))) # there's no check that this converges
    pp - evidence
}

Y_1 <- rep(10, 15)
pos_1 <- logPosteriorN_2(50, Y_1, 6, 1)
plot(1:50, exp(pos_1))

আপনার সম্পূর্ণ উত্তরের জন্য অনেক ধন্যবাদ। (আমার খুব ধীর প্রতিক্রিয়া জন্য দুঃখিত)। আমি এই ধরণের প্রশ্নে ফিরে এসেছি এবং এখনও গণিতগুলির মধ্যে দিয়ে চলেছি। আমার সিস্টেমে বিভাগগুলি অর্ডিনাল নয়, সুতরাং একটি ধারনা যে কোনও নির্দিষ্ট শ্রেণীর দ্বারা নিম্ন স্তরের বিভাগের অস্তিত্ব বোঝায় তা অনুমান করা অবৈধ।
দেবিপট্টি

@ দেবিপট্টি দ্বিতীয় অংশে উত্তর দিয়েছেন।
নাট পোপ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.