এটি 'প্রজাতি-নমুনা' বলে অভিহিত করা একটি আকর্ষণীয় সমস্যা, যা বছরের পর বছর ধরে প্রচুর মনোযোগ পেয়েছে এবং অন্যান্য অনেক অনুমানের সমস্যা (যেমন চিহ্ন-পুনরুদ্ধার) অন্তর্ভুক্ত করে। এটি যথেষ্ট বলুন, জাগগুলি আপনাকে এই ক্ষেত্রে সাহায্য করবে না - জাএজিএসগুলি পুনরাবৃত্তির জুড়ে একটি পরিবর্তনশীল মাত্রা সহ মার্কভ চেইনগুলি পরিচালনা করতে পারে না। রিভার্সিবল জাম্প এমসিএমসির মতো সমস্যার জন্য নকশাকৃত এমসিসিএমির স্কিমটি অবশ্যই গ্রহণ করতে হবে।
আপনি যে নির্দিষ্ট মডেলের বর্ণনা দিচ্ছেন তার জন্য এখানে একটি পদ্ধতির উপযুক্ত যা আমি প্রথম জেফ মিলার ( আর্কাইভড ) এর কাজ করেছিলাম ।
প্রথম খণ্ড (মূল প্রশ্ন)
একটি ধারণা আমি করব যে একটি প্রদত্ত বিভাগটি একটি পর্যবেক্ষণটি কম র্যাঙ্কের বিভাগগুলির অস্তিত্বকে বোঝায়। অর্থাৎ, 9 পাশের ডাই রোলটি পর্যবেক্ষণ করা 1-8 পক্ষের অস্তিত্বকে বোঝায়। এটা তোলে না আছে এই ভাবে হতে - বিভাগ অবাধ হতে পারে - কিন্তু আমি আমার উদাহরণে তাই অনুমান করব। এর অর্থ হল অন্যান্য প্রজাতি-অনুমানের সমস্যার বিপরীতে 0 মানগুলি পর্যবেক্ষণযোগ্য।
ধরা যাক আমাদের একটি বহু-জাতীয় নমুনা রয়েছে,
Y={y1,y2,…,ym,ym+1,…,yn}∼M({p1,p2,…,pm,pm+1,…,pn})
কোথায় m সর্বাধিক বিভাগ পর্যবেক্ষণ করা হয়, n (অজানা) বিভাগগুলির সংখ্যা এবং সমস্ত {ym+1,…,yn} সমান 0. পরামিতি nসীমাবদ্ধ, এবং আমাদের এটির জন্য পূর্বের প্রয়োজন। সমর্থন সঙ্গে কোনও পৃথক, যথাযথ পূর্বে[1,∞)কাজ করবে; উদাহরণস্বরূপ শূন্য-কাটা পোয়েসন নিন:
n∼P(λ),n>0
বহু-জাতীয় সম্ভাব্যতার জন্য সুবিধামত আগে হ'ল ডিরিচলেট,
P={p1,…,pn}∼D({α1,…,αn})
এবং জন্য সহজভাবে অনুমান α1=α2=⋯=αn=α~।
সমস্যাটিকে আরও ট্র্যাকটেবল করতে, আমরা ওজনকে প্রান্তিক করে তুলি:
p(Y|α~,n)=∫Pp(Y|P,n)p(P|α~,n)dP
যা এক্ষেত্রে সুচতর্কিত ডিরিচলেট-বহুজাতিক বিতরণকে নেতৃত্ব দেয় । সেক্ষেত্রে লক্ষ্যটি শর্তাধীন পোস্টেরিয়রের অনুমান করা,
p(n|Y,α~,λ)=p(Y|n,α~)p(n|λ)p(Y|α~,λ)
যেখানে আমি স্পষ্টভাবে ধরে নিচ্ছি α~ এবং λহাইপারপাটারি স্থির করা হয়। এটি দেখতে সহজ:
p(Y|α~,λ)=∑n=1∞p(Y|n,α~)p(n|λ)
কোথায় p(Y|n,α~)=0 কোথায় n<m। এই অসীম সিরিজটি বরং দ্রুত রূপান্তরিত হওয়া উচিত (যতক্ষণ না পূর্বের লেজটি খুব বেশি ভারী না হয়), এবং তাই সহজেই অনুমান করা যায়। ছাঁটাই পোয়েসনের জন্য এটির ফর্মটি রয়েছে:
p(Y|α~,λ)=1(eλ−1)∑n=m∞Γ(nα~)∏ni=1Γ(yi+α~)Γ(nα~+∑ni=1yi)Γ(α~)n⋅λnn!
নেতৃস্থানীয়:
p(n|Y,α~,λ)=Γ(nα~)∏ni=1Γ(yi+α~)Γ(nα~+∑ni=1yi)Γ(α~)n⋅λnn!⋅(∑j=m∞Γ(jα~)∏ji=1Γ(yi+α~)Γ(jα~+∑ji=1yi)Γ(α~)j⋅λjj!)−1
যার সমর্থন আছে [m,∞)। এই ক্ষেত্রে এমসিসিসির দরকার নেই কারণ বেইসের নিয়মের ডিনোমিনেটরে থাকা সীমাহীন সীমাকে খুব বেশি প্রচেষ্টা ছাড়াই প্রায় করা যায়।
এখানে আর এর একটি নিবিড় উদাহরণ:
logPosteriorN <- function(max, Y, lambda, alpha){
m <- length(Y)
sumy <- sum(Y)
pp <- sapply(1:max, function(j){
prior <- log(lambda)*j - log(exp(lambda)-1) - lgamma(j+1)
posterior <- lgamma(alpha*j) + sum(lgamma(Y + alpha)) - j*lgamma(alpha) - lgamma(sumy + j*alpha)
if( j > m ) { posterior <- posterior + (j-m)*lgamma(alpha) }
else if( j < m ) { posterior = -Inf }
prior + posterior
})
evidence <- log(sum(exp(pp))) # there's no check that this converges
pp - evidence
}
## with even representation of sides
Y <- c(10, 10, 10, 10)
post <- logPosteriorN(30, Y, 10, 1.2)
plot(1:30, exp(post), pch=19, type="b")
## with uneven representation of sides
Y <- c(1, 2, 1, 0, 0, 2, 1, 0, 1)
post <- logPosteriorN(30, Y, 10, 1.2)
plot(1:30, exp(post), pch=19, type="b")
আপনার স্বজ্ঞাততাটি সঠিক: বিভাগগুলিতে বিচ্ছিন্ন নমুনা বিভাগের মোট সংখ্যা সম্পর্কে আরও অনিশ্চয়তার দিকে নিয়ে যায়। আপনি যদি চিকিত্সা করতে ইচ্ছুকα~ একটি অজানা প্যারামিটার হিসাবে, আপনার MCMC এবং এর বিকল্প আপডেট ব্যবহার করতে হবে এন এবং α~।
অবশ্যই, এটি অনুমানের একটি পন্থা। আপনি সহজেই অন্যদের (বায়েশিয়ান এবং অ-বায়েশিয়ান স্বাদের) স্বল্প অনুসন্ধানের সাথে খুঁজে পাবেন।
দ্বিতীয় খণ্ড (মন্তব্যের জবাব)
ওয়াই= {Y1, … ,Yমি,Yমি + 1, … ,Yএন} আংশিকভাবে পর্যবেক্ষণ করা বহু সম্ভাব্য ভেক্টর যার সাথে সম্পর্কিত সম্ভাবনা রয়েছে Ω = {ω1, … ,ωমি,ωমি + 1, … ,ωএন}:
পি আর (ওয়াই)| Ω,n)=Γ (Σএনi = 1Yআমি+ 1 )Πএনi = 1Γ (Yআমি+ 1 )Πi = 1এনωYআমিআমি
কোথায় Y। এন, Y1...Yমি> 0 এবং Yমি + 1...Yএন= 0তবে অন্যথায় সূচকগুলি আপত্তিজনক। আগের মতোই সমস্যাটি প্রকৃত সংখ্যার অনুমান করাএন, এবং আমরা একটি অগ্রিম সঙ্গে শুরু এন যেমন একটি শূন্য-কাটা পোয়েসন:
পি r (n | λ)=λএন( এক্সপ্রেস{λ}−1)n!, n∈Z+
Also as before, we treat the multinomial probabilities Ω as Dirichlet distributed with a symmetric hyperparameter α~, i.e. for a given n,
Pr(Ω|α~,n)=Γ(nα~)Γ(α~)n∏i=1nωα~−1i
Integrating (marginalizing) over the vector of probabilities gives the multinomial Dirichlet:
Pr(Y|α~,n)=∫Pr(Y|Ω,n)Pr(Ω|α~,n)=Γ(nα~)Γ(∑ni=1yi+nα~)Γ(α~)n∏i=1nΓ(yi+α~)
এখানে আমরা উপরের অংশে মডেলটি থেকে আলাদা হয়েছি। প্রথম খণ্ডে, বিভাগগুলিতে একটি অন্তর্নিহিত আদেশ ছিল: উদাহরণস্বরূপ, একটিতেএন- পক্ষপাতদুষ্ট, বিভাগগুলির (পক্ষগুলির) একটি অন্তর্নিহিত ক্রম এবং কোনও বিভাগের পর্যবেক্ষণ রয়েছে আমি ∈ { 1 ... এন } আরও কম বিভাগের অস্তিত্ব বোঝায় j < i। দ্বিতীয় খণ্ডে, আমাদের একটি আংশিক পর্যবেক্ষণ করা বহু-জাতীয় র্যান্ডম ভেক্টর রয়েছে যার কোনও অন্তর্নিহিত ক্রম নেই order অন্য কথায়, ডেটাতে বিন্দুগুলিতে বিন্যস্ত বিভাজনকে উপস্থাপন করে ডেটাm ≤ nপর্যবেক্ষণ বিভাগ। আমি অর্ডারযুক্ত বিভাজন চিহ্নিত করব যা এর ফলাফল fromওয়াই দ্বারা সংযোজন n - মি অরক্ষিত বিভাগ, হিসাবে পি[ ওয়াই]।
The probability of the unordered partition conditional on a true number of categories n, can be found by considering the number of permutations of categories which result in the same partition:
Pr(P[Y]|α~,n)=n!(n−m)!Pr(Y|α~,n)
And this can be integrated over n to give:
Pr(P[Y]|α~,λ)=∑j=m∞Pr(P[Y]|α~,n)Pr(n|λ)
Using Bayes' rule to retrieve the posterior:
Pr(n|P[Y] ,α~, λ ) =পি আর ( পি[ ওয়াই] | | এন ,α~) পি আর ( এন | λ )পি আর ( পি[ ওয়াই] | |α~, λ )
উপরের সংজ্ঞাগুলি থেকে কেবল প্লাগ ইন করুন। আবার, ডিনোমিনেটর একটি অসীম সিরিজ যা দ্রুত রূপান্তরিত করবে: এই সাধারণ মডেলটিতে এমসিসিএমিকে পর্যাপ্ত সান্নিধ্য দেওয়ার প্রয়োজন নেই।
প্রথম ভাগ থেকে আর কোড পরিবর্তন করে:
logPosteriorN_2 <- function(max, Y, lambda, alpha){
m <- length(Y)
sumy <- sum(Y)
pp <- sapply(1:max, function(j){
prior <- log(lambda)*j - log(exp(lambda)-1) - lgamma(j+1)
likelihood <- lchoose(j, m) + lgamma(m + 1) + lgamma(alpha*j) + sum(lgamma(Y + alpha)) - j*lgamma(alpha) - lgamma(sumy + j*alpha)
if( j > m ) { likelihood <- likelihood + (j-m)*lgamma(alpha) }
else if( j < m ) { likelihood = -Inf }
prior + likelihood
})
evidence <- log(sum(exp(pp))) # there's no check that this converges
pp - evidence
}
Y_1 <- rep(10, 15)
pos_1 <- logPosteriorN_2(50, Y_1, 6, 1)
plot(1:50, exp(pos_1))