একটি মারা কত পক্ষের আছে? জেএজেজে বায়েশিয়ান অনুমান in

সমস্যা

আমি অজানা সংখ্যক পক্ষের সাথে মরার জন্য অনুরূপ একটি সিস্টেমে কিছুটা অনুমান করতে চাই। ডাইটি বেশ কয়েকবার ঘূর্ণিত হয়, তার পরে আমি মরার পাশের সংখ্যার সাথে সম্পর্কিত একটি প্যারামিটারের উপরে সম্ভাব্যতা বন্টন অনুমান করতে চাই θ θ

স্বজ্ঞা

যদি 40 রোলগুলির পরে আপনি 10 টি লাল, 10 ব্লুজ, 10 গ্রিনস এবং 10 ইয়েলো দেখেছেন তবে মনে হয় θ 4 এর উপরে উঠতে হবে এবং প্রতিটি পক্ষ ঘূর্ণনের পক্ষপাতগুলি 1/4 কেন্দ্রিক বিতরণগুলি হবে are

θ এর তুচ্ছ নিম্ন আবদ্ধ থাকে, যা ডেটাতে লক্ষ্য করা বিভিন্ন পক্ষের সংখ্যা।

উপরের গণ্ডি এখনও অজানা। পঞ্চম দিক থাকতে পারে যা সম্ভবত কম পক্ষপাতিত্ব করবে have পঞ্চম শ্রেণির অভাবের জন্য আপনি যত বেশি ডেটা পর্যবেক্ষণ করছেন, তার উচ্চতর prob = 4 এর সম্ভাবনা বেশি।

অভিগমন

আমি অনুরূপ সমস্যার জন্য আরএজিএস ব্যবহার করেছি (আর এবং রজ্যাগগুলির মাধ্যমে) যা এখানে উপযুক্ত বলে মনে হচ্ছে।

ডেটা সম্পর্কে শ্রদ্ধার সাথে, obs <- c(10, 10, 10, 10)উপরের উদাহরণে পর্যবেক্ষণের সাথে সামঞ্জস্য করতে বলি ।

আমি মনে করি পর্যবেক্ষণগুলি বহু-জাতীয় বিতরণের সাথে মডেল করা উচিত obs ~ dmulti(p, n), কোথায় p ~ ddirch(alpha)এবং n <- length(obs)।

by দ্বারা উল্লিখিত বিভাগগুলির সংখ্যার সাথে লিঙ্কযুক্ত alpha, তাই আমি alphaবিভিন্ন সম্ভাব্য সংখ্যার বিভাগকে অন্তর্ভুক্ত করতে কীভাবে মডেল করব ?

বিকল্প?

আমি বেয়েসিয়ান বিশ্লেষণে একেবারে নতুন, যাতে ভুল গাছটি পুরোপুরি ঝাঁকিয়ে দেওয়া হতে পারে, এমন কোনও বিকল্প মডেল রয়েছে যা এই সমস্যাটির জন্য বিভিন্ন অন্তর্দৃষ্টি দিতে পারে?

অনেক ধন্যবাদ! ডেভিড

r probability bayesian jags

— davipatti
সূত্র

এটি 'প্রজাতি-নমুনা' বলে অভিহিত করা একটি আকর্ষণীয় সমস্যা, যা বছরের পর বছর ধরে প্রচুর মনোযোগ পেয়েছে এবং অন্যান্য অনেক অনুমানের সমস্যা (যেমন চিহ্ন-পুনরুদ্ধার) অন্তর্ভুক্ত করে। এটি যথেষ্ট বলুন, জাগগুলি আপনাকে এই ক্ষেত্রে সাহায্য করবে না - জাএজিএসগুলি পুনরাবৃত্তির জুড়ে একটি পরিবর্তনশীল মাত্রা সহ মার্কভ চেইনগুলি পরিচালনা করতে পারে না। রিভার্সিবল জাম্প এমসিএমসির মতো সমস্যার জন্য নকশাকৃত এমসিসিএমির স্কিমটি অবশ্যই গ্রহণ করতে হবে।

আপনি যে নির্দিষ্ট মডেলের বর্ণনা দিচ্ছেন তার জন্য এখানে একটি পদ্ধতির উপযুক্ত যা আমি প্রথম জেফ মিলার ( আর্কাইভড ) এর কাজ করেছিলাম ।

প্রথম খণ্ড (মূল প্রশ্ন)

একটি ধারণা আমি করব যে একটি প্রদত্ত বিভাগটি একটি পর্যবেক্ষণটি কম র‌্যাঙ্কের বিভাগগুলির অস্তিত্বকে বোঝায়। অর্থাৎ, 9 পাশের ডাই রোলটি পর্যবেক্ষণ করা 1-8 পক্ষের অস্তিত্বকে বোঝায়। এটা তোলে না আছে এই ভাবে হতে - বিভাগ অবাধ হতে পারে - কিন্তু আমি আমার উদাহরণে তাই অনুমান করব। এর অর্থ হল অন্যান্য প্রজাতি-অনুমানের সমস্যার বিপরীতে 0 মানগুলি পর্যবেক্ষণযোগ্য।

ধরা যাক আমাদের একটি বহু-জাতীয় নমুনা রয়েছে,

Y = {y_{1}, y_{2}, \dots, y_{m}, y_{m + 1}, \dots, y_{n}} \sim M ({p_{1}, p_{2}, \dots, p_{m}, p_{m + 1}, \dots, p_{n}})

$Y = \{y_1, y_2, \dots, y_m, y_{m+1}, \dots, y_{n} \} \sim \mathcal{M}(\{p_1, p_2, \dots, p_m, p_{m+1}, \dots, p_n\})$

কোথায় $m$ সর্বাধিক বিভাগ পর্যবেক্ষণ করা হয়, $n$ (অজানা) বিভাগগুলির সংখ্যা এবং সমস্ত $\{y_{m+1},\dots,y_{n}\}$ সমান 0. পরামিতি $n$ সীমাবদ্ধ, এবং আমাদের এটির জন্য পূর্বের প্রয়োজন। সমর্থন সঙ্গে কোনও পৃথক, যথাযথ পূর্বে $[1, \infty)$ কাজ করবে; উদাহরণস্বরূপ শূন্য-কাটা পোয়েসন নিন:

n \sim P (λ), n > 0

$n \sim \mathcal{P}(\lambda), n > 0$

বহু-জাতীয় সম্ভাব্যতার জন্য সুবিধামত আগে হ'ল ডিরিচলেট,

P = {p_{1}, \dots, p_{n}} \sim D ({α_{1}, \dots, α_{n}})

$P = \{ p_1, \dots, p_n \} \sim \mathcal{D}(\{ \alpha_1, \dots, \alpha_n \})$

এবং জন্য সহজভাবে অনুমান $\alpha_1 = \alpha_2 = \dots = \alpha_n = \tilde{\alpha}$ ।

সমস্যাটিকে আরও ট্র্যাকটেবল করতে, আমরা ওজনকে প্রান্তিক করে তুলি:

p (Y | \tilde{α}, n) = \int_{P} p (Y | P, n) p (P | \tilde{α}, n) d P

$p(Y|\tilde{\alpha}, n) = \int_P p(Y|P, n)p(P|\tilde{\alpha}, n) dP$

যা এক্ষেত্রে সুচতর্কিত ডিরিচলেট-বহুজাতিক বিতরণকে নেতৃত্ব দেয় । সেক্ষেত্রে লক্ষ্যটি শর্তাধীন পোস্টেরিয়রের অনুমান করা,

p (n | Y, \tilde{α}, λ) = \frac{p (Y | n, \tilde{α}) p (n | λ)}{p (Y | \tilde{α}, λ)}

$p(n|Y, \tilde{\alpha}, \lambda) = \frac{ p(Y|n, \tilde{\alpha}) p(n|\lambda) }{ p(Y|\tilde{\alpha}, \lambda) }$

যেখানে আমি স্পষ্টভাবে ধরে নিচ্ছি $\tilde{\alpha}$ এবং $\lambda$ হাইপারপাটারি স্থির করা হয়। এটি দেখতে সহজ:

p (Y | \tilde{α}, λ) = \sum_{n = 1}^{\infty} p (Y | n, \tilde{α}) p (n | λ)

$p(Y|\tilde{\alpha}, \lambda) = \sum_{n=1}^\infty p(Y|n, \tilde{\alpha}) p(n|\lambda)$

কোথায় $p(Y|n, \tilde{\alpha}) = 0$ কোথায় $n < m$ । এই অসীম সিরিজটি বরং দ্রুত রূপান্তরিত হওয়া উচিত (যতক্ষণ না পূর্বের লেজটি খুব বেশি ভারী না হয়), এবং তাই সহজেই অনুমান করা যায়। ছাঁটাই পোয়েসনের জন্য এটির ফর্মটি রয়েছে:

p (Y | \tilde{α}, λ) = \frac{1}{(e^{λ} - 1)} \sum_{n = m}^{\infty} \frac{Γ (n \tilde{α}) \prod_{i = 1}^{n} Γ (y_{i} + \tilde{α})}{Γ (n \tilde{α} + \sum_{i = 1}^{n} y_{i}) Γ (\tilde{α})^{n}} \cdot \frac{λ^{n}}{n!}

$p(Y|\tilde{\alpha}, \lambda) = \frac{1}{(e^\lambda - 1)} \sum_{n=m}^\infty \frac{\Gamma(n\tilde{\alpha})\prod_{i=1}^n \Gamma(y_i + \tilde{\alpha})}{\Gamma(n\tilde{\alpha} + \sum_{i=1}^n y_i) \Gamma(\tilde{\alpha})^n} \cdot \frac{\lambda^n}{n!}$

নেতৃস্থানীয়:

p (n | Y, \tilde{α}, λ) = \frac{Γ (n \tilde{α}) \prod_{i = 1}^{n} Γ (y_{i} + \tilde{α})}{Γ (n \tilde{α} + \sum_{i = 1}^{n} y_{i}) Γ (\tilde{α})^{n}} \cdot \frac{λ^{n}}{n!} \cdot {(\sum_{j = m}^{\infty} \frac{Γ (j \tilde{α}) \prod_{i = 1}^{j} Γ (y_{i} + \tilde{α})}{Γ (j \tilde{α} + \sum_{i = 1}^{j} y_{i}) Γ (\tilde{α})^{j}} \cdot \frac{λ^{j}}{j!})}^{- 1}

$p(n|Y,\tilde{\alpha}, \lambda) = \frac{\Gamma(n\tilde{\alpha})\prod_{i=1}^n \Gamma(y_i + \tilde{\alpha})}{\Gamma(n\tilde{\alpha} + \sum_{i=1}^n y_i) \Gamma(\tilde{\alpha})^n} \cdot \frac{\lambda^n}{n!} \cdot \left(\sum_{j=m}^\infty \frac{\Gamma(j\tilde{\alpha})\prod_{i=1}^j \Gamma(y_i + \tilde{\alpha})}{\Gamma(j\tilde{\alpha} + \sum_{i=1}^j y_i) \Gamma(\tilde{\alpha})^j} \cdot \frac{\lambda^j}{j!}\right)^{-1}$

যার সমর্থন আছে $[m, \infty)$ । এই ক্ষেত্রে এমসিসিসির দরকার নেই কারণ বেইসের নিয়মের ডিনোমিনেটরে থাকা সীমাহীন সীমাকে খুব বেশি প্রচেষ্টা ছাড়াই প্রায় করা যায়।

এখানে আর এর একটি নিবিড় উদাহরণ:

logPosteriorN <- function(max, Y, lambda, alpha){
    m <- length(Y)
    sumy <- sum(Y)
    pp <- sapply(1:max, function(j){
        prior <- log(lambda)*j - log(exp(lambda)-1) - lgamma(j+1)
        posterior <- lgamma(alpha*j) + sum(lgamma(Y + alpha)) - j*lgamma(alpha) - lgamma(sumy + j*alpha)
        if( j > m ) { posterior <- posterior + (j-m)*lgamma(alpha) } 
        else if( j < m ) { posterior = -Inf }
        prior + posterior
        })
    evidence <- log(sum(exp(pp))) # there's no check that this converges
    pp - evidence
}

## with even representation of sides
Y <- c(10, 10, 10, 10)
post <- logPosteriorN(30, Y, 10, 1.2)
plot(1:30, exp(post), pch=19, type="b")

## with uneven representation of sides
Y <- c(1, 2, 1, 0, 0, 2, 1, 0, 1)
post <- logPosteriorN(30, Y, 10, 1.2)
plot(1:30, exp(post), pch=19, type="b")

আপনার স্বজ্ঞাততাটি সঠিক: বিভাগগুলিতে বিচ্ছিন্ন নমুনা বিভাগের মোট সংখ্যা সম্পর্কে আরও অনিশ্চয়তার দিকে নিয়ে যায়। আপনি যদি চিকিত্সা করতে ইচ্ছুক $\tilde{\alpha}$ একটি অজানা প্যারামিটার হিসাবে, আপনার MCMC এবং এর বিকল্প আপডেট ব্যবহার করতে হবে $n$ এবং $\tilde{\alpha}$ ।

অবশ্যই, এটি অনুমানের একটি পন্থা। আপনি সহজেই অন্যদের (বায়েশিয়ান এবং অ-বায়েশিয়ান স্বাদের) স্বল্প অনুসন্ধানের সাথে খুঁজে পাবেন।

দ্বিতীয় খণ্ড (মন্তব্যের জবাব)

$Y = \{y_1, \dots, y_m, y_{m+1}, \dots, y_n \}$ আংশিকভাবে পর্যবেক্ষণ করা বহু সম্ভাব্য ভেক্টর যার সাথে সম্পর্কিত সম্ভাবনা রয়েছে $\Omega = \{\omega_1, \dots, \omega_m, \omega_{m+1}, \dots, \omega_n\}$ :

পি R (ওয়াই | Ω, এন) = \frac{Γ (Σ_{আমি = 1}^{এন} Y_{আমি} + + 1)}{Π_{আমি = 1}^{এন} Γ (Y_{আমি} + + 1)} Π_{আমি = 1}^{এন} ω_{আমি}^{Y_{আমি}}

$\mathrm{Pr}(Y|\Omega, n) = \frac{\Gamma(\sum_{i=1}^n y_i + 1)}{\prod_{i=1}^n \Gamma(y_i + 1) } \prod_{i=1}^n \omega_i^{y_i}$

কোথায় $y \in \mathbb{N}$ , $y_1 \dots y_m > 0$ এবং $y_{m+1} \dots y_n = 0$ তবে অন্যথায় সূচকগুলি আপত্তিজনক। আগের মতোই সমস্যাটি প্রকৃত সংখ্যার অনুমান করা $n$ , এবং আমরা একটি অগ্রিম সঙ্গে শুরু $n$ যেমন একটি শূন্য-কাটা পোয়েসন:

P r (n | λ) = \frac{λ^{n}}{(\exp {λ} - 1) n!}, n \in Z^{+}

$\mathrm{Pr}(n|\lambda) = \frac{\lambda^{n}}{(\exp\{\lambda\} - 1)n!},~n \in \mathbb{Z}^+$

Also as before, we treat the multinomial probabilities $\Omega$ as Dirichlet distributed with a symmetric hyperparameter $\tilde{\alpha}$ , i.e. for a given $n$ ,

P r (Ω | \tilde{α}, n) = \frac{Γ (n \tilde{α})}{Γ (\tilde{α})^{n}} \prod_{i = 1}^{n} ω_{i}^{\tilde{α} - 1}

$\mathrm{Pr}(\Omega|\tilde{\alpha}, n) = \frac{\Gamma(n\tilde{\alpha})}{\Gamma(\tilde{\alpha})^n} \prod_{i=1}^n \omega_i^{\tilde{\alpha}-1}$

Integrating (marginalizing) over the vector of probabilities gives the multinomial Dirichlet:

P r (Y | \tilde{α}, n) = \int P r (Y | Ω, n) P r (Ω | \tilde{α}, n) = \frac{Γ (n \tilde{α})}{Γ (\sum_{i = 1}^{n} y_{i} + n \tilde{α}) Γ (\tilde{α})^{n}} \prod_{i = 1}^{n} Γ (y_{i} + \tilde{α})

$\mathrm{Pr}(Y|\tilde{\alpha}, n) = \int \mathrm{Pr}(Y|\Omega, n) \mathrm{Pr}(\Omega|\tilde{\alpha}, n) = \frac{\Gamma(n \tilde{\alpha})} {\Gamma(\sum_{i=1}^n y_i + n \tilde{\alpha}) \Gamma(\tilde{\alpha})^n} \prod_{i=1}^n \Gamma(y_i + \tilde{\alpha})$

এখানে আমরা উপরের অংশে মডেলটি থেকে আলাদা হয়েছি। প্রথম খণ্ডে, বিভাগগুলিতে একটি অন্তর্নিহিত আদেশ ছিল: উদাহরণস্বরূপ, একটিতে $n$ - পক্ষপাতদুষ্ট, বিভাগগুলির (পক্ষগুলির) একটি অন্তর্নিহিত ক্রম এবং কোনও বিভাগের পর্যবেক্ষণ রয়েছে $i \in \{1 \dots n\}$ আরও কম বিভাগের অস্তিত্ব বোঝায় $j < i$ । দ্বিতীয় খণ্ডে, আমাদের একটি আংশিক পর্যবেক্ষণ করা বহু-জাতীয় র্যান্ডম ভেক্টর রয়েছে যার কোনও অন্তর্নিহিত ক্রম নেই order অন্য কথায়, ডেটাতে বিন্দুগুলিতে বিন্যস্ত বিভাজনকে উপস্থাপন করে ডেটা $m \leq n$ পর্যবেক্ষণ বিভাগ। আমি অর্ডারযুক্ত বিভাজন চিহ্নিত করব যা এর ফলাফল from $Y$ দ্বারা সংযোজন $n-m$ অরক্ষিত বিভাগ, হিসাবে $\mathcal{P}[Y]$ ।

The probability of the unordered partition conditional on a true number of categories $n$ , can be found by considering the number of permutations of categories which result in the same partition:

P r (P [Y] | \tilde{α}, n) = \frac{n!}{(n - m)!} P r (Y | \tilde{α}, n)

$\mathrm{Pr}(\mathcal{P}[Y]|\tilde{\alpha}, n) = \frac{n!}{(n-m)!} \mathrm{Pr}(Y|\tilde{\alpha}, n)$

And this can be integrated over $n$ to give:

P r (P [Y] | \tilde{α}, λ) = \sum_{j = m}^{\infty} P r (P [Y] | \tilde{α}, n) P r (n | λ)

$\mathrm{Pr}(\mathcal{P}[Y]|\tilde{\alpha}, \lambda) = \sum_{j=m}^{\infty} \mathrm{Pr}(\mathcal{P}[Y]|\tilde{\alpha}, n) \mathrm{Pr}(n|\lambda)$

Using Bayes' rule to retrieve the posterior:

পি R (এন | পি [ওয়াই], \tilde{α}, λ) = \frac{পি R (পি [ওয়াই] | এন, \tilde{α}) পি R (এন | λ)}{পি R (পি [ওয়াই] | \tilde{α}, λ)}

$\mathrm{Pr}(n|\mathcal{P}[Y], \tilde{\alpha}, \lambda) = \frac{\mathrm{Pr}(\mathcal{P}[Y]|n, \tilde{\alpha}) \mathrm{Pr}(n|\lambda)}{\mathrm{Pr}(\mathcal{P}[Y]|\tilde{\alpha}, \lambda)}$

উপরের সংজ্ঞাগুলি থেকে কেবল প্লাগ ইন করুন। আবার, ডিনোমিনেটর একটি অসীম সিরিজ যা দ্রুত রূপান্তরিত করবে: এই সাধারণ মডেলটিতে এমসিসিএমিকে পর্যাপ্ত সান্নিধ্য দেওয়ার প্রয়োজন নেই।

প্রথম ভাগ থেকে আর কোড পরিবর্তন করে:

logPosteriorN_2 <- function(max, Y, lambda, alpha){
    m <- length(Y)
    sumy <- sum(Y)
    pp <- sapply(1:max, function(j){
        prior <- log(lambda)*j - log(exp(lambda)-1) - lgamma(j+1)
        likelihood <- lchoose(j, m) + lgamma(m + 1) + lgamma(alpha*j) + sum(lgamma(Y + alpha)) - j*lgamma(alpha) - lgamma(sumy + j*alpha)
        if( j > m ) { likelihood <- likelihood + (j-m)*lgamma(alpha) } 
        else if( j < m ) { likelihood = -Inf }
        prior + likelihood
        })
    evidence <- log(sum(exp(pp))) # there's no check that this converges
    pp - evidence
}

Y_1 <- rep(10, 15)
pos_1 <- logPosteriorN_2(50, Y_1, 6, 1)
plot(1:50, exp(pos_1))

— নাট পোপ
সূত্র

আপনার সম্পূর্ণ উত্তরের জন্য অনেক ধন্যবাদ। (আমার খুব ধীর প্রতিক্রিয়া জন্য দুঃখিত)। আমি এই ধরণের প্রশ্নে ফিরে এসেছি এবং এখনও গণিতগুলির মধ্যে দিয়ে চলেছি। আমার সিস্টেমে বিভাগগুলি অর্ডিনাল নয়, সুতরাং একটি ধারনা যে কোনও নির্দিষ্ট শ্রেণীর দ্বারা নিম্ন স্তরের বিভাগের অস্তিত্ব বোঝায় তা অনুমান করা অবৈধ।

— দেবিপট্টি

@ দেবিপট্টি দ্বিতীয় অংশে উত্তর দিয়েছেন।

— নাট পোপ