ডিরিচলেট বিতরণে আলফা ঠিক কী?


26

আমি বায়েশিয়ান পরিসংখ্যানগুলিতে মোটামুটি নতুন এবং আমি একটি সংশোধন পরিসংখ্যান পরিমাপ জুড়ে এসেছি, স্পারসিসি , এটি এর অ্যালগরিদমের ব্যাকেন্ডে ডিরিচলেট প্রক্রিয়া ব্যবহার করে। কী ঘটছে তা বুঝতে আমি আলগরিদম ধাপে ধাপে ধাপে যাওয়ার চেষ্টা করছি তবে আমি নিশ্চিত নই যে alphaডেরিচলেট বিতরণে alphaভেক্টর প্যারামিটারটি কী করে এবং এটি কীভাবে ভেক্টর প্যারামিটারকে স্বাভাবিক করে তোলে?

বাস্তবায়ন হয় Pythonব্যবহার NumPy: https://docs.scipy.org/doc/numpy/reference/generated/numpy.random.dirichlet.html

দস্তাবেজগুলি বলেছেন:

আলফা: বিতরণের অ্যারে প্যারামিটার (মাত্রার কে এর নমুনার জন্য কে ডাইমেনশন)।

আমার প্রশ্নগুলো:

  1. কীভাবে alphasবিতরণে প্রভাব ফেলবে ?;

  2. কীভাবে alphasস্বাভাবিক করা হচ্ছে ?; এবং

  3. alphasপূর্ণসংখ্যা না হলে কী ঘটে ?

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Reproducibility
np.random.seed(0)

# Integer values for alphas
alphas = np.arange(10)
# array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

# Dirichlet Distribution
dd = np.random.dirichlet(alphas) 
# array([ 0.        ,  0.0175113 ,  0.00224837,  0.1041491 ,  0.1264133 ,
#         0.06936311,  0.13086698,  0.15698674,  0.13608845,  0.25637266])

# Plot
ax = pd.Series(dd).plot()
ax.set_xlabel("alpha")
ax.set_ylabel("Dirichlet Draw")

এখানে চিত্র বর্ণনা লিখুন


6
এই বিতরণে উইকিপিডিয়া প্রবেশে আপনার কি সমস্যা আছে ?
শি'য়ান

2
দুঃখিত, আমি মনে করি না আমি এটি সঠিকভাবে বলেছি। আমি বুঝতে পারি সম্ভাবনা বন্টন / পিডিএফ / পিএমএফ কী তবে আমি কীভাবে স্বাভাবিকীকরণ হচ্ছি তা নিয়ে বিভ্রান্ত হয়ে পড়েছিলাম। উইকিপিডিয়া থেকে, দেখে মনে হচ্ছে যে পরে গামা ফাংশনগুলির মাধ্যমে স্বাভাবিককরণ ঘটছে । আমি শুনেছি এটিকে বিতরণগুলির উপরে বিতরণ হিসাবে উল্লেখ করা হয়েছে এবং এটি উইকিপিডিয়াতে থাকা একন থেকে জানা মুশকিল। xiα1
O.rka

1
আপনি যদি আলফাকে স্বাভাবিক করেন তবে আপনি বিতরণের গড় পান। আপনি যদি বিতরণটি স্বাভাবিক করেন তবে আপনি এর সমর্থনের চেয়ে এর অবিচ্ছেদ্য বীমাকান 1 এর সমান এবং এটি একটি বৈধ সম্ভাবনার বিতরণ।
ইসকাপ

1
ডিরিচলেট বিতরণ সিমপ্লেক্সের উপরে বিতরণ, সুতরাং সীমাবদ্ধ সমর্থন বিতরণের উপর বিতরণ utions যদি আপনি অবিচ্ছিন্ন বিতরণগুলির উপর কোনও বিতরণ লক্ষ্য করে থাকেন তবে আপনার ডিরিচলেট প্রক্রিয়াটি দেখে নেওয়া উচিত।
শি'ন

উত্তর:


67

Dirichlet বন্টন একটি বহুচলকীয় সম্ভাব্যতা বিতরণের যে বর্ণনা করে ভেরিয়েবল এক্স 1 , ... , এক্স , এই ধরনের প্রতিটি এক্স আমি( 0 , 1 ) এবং Σ এন আমি = 1 x এর আমি = 1 , যে একটি ভেক্টর দ্বারা parametrized হয় ধনাত্মক-মূল্যবান পরামিতিগুলির α = ( α 1 , , α কে )k2X1,,Xkxi(0,1)i=1Nxi=1α=(α1,,αk) । পরামিতি নাপূর্ণসংখ্যা হতে হবে, তাদের কেবল ইতিবাচক বাস্তব সংখ্যা হওয়া দরকার। এগুলি কোনওভাবেই "নরমালাইজড" হয় না, তারা এই বিতরণের পরামিতি।

ডিরিচলেট বিতরণটি একাধিক মাত্রায় বিটা বিতরণের একটি সাধারণীকরণ , তাই আপনি বিটা বিতরণ সম্পর্কে শিখতে শুরু করতে পারেন। বিটা একটি এলোপাতাড়ি ভেরিয়েবলের একটি univariate বন্টন হয় পরামিতি দ্বারা স্থিতিমাপ α এবং β । এটি সম্পর্কে চমৎকার অনুভূতি আসে আপনি প্রত্যাহার যে এটি একটি হল অনুবন্ধী পূর্বে জন্য দ্বিপদ বিন্যাস এবং যদি আমরা একটি বিটা পূর্বে দ্বারা স্থিতিমাপ অনুমান α এবং β দ্বিপদ বিন্যাস এর সম্ভাব্যতা পরামিতি জন্য পি , তারপর এর অবর বন্টন পিX(0,1)αβαβppএছাড়াও দ্বারা স্থিতিমাপ একটি বিটা বিতরণ হয় এবং β ' = β + + ব্যর্থতা সংখ্যা । সুতরাং আপনি মনে করতে পারেন α এবং β হিসাবে pseudocounts (তারা পূর্ণসংখ্যার হতে হবে না) এর সফলতা ও ব্যর্থতা (এছাড়াও চেক এই থ্রেডα=α+number of successesβ=β+number of failuresαβ )।

Dirichlet বিতরণের ক্ষেত্রে, এটি একটি অনুবন্ধী পূর্বে হয় জন্য MULTINOMIAL বন্টন । যদি দ্বি-দ্বি বিতরণের ক্ষেত্রে আমরা কলটি থেকে প্রতিস্থাপনের সাথে সাদা এবং কালো বল অঙ্কনের ক্ষেত্রে বিবেচনা করতে পারি, তবে বহুজাতিক বিতরণের ক্ষেত্রে আমরা প্রতিস্থাপনের সাথে অঙ্কন করছি বলগুলি কে রঙে প্রদর্শিত হবে, যেখানে প্রতিটি রঙের বলগুলির 1 টি সম্ভাব্যতার সাথে আঁকা যেতে পারে পি 1 , , পি কে । ডিরিচলেট বিতরণ পি 1 , , পি কে সম্ভাব্যতা এবং α 1 এর পূর্বে একটি সংযুক্তিNkp1,,pkp1,,pk প্যারামিটারগুলিপ্রতিটি রঙের বলেরসিউডো অ্যাকাউন্টহিসাবেঅগ্রাধিকার হিসাবেধরে নেওয়াযেতে পারে(তবে আপনার এজাতীয় যুক্তির ক্ষতিসম্পর্কেও পড়তে হবে)। Dirichlet-MULTINOMIAL মডেলে α 1 , ... , α তাদের প্রতিটি বিভাগের পর্যবেক্ষিত গন্য সঙ্গে summing দ্বারা আপডেট পেতে: α 1 + + এন 1 , ... , α + + বেটা-দ্বিপদ মডেল ক্ষেত্রে হিসাবে অনুরূপ ফ্যাশন।α1,,αkα1,,αkα1+n1,,αk+nk

এর উচ্চতর মান, এক্স আই এর বৃহত্তর "ওজন" এবং মোট "ভর" এর বৃহত্তর পরিমাণ এটি নির্ধারিত হয়েছে (মনে রাখবেন মোটে এটি অবশ্যই x 1 + + x কে = 1 হবে )। যদি সমস্ত α i সমান হয় তবে বিতরণটি প্রতিসম হয়। যদি α i < 1 হয় তবে এটিকে ওজনবিরোধী হিসাবে বিবেচনা করা যেতে পারে যা এক্স i কে চূড়ান্ত দিকে ঠেলে দেয় , যখন এটি বেশি হয়, এটি x i কে এই অর্থে আকর্ষণ করে যে এটি প্রতিসাম্যিকভাবে কেন্দ্রিয়)। যদি α 1 = = হয়αiXix1++xk=1αiαi<1xixi কিছু কেন্দ্রীয় মানের দিকে (এই অর্থে যে সমস্ত পয়েন্টগুলি এর চারপাশে কেন্দ্রীভূত হয়, না তবে পয়েন্টগুলি সমানভাবে বিতরণ করা হয়।α1==αk=1

এই নিচে প্লট, যেখানে আপনি দেখতে পারেন trivariate Dirichlet ডিস্ট্রিবিউশন (দুর্ভাগ্যবশত আমরা যুক্তিসঙ্গত প্লট কেবল ত্রিমাত্রিক করতে তৈরী করতে পারে) (ক) স্থিতিমাপ দেখা যাবে , (খ) α 1 = α 2 = α 3 = 10 , (সি) α 1 = 1 , α 2 = 10 , α 3 = 5 , (ডি) α 1 = α 2 = α =α1=α2=α3=1α1=α2=α3=10α1=1,α2=10,α3=5α1=α2=α3=0.2

Four different samples from Dirichlet distributions

ডিরিচলেট বিতরণকে কখনও কখনও "বিতরণ ওভার বিতরণ" বলা হয় , যেহেতু এটিকে নিজেরাই সম্ভাবনার বন্টন হিসাবে ভাবা যেতে পারে। লক্ষ্য করুন যেহেতু প্রতিটি এবং k i = 1 x i = 1 , তার পরে x i সম্ভাবনার প্রথম এবং দ্বিতীয় অক্ষের সাথে সামঞ্জস্যপূর্ণ । সুতরাং আপনি শ্রেণিবদ্ধ বা না যেমন বিতরণ দ্বারা বর্ণিত বিভিন্ন ইভেন্টের জন্য সম্ভাব্যতার বিতরণ হিসাবে ডিরিচলেট বিতরণটি ব্যবহার করতে পারেনxi(0,1)i=1kxi=1xi বহু- । এটাইসত্য যে এটি কোনও বিতরণের উপর একটি বিতরণ, উদাহরণস্বরূপ এটি ক্রমাগত র্যান্ডম ভেরিয়েবলের সম্ভাব্যতা বা কিছু বিযুক্ত বিচ্ছিন্নতার সাথে সম্পর্কিত নয় (যেমন পয়সন বিতরণ করা এলোমেলো ভেরিয়েবল কোনও প্রাকৃতিক সংখ্যার পর্যবেক্ষণের সম্ভাব্যতা বর্ণনা করে, তাই এটি ব্যবহার করতে তাদের সম্ভাব্যতার উপর ডিরিচলেট বিতরণ, আপনার প্রয়োজন হতে পারে অসীম সংখ্যক এলোমেলো ভেরিয়েবলের )।k


2
অবিশ্বাস্য ব্যাখ্যা
ও.আরকা

14

দাবি অস্বীকার: আমি আগে কখনও এই বিতরণ নিয়ে কাজ করি নি। এই উত্তরটি এই উইকিপিডিয়া নিবন্ধ এবং এটির আমার ব্যাখ্যা ভিত্তিক ।


ডিরিচলেট বিতরণ হ'ল বিটা বিতরণের অনুরূপ বৈশিষ্ট্যযুক্ত বহুবিধ সম্ভাবনা বিতরণ।

পিডিএফ নিম্নলিখিত হিসাবে সংজ্ঞায়িত করা হয়:

{x1,,xK}1B(α)i=1Kxiαi1

সঙ্গে , এক্স আমি( 0 , 1 ) এবং Σ কে আমি = 1 x এর আমি = 1K2xi(0,1)i=1Kxi=1

যদি আমরা ঘনিষ্ঠভাবে সম্পর্কিত বিটা বিতরণটি দেখি:

{x1,x2(=1x1)}1B(α,β)x1α1x2β1

আমরা দেখতে পাচ্ছি যে হলে এই দুটি বিতরণ একই হয় । সুতরাং আসুন প্রথমে আমাদের ব্যাখ্যাটি ভিত্তি করে তারপরে কে > 2 এ সাধারণীকরণ করুন ।K=2K>2


বায়েশিয়ার পরিসংখ্যানগুলিতে, বিটা বিতরণ দ্বিপদী প্যারামিটারগুলির পূর্বে সম্মিলিত হিসাবে ব্যবহৃত হয় ( বিটা বিতরণ দেখুন )। পূর্বে কিছু পূর্বে জ্ঞান হিসাবে সংজ্ঞায়িত করা যায় এবং β (Dirichlet ডিস্ট্রিবিউশনের সাথে বা লাইনে α 1 এবং α 2 )। যদি কিছু দ্বিপদী পরীক্ষার পরে A সাফল্য এবং বি ব্যর্থতা হয়, তবে উত্তরোত্তর বিতরণ নীচে নিম্নরূপ: α 1 , পি এস = α 1 + এবং α 2 , পি এস = ααβα1α2ABα1,pos=α1+Aα2,pos=α2+B

সুতরাং বিটা বিতরণ কিছু পূর্ববর্তী বিতরণ উপস্থাপন করেx1x2(=1x1), which can be interpreted as the probability of successes and failures respectively in a Binomial distribution. And the more data (A and B) you have, the narrower this posterior distribution will be.


Now we know how the distribution works for K=2, we can generalise it to work for a multinomial distribution instead of a binomial. Which means that instead of two possible outcomes (success or failure), we will allow for K outcomes (see why it generalises to Beta/Binom if K=2?). Each of these K outcomes will have a probability xi, which sums to 1 as probabilities do.

αi then takes a similar role to the α1 and α2 in the Beta distribution as a prior for xi and gets updated in a similar fashion.

So now to get to your questions:

How do the alphas affect the distribution?

The distribution is bounded by the restrictions xi(0,1) and i=1Kxi=1. The αi determine which parts of the K-dimensional space get the most mass. You can see this in this image (not embedding it here because I don't own the picture). The more data there is in the posterior (using that interpretation) the higher the i=1Kαi, so the more certain you are of the value of xi, or the probabilities for each of the outcomes. This means that the density will be more concentrated.

How are the alphas being normalized?

The normalisation of the distribution (making sure the integral equals 1) goes through the term B(α):

B(α)=i=1KΓ(αi)Γ(i=1Kαi)

Again if we look at the case K=2 we can see that the normalising factor is the same as in the Beta distribution, which used the following:

B(α1,α2)=Γ(α1)Γ(α2)Γ(α1+α2)

This extends to

B(α)=Γ(α1)Γ(α2)Γ(αK)Γ(α1+α2++αK)

What happens when the alphas are not integers?

The interpretation doesn't change for αi>1, but as you can see in the image I linked before, if αi<1 the mass of the distribution accumulates at the edges of the range for xi. K on the other hand has to be an integer and K2.


1
Thanks for this. Your explanation was super useful. I wish I could have marked both of them as correct.
O.rka
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.