কেউ কি সহজেই সহজ শর্তে কনজুগেট প্রিয়ারদের ব্যাখ্যা করতে পারেন?


23

আমি কিছু সময়ের জন্য বাইয়েশিয়ার পরিসংখ্যানগুলিতে কনজিগেট প্রিয়ারদের ধারণাটি বোঝার চেষ্টা করছি কিন্তু আমি তা সহজভাবে পাই না। কেউ সম্ভবত "গাউসিয়ান পূর্ব" উদাহরণ হিসাবে ব্যবহার করে, সহজতম পদগুলিতে ধারণাটি ব্যাখ্যা করতে পারেন?

উত্তর:


23

প্যারামিটারের পূর্বের প্রায় সর্বদা কিছু নির্দিষ্ট কার্যকরী ফর্ম থাকে (সাধারণত ঘনত্বের নিরিখে লেখা থাকে)। ধরা যাক আমরা বিতরণগুলির একটি নির্দিষ্ট পরিবারে নিজেকে সীমাবদ্ধ করে থাকি, সেক্ষেত্রে আমাদের পূর্বনির্ধারণটি সেই পরিবারের পরামিতিগুলি বেছে নেওয়ার ক্ষেত্রে হ্রাস করে।

উদাহরণস্বরূপ, একটি স্বাভাবিক মডেল বিবেচনা । সরলতার জন্য, এর হিসাবে পরিচিত হিসাবে 2 ডলার নিই । মডেলের এই অংশটি - ডেটার জন্য মডেল - সম্ভাবনা কার্যটি নির্ধারণ করে।YiiidN(μ,σ2)σ2

আমাদের Bayesian মডেল সম্পূর্ণ করার জন্য, এখানে আমরা একটি পূর্বে প্রয়োজন μ

পূর্বেই উল্লেখ করা হয়েছে, সাধারণভাবে আমরা আমাদের জন্য পূর্বের কিছু distributional পরিবার উল্লেখ পারে এবং তারপর আমরা শুধুমাত্র (উদাহরণস্বরূপ, প্রায়ই পূর্বে তথ্য মোটামুটি অস্পষ্ট হতে পারে যে বিতরণের পরামিতি চয়ন করতে আছে - মোটামুটিভাবে যেখানে আমরা মনোযোগ দিতে সম্ভাব্যতা চান মত - খুব নির্দিষ্ট ক্রিয়ামূলক ফর্মের পরিবর্তে এবং পরামিতিগুলি চয়ন করে আমরা যা চাই তা মডেল করার পর্যাপ্ত স্বাধীনতা থাকতে পারে - পূর্বের গড় এবং প্রকরণটি মেলে বলুন)।μ

যদি দেখা যায় যে এর পূর্ববর্তীটি একই পরিবার থেকে পূর্বের, তবে সেই পূর্ববর্তীটিকে "সংযুক্তি" বলা হয়।μ

(যা সংঘবদ্ধ হতে পরিণত হয়েছে এটি সম্ভাবনার সাথে একত্রিত হওয়ার উপায়)

সুতরাং এই ক্ষেত্রে, আসুন আগে (বলুন μ N ( θ , τ 2 ) ) এর জন্য একটি গাউসিয়ান নেওয়া উচিত । যদি আমরা এটি করি, আমরা দেখতে পাচ্ছি যে μ এর পূর্ববর্তীটিও গাউসিয়ান। ফলস্বরূপ, গাওসিয়ান পূর্বেরটি আমাদের উপরের মডেলের জন্য একটি সংযোগকারী পূর্ব ছিল।μμN(θ,τ2)μ

সত্যিই এটির সব কিছুই রয়েছে - যদি পূর্ববর্তীটি একই পরিবার থেকে হয় তবে এটি পূর্ববর্তী একটি সংঘবদ্ধ।

সাধারণ ক্ষেত্রে আপনি সম্ভাবনাটি খতিয়ে দেখে আগে একটি সংযুক্তি সনাক্ত করতে পারেন। উদাহরণস্বরূপ, দ্বিপদী সম্ভাবনা বিবেচনা করুন; ধ্রুবকগুলি বাদ দিলে এটি বিটা ঘনত্বের মতো দেখায় ; এবং যেভাবে পি এবং ( 1 - পি ) এর শক্তি একত্রিত হয়, তার ফলে পি এবং ( 1 - পি ) এর পাওয়ারগুলির একটি পণ্য দেওয়ার আগে এটি একটি বিটা দ্বারা বহুগুণ হবে ... সুতরাং আমরা সম্ভাবনা থেকে তাত্ক্ষণিকভাবে দেখতে পারি যে বিটা দ্বিগুণ সম্ভাবনার আগে পি এর জন্য সম্মিলিত হবে ।pp(1p)p(1p)p

লগ-ঘনত্ব এবং লগ-সম্ভাবনা বিবেচনা করে এটি ঘটবে তা গাউসের ক্ষেত্রে সবচেয়ে সহজ; লগ-সম্ভাবনা দ্বিঘাত হতে হবে এবং দুই quadratics এর সমষ্টি দ্বিঘাত, তাই একটি দ্বিঘাত লগ-পূর্বে + + দ্বিঘাত লগ-সম্ভাবনা একটি দ্বিঘাত অবর (সর্বোচ্চ অর্ডার মেয়াদের কোফিসিয়েন্টস প্রতিটি কোর্সের নেতিবাচক হবে) দেয়।μ


9

আপনার মডেল একটি জন্যে যদি সূচকীয় পরিবার , যে, যদি বন্টন ঘনত্ব ফর্ম হল

f(x|θ)=h(x)exp{T(θ)S(x)ψ(θ)}xXθΘ
একটি সম্মান সঙ্গেদেওয়া প্রভুত্ব বিস্তার পরিমাপ(Lebesgue, কাউন্টিং, & TC।), যেখানেts উল্লেখ একটি স্কেলার উপর পণ্যRd এবং
T:XRdS:ΘRd
পরিমাপযোগ্য ফাংশন, উপর অনুবন্ধী গতকাল দেশের সর্বোচ্চ তাপমাত্রা হয়θ ফর্মের ঘনত্বের দ্বারা সংজ্ঞায়িত করা হয়
π(θ|ξ,λ)=C(ξ,λ)exp{T(θ)ξλψ(θ)}
[একটি সম্মান সঙ্গেইচ্ছামত বাছাই করা প্রভুত্ব বিস্তার পরিমাপ dν উপরΘ সঙ্গে]
C(ξ,λ)1=Θexp{T(θ)ξλψ(θ)}dν<
এবংλΛR+ ,ξΞλT(X)

প্রভাবশালী পরিমাপের পছন্দটি প্রবীণদের পরিবারের জন্য নির্ধারক। উদাহরণস্বরূপ এক একটি সাধারন গড় সম্ভাবনা মুখোমুখি তাহলে μ হিসেবে Glen_b এর উত্তর , Lebesgue পরিমাপ নির্বাচন করে dμ সাধারন গতকাল দেশের সর্বোচ্চ তাপমাত্রা অনুবন্ধী হচ্ছে প্রভাবশালী পরিমাপ বিশালাকার হিসাবে। পরিবর্তে এক পছন্দ করে যদি (1+μ2)2dμ প্রভাবশালী পরিমাপ হিসাবে, অনুবন্ধী গতকাল দেশের সর্বোচ্চ তাপমাত্রা ঘনত্বের সঙ্গে ডিস্ট্রিবিউশন পরিবার মধ্যে রয়েছে

exp{α(μμ0)2}α>0,  μ0R
এই প্রভাবশালী পরিমাপের প্রতি সম্মান জানানো হয়েছে এবং এটি এখন আর সাধারণ প্রিয়ার নয়। এই অসুবিধাটি মূলত সম্ভাবনার একটি নির্দিষ্ট প্যারামিটারাইজেশন বেছে নেওয়া এবং এই প্যারামিটারাইজেশনের জন্য লেবেসগু পরিমাপের জন্য পছন্দ করার মতো একটি। যখন কোনও সম্ভাবনা ফাংশনের মুখোমুখি হন, তখন প্যারামিটার স্পেসে কোনও অন্তর্নিহিত (বা অভ্যন্তরীণ বা রেফারেন্স) প্রভাবিত পরিমাপ নেই।

এই তাত্পর্যপূর্ণ পরিবার বিন্যাসের বাইরে, কোনও স্থির সমর্থন সহ বিতরণের কোনও অ-তুচ্ছ পরিবার নেই যা কনজুগেট প্রিয়ারদের অনুমতি দেয়। এটি ডারমোইস-পিটম্যান-কোওপম্যান লেমার একটি পরিণতি ।


11
"সহজতম শর্তে?" সম্ভবত এমন একটি ব্যাখ্যা যা ব্যবস্থাগুলির পূর্ববর্তী জ্ঞান ধরে না এবং ওপি'র পক্ষে আরও কার্যকর হবে।

3
হায়, আমি ভীত যে সংঘবদ্ধ প্রিয়াররা কোনও পরিমাপ ব্যাকগ্রাউন্ড ছাড়াই অর্থহীন (যদিও এটি বিশ্বজগতের সেরা রক্ষিত গোপনীয়তা)।
শি'য়ান

6
আমার মতে, "সহজতম শর্তাবলী" ব্যাখ্যার জন্য উন্মুক্ত, এবং এমন একটি ব্যাখ্যা যা পরিমাপ তত্ত্বের মতো উন্নত গণিতের ব্যবহার করে এখনও কোনও অর্থে "সরল" হতে পারে, এমন একটি ব্যাখ্যার চেয়ে সম্ভবত "সরল "ও হতে পারে যা এই জাতীয় যন্ত্রপাতি এড়িয়ে চলে। যাই হোক না কেন, এরূপ ব্যাখ্যা কারও কাছে এটি বোঝার জন্য প্রয়োজনীয় পটভূমি খুব জ্ঞানদীপ্ত হতে পারে এবং কোনও বিষয় ব্যাখ্যা করার বিভিন্ন উপায়ে একটি তালিকাতে এর মতো উত্তর অন্তর্ভুক্ত করা নিরীহ। আমরা উত্তরগুলি কেবল ওপি-র জন্য নয়, ভবিষ্যতের সমস্ত পাঠকের জন্য লিখি।
ছোট

1
@ এলগোগার্ড্ট আপনার সমালোচনা আরও বেশি ওজন বহন করবে যদি আপনি এমন এক বা একাধিক প্রশ্নের সাথে লিঙ্ক করতে পারেন যেখানে আপনি মনে করেন যে এই উত্তর উভয় বিষয়ে এবং আরও উপযুক্ত পর্যায়ে হতে পারে। দয়া করে মনে রাখবেন যে "সরল" কোনও সংজ্ঞায়িত শব্দ নয় এবং এর পৃথক পৃথক বিষয়গত ব্যাখ্যা রয়েছে। নির্বিশেষে, আপনার মন্তব্যের পরামর্শ অনুসারে এটি "গাণিতিকভাবে অপ্রয়োজনীয়" এর সাথে আবদ্ধ হওয়া অবৈধ হবে।
whuber

2
শি'র উত্তর আমার পক্ষে অকেজো নয়। আমি কিছু শিখেছি।
সামান্য

2

আমি একটি বিতরণের "কার্নেল" ধারণাটি ব্যবহার করতে পছন্দ করি। আপনি যেখানে কেবলমাত্র প্যারামিটারের উপর নির্ভর করে সেই অংশগুলিতে রেখে যান। কয়েকটি সহজ উদাহরণ।

সাধারণ কার্নেল

p(μ|a,b)=K1×exp(aμ2+bμ)
যেখানে K হল "নরমালাইজিং ধ্রুবক" K=exp(aμ2+bμ)dμ=πaexp(b24a) স্ট্যান্ডার্ড গড় / বৈকল্পিক পরামিতিগুলির সংযোগটি হ'লE(μ|a,b)=b2a এবংVar(μ|a,b)=12a

বিটা কার্নেল

p(θ|a,b)=K1×θa(1θ)b
কোথায় K=θa(1θ)bdθ=Beta(a+1,b+1)

যখন আমরা সম্ভাবনা ফাংশনটি দেখি, আমরা একই জিনিসটি করতে পারি এবং এটি "কার্নেল আকারে" প্রকাশ করতে পারি। আইডির ডেটা সহ উদাহরণস্বরূপ

p(D|μ)=i=1np(xi|μ)=Q×f(μ)

For some constant Q and some function f(μ). If we can recognise this function as a kernel, then we can create a conjugate prior for that likelihood. If we take the normal likelihood with unit variance, the above looks like

p(D|μ)=i=1np(xi|μ)=i=1n12πexp((xiμ)22)=[i=1n12π]×i=1nexp((xiμ)22)=(2π)n2×exp(i=1n(xiμ)22)=(2π)n2×exp(i=1nxi22xiμ+μ22)=(2π)n2×exp(i=1nxi22)×exp(μi=1nxiμ2n2)=Q×exp(aμ2+bμ)

where a=n2 and b=i=1nxi and Q=(2π)n2×exp(i=1nxi22)

This likelihood function has the same kernel as the normal distribution for μ, so a conjugate prior for this likelihood is also the normal distribution.

p(μ|a0,b0)=K01exp(a0μ2+b0μ)
The posterior is then
p(μ|D,a0,b0)K01exp(a0μ2+b0μ)×Q×exp(aμ2+bμ)=K01×Q×exp([a+a0]μ2+[b+b0]μ)exp([a+a0]μ2+[b+b0]μ)
Showing that the posterior is also a normal distribution, with updated parameters from the prior using the information in the data.

In some sense a conjugate prior acts similarly to adding "pseudo data" to the data observed, and then estimating the parameters.


1
(+1) I appreciate the pseudo-data intuition!
Xi'an

1

For a given distribution family Dlik of the likelihood (e.g. Bernoulli),

if the prior is of the same distribution family Dpri as the posterior (e.g. Beta),

then Dpri and Dlik are conjugate distribution families and the prior is called a conjugate prior for the likelihood function.

Note: p(θ|x)posteriorp(x|θ)likelihoodp(θ)prior


How does this explain what a conjugate prior is?
LBogaardt

ok I'll edit that.
Thomas G.
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.