আপডেট : কয়েক বছরের আড়াল দৃষ্টির সুবিধার সাথে, আমি একই ধরণের প্রশ্নের জবাবে মূলত একই উপাদানের আরও সংক্ষিপ্ত চিকিত্সা লিখেছি ।
কীভাবে একটি আত্মবিশ্বাস অঞ্চল তৈরি করবেন
আসুন আমরা আত্মবিশ্বাসের অঞ্চলগুলি তৈরির জন্য একটি সাধারণ পদ্ধতি দিয়ে শুরু করি। এটি একটি একক প্যারামিটারে প্রয়োগ করা যেতে পারে, একটি আত্মবিশ্বাসের ব্যবধান বা বিরতিগুলির সেট সরবরাহ করতে; এবং এটি দুটি বা ততোধিক পরামিতিগুলিতে প্রয়োগ করা যেতে পারে, উচ্চতর মাত্রিক আত্মবিশ্বাসের অঞ্চল অর্জন করতে।
আমরা দাবী করে যে, পর্যবেক্ষিত পরিসংখ্যান D একটি বিতরণ থেকে উদ্ভূত পরামিতি সঙ্গে θ , যথা স্যাম্পলিং বন্টন s(d|θ) উপর সম্ভাব্য পরিসংখ্যান d , এবং জন্য একটি কনফিডেন্স অঞ্চল চাইতে θ সম্ভব মূল্যবোধের সেটে Θ । একটি সর্বোচ্চ ঘনত্ব অঞ্চল (এই HDR) নির্ধারণ করুন: h একটি PDF এর -HDR তার ডোমেন সমর্থন সম্ভাব্যতা ক্ষুদ্রতম উপসেট h । বোঝাতে h এর -HDR s(d|ψ) যেমন Hψ , কোন ψ∈Θ । তারপর,h জন্য আস্থা অঞ্চলθ , ডাটা দেওয়াD , সেটCD={ϕ:D∈Hϕ} । h একটি সাধারণ মান0.95 হবে।
একটি ফ্রিকোয়েন্সিস্ট ব্যাখ্যা
একটি কনফিডেন্স অঞ্চলের পূর্ববর্তী সংজ্ঞা অনুসরণ করে থেকে
d∈Hψ⟷ψ∈Cd
সঙ্গে Cd={ϕ:d∈Hϕ} । নাও (বৃহৎ সেট কল্পনা কাল্পনিক ) পর্যবেক্ষণ {Di} , এর অনুরূপ পরিস্থিতিতে গৃহীত চিত্র D । অর্থাত্ সেগুলি s(d|θ) এর নমুনা । যেহেতু Hθ সমর্থন সম্ভাব্যতা ভর h PDF এর s(d|θ) ,P(Di∈Hθ)=h for alli । অতএব, ভগ্নাংশ{Di} , যার জন্যDi∈Hθ হলh । এবং তাই, উপরে সমানতা ব্যবহার করে, ভগ্নাংশ{Di} , যার জন্যθ∈CDi হয়h ।
এই তারপর, কি জন্য frequentist দাবি h জন্য আস্থা অঞ্চল θ পরিমাণ:
কাল্পনিক পর্যবেক্ষণ সংখ্যক নিন {Di} স্যাম্পলিং বন্টন থেকে s(d|θ) যে পর্যবেক্ষিত পরিসংখ্যান বৃদ্ধি দিয়েছেন D । তারপর, θ ভগ্নাংশ মধ্যে সবচেয়ে গুরত্বপূর্ণ h অনুরূপ কিন্তু কাল্পনিক আস্থা অঞ্চলের {CDi} ।
আস্থা অঞ্চল CD অতএব যে সম্ভাব্যতা সম্পর্কে কোনো দাবি না θ মিথ্যা কোথাও! কারণ fomulation যা আমাদের উপর একটি সম্ভাব্যতা বিতরণের তো দূরের কথা দেয় কিছুই নেই সহজভাবে হয় θ । ব্যাখ্যাটি কেবল বিস্তৃত সুপারস্ট্রাকচার, যা বেসের উন্নতি করে না। বেস শুধুমাত্র s(d|θ) এবং D , যেখানে θ একটি বিতরণ পরিমাণ হিসাবে প্রদর্শিত না, এবং কোন তথ্য আমরা ঐ ঠিকানায় ব্যবহার করতে পারেন আছে। θ বেশি বন্টন পাওয়ার জন্য দুটি উপায় রয়েছে :
- হাতের তথ্য থেকে সরাসরি একটি বিতরণ বরাদ্দ করুন: p(θ|I) ।
- সম্পর্কযুক্ত θ অন্য বিতরণ পরিমাণ হবে: p(θ|I)=∫p(θx|I)dx=∫p(θ|xI)p(x|I)dx ।
উভয় ক্ষেত্রেই θ অবশ্যই কোথাও বাম দিকে উপস্থিত হবে। ঘনঘনবাদীরা কোনও পদ্ধতিই ব্যবহার করতে পারে না, কারণ তাদের উভয়েরই একটি ধর্মীয় পূর্বের প্রয়োজন।
একটি বায়েশিয়ান ভিউ
সবচেয়ে একটি Bayesian এর তুলতে পারে h আস্থা অঞ্চল CD , যোগ্যতা ছাড়াই দেওয়া, সহজভাবে সরাসরি ব্যাখ্যা হল: যে এটা সেট ϕ , যার জন্য D পড়ে h -HDR Hϕ স্যাম্পলিং বিতরণের s(d|ϕ) । এটি অগত্যা θ সম্পর্কে আমাদের বেশি কিছু বলে না এবং কেন এটি।
সম্ভাব্যতা যে θ∈CD দেওয়া D এবং ব্যাকগ্রাউন্ড তথ্য I , হল:
P(θ∈CD|DI)=∫CDp(θ|DI)dθ=∫CDp(D|θI)p(θ|I)p(D|I)dθ
নোটিশ যে frequentist ব্যাখ্যা অসদৃশ, আমরা অবিলম্বে উপর একটি বিতরণ দাবিθ। পটভূমির তথ্যIআমাদের বলে, যেমন আগে, যে স্যাম্পলিং বন্টন হয়s(d|θ):
P(θ∈CD|DI)i.e.P(θ∈CD|DI)=∫CDs(D|θ)p(θ|I)p(D|I)dθ=∫CDs(D|θ)p(θ|I)dθp(D|I)=∫CDs(D|θ)p(θ|I)dθ∫s(D|θ)p(θ|I)dθ
এখন এই অভিব্যক্তি সাধারণ মূল্যায়ন মধ্যে নেইh, যা বলতে হয়,hআস্থা অঞ্চলCDসবসময় ধারণ করে নাθসম্ভাব্যতা সঙ্গেh। আসলে এটিhথেকে একেবারে আলাদা হতে পারে। আছে, তবে, অনেক সাধারণ পরিস্থিতিতে যেখানে এটিনেইনির্ণয়h, যে কারণে আস্থা অঞ্চলে প্রায়ই আমাদের সম্ভাব্য intuitions সঙ্গে সামঞ্জস্যপূর্ণ হয়।
উদাহরণস্বরূপ, ধরুন যে d এবং θ এর পূর্বের যৌথ পিডিএফটি সেই এরpd,θ(d,θ|I)=pd,θ(θ,d|I) প্রতিসাম্যিক । (স্পষ্টত এই অনুমান একই ডোমেইন উপর পিডিএফ রেঞ্জ যে জড়িত থাকে d এবং θ এর পরে, পূর্বে হলে।) p(θ|I)=f(θ) , আমরা s(D|θ)p(θ|I)=s(D|θ)f(θ)=s(θ|D)f(D). Hence
P(θ∈CD|DI)i.e.P(θ∈CD|DI)=∫CDs(θ|D)dθ∫s(θ|D)dθ=∫CDs(θ|D)dθ
From the definition of an HDR we know that for any ψ∈Θ
∫Hψs(d|ψ)ddand therefore that∫HDs(d|D)ddor equivalently∫HDs(θ|D)dθ=h=h=h
Therefore, given that s(d|θ)f(θ)=s(θ|d)f(d), CD=HD implies P(θ∈CD|DI)=h. The antecedent satisfies
CD=HD⟷∀ψ[ψ∈CD↔ψ∈HD]
Applying the equivalence near the top:
CD=HD⟷∀ψ[D∈Hψ↔ψ∈HD]
Thus, the confidence region CD contains θ with probability h if for all possible values ψ of θ, the h-HDR of s(d|ψ) contains D if and only if the h-HDR of s(d|D) contains ψ.
Now the symmetric relation D∈Hψ↔ψ∈HD is satisfied for all ψ when s(ψ+δ|ψ)=s(D−δ|D) for all δ that span the support of s(d|D) and s(d|ψ). We can therefore form the following argument:
- s(d|θ)f(θ)=s(θ|d)f(d) (premise)
- ∀ψ∀δ[s(ψ+δ|ψ)=s(D−δ|D)] (premise)
- ∀ψ∀δ[s(ψ+δ|ψ)=s(D−δ|D)]⟶∀ψ[D∈Hψ↔ψ∈HD]
- ∴∀ψ[D∈Hψ↔ψ∈HD]
- ∀ψ[D∈Hψ↔ψ∈HD]⟶CD=HD
- ∴CD=HD
- [s(d|θ)f(θ)=s(θ|d)f(d)∧CD=HD]⟶P(θ∈CD|DI)=h
- ∴P(θ∈CD|DI)=h
Let's apply the argument to a confidence interval on the mean of a 1-D normal distribution (μ,σ), given a sample mean x¯ from n measurements. We have θ=μ and d=x¯, so that the sampling distribution is
s(d|θ)=n−−√σ2π−−√e−n2σ2(d−θ)2
Suppose also that we know nothing about θ before taking the data (except that it's a location parameter) and therefore assign a uniform prior: f(θ)=k. Clearly we now have s(d|θ)f(θ)=s(θ|d)f(d), so the first premise is satisfied. Let s(d|θ)=g((d−θ)2). (i.e. It can be written in that form.) Then
s(ψ+δ|ψ)=g((ψ+δ−ψ)2)=g(δ2)ands(D−δ|D)=g((D−δ−D)2)=g(δ2)so that∀ψ∀δ[s(ψ+δ|ψ)=s(D−δ|D)]
whereupon the second premise is satisfied. Both premises being true, the eight-point argument leads us to conclude that the probability that θ lies in the confidence interval CD is h!
We therefore have an amusing irony:
- The frequentist who assigns the h confidence interval cannot say that P(θ∈CD)=h, no matter how innocently uniform θ looks before incorporating the data.
- The Bayesian who would not assign an h confidence interval in that way knows anyhow that P(θ∈CD|DI)=h.
Final Remarks
We have identified conditions (i.e. the two premises) under which the h confidence region does indeed yield probability h that θ∈CD. A frequentist will baulk at the first premise, because it involves a prior on θ, and this sort of deal-breaker is inescapable on the route to a probability. But for a Bayesian, it is acceptable---nay, essential. These conditions are sufficient but not necessary, so there are many other circumstances under which the Bayesian P(θ∈CD|DI) equals h. Equally though, there are many circumstances in which P(θ∈CD|DI)≠h, especially when the prior information is significant.
We have applied a Bayesian analysis just as a consistent Bayesian would, given the information at hand, including statistics D. But a Bayesian, if he possibly can, will apply his methods to the raw measurements instead---to the {xi}, rather than x¯. Oftentimes, collapsing the raw data into summary statistics D destroys information in the data; and then the summary statistics are incapable of speaking as eloquently as the original data about the parameters θ.