বায়েশিয়ান প্রিয়াররা কি বড় নমুনা আকারের সাথে অপ্রাসঙ্গিক হয়ে যায়?

26

বয়েশিয়ান অনুমান সম্পাদন করার সময়, আমরা পরামিতিগুলির সাথে থাকা আমাদের প্রিয়ারদের সাথে একযোগে আমাদের সম্ভাবনা ফাংশনটি সর্বাধিক করে পরিচালনা করি। লগ-সম্ভাবনা আরও সুবিধাজনক হওয়ার কারণে, আমরা কার্যকরভাবে একটি এমসিসিএম ব্যবহার করে max সর্বাধিক করে থাকি বা অন্যথায় যা পোস্টারিয়র ডিস্ট্রিবিউশনগুলি তৈরি করে (পিডিএফ ব্যবহার করে প্রতিটি প্যারামিটারের পূর্বের এবং প্রতিটি ডেটার পয়েন্টের সম্ভাবনা)। $\sum \ln (\text{prior}) + \sum \ln (\text{likelihood})$

আমাদের যদি প্রচুর ডেটা থাকে, তবে সম্ভাবনাটি সাধারণ গণিত দ্বারা পূর্বের যে কোনও তথ্য সরবরাহ করে overwhel শেষ পর্যন্ত, এটি ভাল এবং ডিজাইনের দ্বারা; আমরা জানি যে উত্তরোত্তর আরও ডেটা সহ কেবলমাত্র সম্ভাবনাতে রূপান্তরিত করবে কারণ এটি অনুমিত হয়।

কনজুগেট প্রিয়ারদের দ্বারা সংজ্ঞায়িত সমস্যার জন্য, এটি ঠিক প্রমাণযোগ্য।

প্রাইয়াররা যখন কোনও প্রদত্ত সম্ভাবনা ফাংশন এবং কিছু নমুনার আকারের বিষয়টি বিবেচনা না করে তা স্থির করার কোনও উপায় আছে?

bayesian prior

— পিক্সেল
সূত্র

3

আপনার প্রথম বাক্যটি সঠিক নয়। বায়েশিয়ান অনুমান এবং এমসিসিএম অ্যালগরিদম সম্ভাবনা সর্বাধিক করে না।

— niandra82

5

আপনি কি প্রান্তিক সম্ভাবনা, বেইস ফ্যাক্টর, পূর্ব / উত্তরোত্তর পূর্বাভাস বিতরণ, পূর্ববর্তী / উত্তরোত্তর ভবিষ্যদ্বাণীমূলক চেকের সাথে পরিচিত? আপনি বায়েশিয়ান দৃষ্টান্তের মডেলগুলির তুলনা করতে এই ধরণের জিনিস ব্যবহার করবেন। আমি মনে করি যে এই প্রশ্নটি বায়েস ফ্যাক্টর, কেবলমাত্র তাদের পূর্বের দ্বারা পৃথক হওয়া মডেলগুলির মধ্যে 1-এ রূপান্তরিত হবে না কেন নমুনা আকার অনন্তের দিকে চলে যায় to আপনি সম্ভাব্যতার দ্বারা বর্ণিত প্যারামিটার জায়গার মধ্যে ছাঁটাই হওয়া প্রিরিয়ারগুলিও আলাদা করে রাখতে চাইতে পারেন, কারণ এটি সম্ভাব্যতার সর্বোচ্চ সম্ভাবনার প্রাক্কলনে রূপান্তর করা থেকে লক্ষ্যটিকে অস্বীকার করতে পারে।

— জাকারি ব্লুমেনফিল্ড

@ জাচারি ব্লুমেনফিল্ড: এটি সঠিক উত্তর হিসাবে যোগ্য হতে পারে!

— শি'আন

সংশোধিত ফর্মটি কি "বেয়েসের নিয়মকে সর্বাধিকীকরণ" করছে? এছাড়াও, আমি যে মডেলগুলির সাথে কাজ করছি তা শারীরিকভাবে ভিত্তিক, সুতরাং কাটা পরামিতি স্পেসগুলি কাজের প্রয়োজন। (আমি এও সম্মত হই যে আপনার মন্তব্যগুলি সম্ভবত একটি উত্তর, আপনি কি তাদের @ জ্যাকারি ব্লুমেনফিল্ড থেকে বের করে দিতে পারবেন?)

— পিক্সেল

37

এটা যে সহজ নয়। আপনার ডেটাতে থাকা তথ্য পূর্বের তথ্যগুলিকে ছাপিয়ে যায় কেবলমাত্র আপনার নমুনার আকারই বড় নয়, তবে যখন আপনার ডেটা পূর্বের তথ্যগুলি ছাপিয়ে দেওয়ার জন্য পর্যাপ্ত তথ্য সরবরাহ করে। তথ্যবিরোধী প্রিরিয়াররা সহজেই ডেটা দ্বারা প্ররোচিত হয়, তবে দৃ strongly়ভাবে তথ্যযুক্তরা আরও প্রতিরোধী হতে পারে। চরম ক্ষেত্রে, অশুভ-সংজ্ঞায়িত প্রিরিয়ারদের সাথে আপনার ডেটা এটিকে কাটিয়ে উঠতে মোটেও সক্ষম হতে পারে না (যেমন কোনও কোনও অঞ্চলের শূন্য ঘনত্ব)।

মনে রাখবেন যে বয়েস উপপাদ্য দ্বারা আমরা আমাদের পরিসংখ্যানের মডেল, তথ্য-বহিরাগত, পূর্বের তথ্য এবং সম্ভাব্যতা ফাংশনে ডেটা দ্বারা জানানো তথ্যগুলিতে তথ্যের দুটি উত্স ব্যবহার করি :

posterior \propto prior \times সম্ভাবনা

$\color{violet}{\text{posterior}} \propto \color{red}{\text{prior}} \times \color{lightblue}{\text{likelihood}}$

অপ্রয়োজনীয় পূর্ব (বা সর্বাধিক সম্ভাবনা) ব্যবহার করার সময়, আমরা আমাদের মডেলটিতে ন্যূনতম সম্ভাব্য পূর্বের তথ্য আনার চেষ্টা করি। তথ্যবহুল প্রিয়ারদের সাথে আমরা মডেলটিতে প্রচুর পরিমাণে তথ্য নিয়ে আসি। সুতরাং, ডেটা এবং পূর্ববর্তী উভয়ই আমাদের জানায় যে অনুমানিত পরামিতিগুলির মানগুলি আরও প্রশংসনীয় বা বিশ্বাসযোগ্য। তারা বিভিন্ন তথ্য আনতে পারে এবং এগুলির প্রত্যেকেই কিছু ক্ষেত্রে অপরটিকে শক্তিশালী করতে পারে।

আমি এটি খুব বেসিক বিটা-বাইনোমিয়াল মডেল দিয়ে বর্ণনা করব ( বিস্তারিত উদাহরণের জন্য এখানে দেখুন )। পূর্বে "অপ্রয়োজনীয়" সাথে , বেশ ছোট ছোট নমুনা এটিকে ছাপিয়ে যাওয়ার পক্ষে যথেষ্ট হতে পারে। নীচের প্লটগুলিতে আপনি বিভিন্ন নমুনা মাপের একই মডেলের প্রিয়ার্স (লাল বক্রাকার), সম্ভাবনা (নীল বক্ররেখা) এবং পোস্টেরিয়ারগুলি (ভায়োলেট বক্ররেখা) দেখতে পাবেন।

অন্যদিকে, আপনি সত্যিকারের মানের কাছাকাছি থাকা তথ্যের আগে তথ্যবহুল থাকতে পারেন, এটি খুব সহজেই হবে তবে ডেটা দ্বারা প্ররোচিত সাপ্তাহিক তথ্যবহুল হিসাবে এটি সহজে নয়।

তথ্যটি পূর্বের সাথে কেসটি একেবারেই আলাদা, যখন তথ্য যা বলে তার থেকে খুব বেশি দূরে থাকে (প্রথম উদাহরণ হিসাবে একই ডেটা ব্যবহার করে)। এই ক্ষেত্রে আপনার পূর্ববর্তী কাটিয়ে উঠতে আরও বৃহত্তর নমুনা প্রয়োজন।

সুতরাং এটি কেবলমাত্র নমুনার আকার সম্পর্কে নয়, আপনার ডেটা কী এবং আপনার পূর্বে কী তাও। লক্ষ্য করুন যে এটি একটি পছন্দসই আচরণ, কারণ তথ্যমূলক প্রিয়ারগুলি ব্যবহার করার সময় আমরা আমাদের মডেলের মধ্যে সম্ভাব্যভাবে ডেটা-অফ-ডেটা তথ্য অন্তর্ভুক্ত করতে চাই এবং যদি বড় নমুনাগুলি সর্বদা প্রিয়ারগুলিকে ফেলে দেয় তবে এটি অসম্ভব।

জটিল উত্তর-সম্ভাবনা-পূর্ব সম্পর্কের কারণে, উত্তরোত্তর বিতরণটি দেখার জন্য এবং কিছু উত্তরের ভবিষ্যদ্বাণীমূলক চেকগুলি করা সর্বদা ভাল (গেলম্যান, মেং এবং স্টার্ন, 1996; জেলম্যান এবং হিল, 2006; গেলম্যান এট আল, 2004)। অধিকন্তু, স্পিগেলহাল্টার (২০০৪) দ্বারা বর্ণিত হিসাবে, আপনি বিভিন্ন প্রবীণ ব্যবহার করতে পারেন, উদাহরণস্বরূপ "হতাশাবাদী" যা বড় প্রভাব সম্পর্কে সন্দেহ প্রকাশ করে, বা "উত্সাহী" যা অনুমান প্রভাব সম্পর্কে আশাবাদী। আপনার ডেটার সাথে বিভিন্ন প্রবীণরা কীভাবে আচরণ করে তার তুলনা অনানুষ্ঠানিকভাবে মূল্যায়ন করতে পারে যে পোস্টারিয়রটি পূর্বের দ্বারা কীভাবে প্রভাবিত হয়েছিল assess

স্পিগেলহাল্টার, ডিজে (2004) বায়সীয় ধারণাগুলি স্বাস্থ্য-যত্নের মূল্যায়নে অন্তর্ভুক্ত করা। পরিসংখ্যান বিজ্ঞান, 156-174।

গেলম্যান, এ।, কার্লিন, জেবি, স্টার্ন, এইচএস, এবং রুবিন, ডিবি (2004)। বায়েশিয়ান ডেটা বিশ্লেষণ। চ্যাপম্যান অ্যান্ড হল / সিআরসি।

গেলম্যান, এ। এবং হিল, জে। (2006) রিগ্রেশন এবং মাল্টিলেভেল / শ্রেণিবদ্ধ মডেলগুলি ব্যবহার করে ডেটা বিশ্লেষণ। ক্যামব্রিজ ইউনিভার্সিটি প্রেস.

গেলম্যান, এ।, মেং, এক্সএল, এবং স্টার্ন, এইচ। (1996)। মডেল ফিটনেসের উত্তরীয় ভবিষ্যদ্বাণীমূলক মূল্যায়ন বোধগম্য ত্রুটিগুলির মাধ্যমে। পরিসংখ্যান সিনিকা, 733-760।

— টিম
সূত্র

2

চমৎকার অবদান, ধন্যবাদ টিম। আমি যুক্ত করতে চাই যে আপনি এখানে এত সুন্দরভাবে যে বিপরীতে অভিনয় করেছেন তা নিজেও এক মডেলের বিভিন্ন পরামিতির সাথে সম্পর্কিত একই মডেলের মধ্যে উপস্থিত হতে পারে । এমন কিছু পরামিতি থাকতে পারে যার সম্পর্কে ডেটা নগদ তথ্য সরবরাহ করে, সেক্ষেত্রে প্রবীণরা সনাক্তকরণের সীমাবদ্ধতা সরবরাহ করতে সমালোচনামূলকভাবে পরিবেশন করতে পারে ।

— ডেভিড সি নরিস

গ্রাফের প্রথম 3x3 ম্যাট্রিক্সে, গ্রাফগুলি কি সঠিক? উত্তরোত্তর সম্পূর্ণভাবে সমতল এবং n = 25 সহ?

— MichiganWater

1

@ মিশিগানওয়াটার প্রতিটি 9-প্লটের সংগ্রহগুলি y- অক্ষের জন্য একই স্কেল ব্যবহার করে যাতে বৃহত্তম মানগুলি পর্দার বাইরে না যায়। সুতরাং আপনার কাছে আরও ডেটা রয়েছে এমন ক্ষেত্রে তুলনামূলকভাবে এগুলি সমতল। আপনি যদি "জুম ইন" করেন তবে সেগুলি সমতল হবে না।

— টিম

11

বয়েশিয়ান অনুমান সম্পাদন করার সময়, আমরা পরামিতিগুলির সাথে থাকা আমাদের প্রিয়ারদের সাথে একযোগে আমাদের সম্ভাবনা ফাংশনটি সর্বাধিক করে পরিচালনা করি।

এটি আসলে বেশিরভাগ অনুশীলনকারীই বায়েশিয়ান অনুগ্রহ হিসাবে বিবেচনা করেন না। এইভাবে প্যারামিটারগুলি অনুমান করা সম্ভব, তবে আমি এটিকে বায়েশিয়ান অনুমিতি বলব না।

বায়েশিয়ান অনুমান প্রতিযোগিতামূলক অনুমানের জন্য উত্তরীয় সম্ভাবনাগুলি (বা সম্ভাবনার অনুপাত) গণনা করতে পরবর্তী বিতরণগুলি ব্যবহার করে।

মন্টে কার্লো বা মার্কভ-চেইন মন্টি কার্লো (এমসিএমসি) কৌশল দ্বারা উত্তরোত্তর বিতরণগুলি অনুমিতভাবে অনুমান করা যায়।

এই পার্থক্যগুলি একদিকে রেখে, প্রশ্ন

বায়েশিয়ান প্রিয়াররা কি বড় নমুনা আকারের সাথে অপ্রাসঙ্গিক হয়ে যায়?

তবুও সমস্যার প্রসঙ্গ এবং আপনি কী যত্ন নেবেন তার উপর নির্ভর করে।

যদি আপনি যা ভাবনা করেন সেটিকে যদি ইতিমধ্যে খুব বড় নমুনা দেওয়া হয় তবে উত্তরটি সাধারণত হ্যাঁ, প্রিরিয়ররা অসম্পূর্ণভাবে অপ্রাসঙ্গিক *। তবে, আপনি যদি উদ্বিগ্ন হন তা হল মডেল নির্বাচন এবং বায়েশিয়ান হাইপোথিসিস পরীক্ষা, তবে উত্তরটি হ'ল না, প্রিরিয়ররা অনেকটাই গুরুত্বপূর্ণ, এবং নমুনা আকারের সাথে তাদের প্রভাব ক্ষয় হবে না।

* এখানে, আমি ধরে নিচ্ছি যে সম্ভাব্যতা দ্বারা বর্ণিত প্যারামিটার জায়গার বাইরে প্রিয়াররা কাটা / সেন্সর করা হয়নি, এবং গুরুত্বপূর্ণ অঞ্চলগুলিতে শূন্য-ঘনত্বের কাছাকাছি রূপান্তর সমস্যার কারণ হিসাবে তারা এতটা অসুস্থ-নির্দিষ্ট নয়। আমার যুক্তিটিও অ্যাসিম্পোটিক, যা নিয়মিত সমস্ত ক্যাভ্যাট নিয়ে আসে।

ভবিষ্যদ্বাণীমূলক ঘনত্ব

$\mathbf{d}_N = (d_1, d_2,...,d_N)$ $d_i$ $f(\mathbf{d}_N\mid \theta)$ $\theta$

$\pi_0 (\theta \mid \lambda_1)$ $\pi_0 (\theta \mid \lambda_2)$ $\lambda_1 \neq \lambda_2$

π_{N} (θ ∣ d_{N}, λ_{j}) \propto f (d_{N} ∣ θ) π_{0} (θ ∣ λ_{j}) f o r j = 1, 2

$\pi_N (\theta \mid \mathbf{d}_N, \lambda_j) \propto f(\mathbf{d}_N\mid \theta)\pi_0 ( \theta \mid \lambda_j)\;\;\;\;\;\mathrm{for}\;\;j=1,2$

লেটিং $\theta^*$ $\theta^{j}_N \sim \pi_N(\theta\mid \mathbf{d}_N, \lambda_j)$ $\hat \theta_N = \max_\theta\{ f(\mathbf{d}_N\mid \theta) \}$ $\theta^{1}_N$ $\theta^{2}_N$ $\hat \theta_N$ $\theta^*$ $\varepsilon >0$

\begin{aligned} lim_{N \to \infty} P r (| θ_{N}^{j} - θ^{*} | \geq ε) & = 0 \forall j \in {1, 2} \\ lim_{N \to \infty} P r (| {\hat{θ}}_{N} - θ^{*} | \geq ε) & = 0 \end{aligned}

$\begin{align} \lim_{N \rightarrow \infty} Pr(|\theta^j_N - \theta^*| \ge \varepsilon) &= 0\;\;\;\forall j \in \{1,2\} \\ \lim_{N \rightarrow \infty} Pr(|\hat \theta_N - \theta^*| \ge \varepsilon) &= 0 \end{align}$

$\theta^j_N = \max_\theta \{\pi_N (\theta \mid \mathbf{d}_N, \lambda_j)\}$

$f(\tilde d \mid \mathbf{d}_N, \lambda_j) = \int_{\Theta} f(\tilde d \mid \theta,\lambda_j,\mathbf{d}_N)\pi_N (\theta \mid \lambda_j,\mathbf{d}_N)d\theta$ $f(\tilde d \mid \mathbf{d}_N, \theta^j_N)$ $f(\tilde d\mid \mathbf{d}_N, \theta^*)$

মডেল নির্বাচন এবং হাইপোথিসিস পরীক্ষা

যদি কেউ বায়েসীয় মডেল নির্বাচন এবং অনুমানের পরীক্ষায় আগ্রহী হয় তবে তাদের সচেতন হওয়া উচিত যে পূর্বের প্রভাব asyptotically অদৃশ্য হয় না।

$f(\mathbf{d}_N \mid \mathrm{model})$

K_{N} = \frac{f (d_{N} ∣ {m o d e l}_{1})}{f (d_{N} ∣ {m o d e l}_{2})}

$K_N = \frac{f(\mathbf{d}_N \mid \mathrm{model}_1)}{f(\mathbf{d}_N \mid \mathrm{model}_2)}$

P r ({m o d e l}_{j} ∣ d_{N}) = \frac{f (d_{N} ∣ {m o d e l}_{j}) P r ({m o d e l}_{j})}{\sum_{l = 1}^{L} f (d_{N} ∣ {m o d e l}_{l}) P r ({m o d e l}_{l})}

$Pr(\mathrm{model}_j \mid \mathbf{d}_N) = \frac{f(\mathbf{d}_N \mid \mathrm{model}_j)Pr(\mathrm{model}_j)}{\sum_{l=1}^L f(\mathbf{d}_N \mid \mathrm{model}_l)Pr(\mathrm{model}_l)}$

f (d_{N} ∣ λ_{j}) = \int_{Θ} f (d_{N} ∣ θ, λ_{j}) π_{0} (θ ∣ λ_{j}) d θ

$f(\mathbf{d}_N \mid \lambda_j) = \int_{\Theta} f(\mathbf{d}_N \mid \theta, \lambda_j)\pi_0(\theta\mid \lambda_j)d\theta$

f (d_{N} ∣ λ_{j}) = \prod_{n = 0}^{N - 1} f (d_{n + 1} ∣ d_{n}, λ_{j})

$f(\mathbf{d}_N \mid \lambda_j) = \prod_{n=0}^{N-1} f(d_{n+1} \mid \mathbf{d}_n , \lambda_j)$

f (d_{N + 1} ∣ d_{N}, λ_{j})

$f(d_{N+1} \mid \mathbf{d}_N , \lambda_j)$

f (d_{N + 1} ∣ d_{N}, θ^{*})

$f(d_{N+1} \mid \mathbf{d}_N , \theta^*)$ $f(\mathbf{d}_N \mid \lambda_1)$ $f(\mathbf{d}_N \mid \theta^*)$ $f(\mathbf{d}_N \mid \lambda_2)$

\frac{f (d_{N} ∣ λ_{1})}{f (d_{N} ∣ λ_{2})} ⧸ \overset{p}{\to} 1

$\frac{f(\mathbf{d}_N \mid \lambda_1)}{ f(\mathbf{d}_N \mid \lambda_2)} \not\stackrel{p}{\rightarrow} 1$

h (d_{N} ∣ M) = \int_{Θ} h (d_{N} ∣ θ, M) π_{0} (θ ∣ M) d θ

$h(\mathbf{d}_N\mid M) = \int_{\Theta} h(\mathbf{d}_N\mid \theta, M)\pi_0(\theta\mid M) d\theta$

\frac{f (d_{N} ∣ λ_{1})}{h (d_{N} ∣ M)} \neq \frac{f (d_{N} ∣ λ_{2})}{h (d_{N} ∣ M)}

$\frac{f(\mathbf{d}_N \mid \lambda_1)}{ h(\mathbf{d}_N\mid M)} \neq \frac{f(\mathbf{d}_N \mid \lambda_2)}{ h(\mathbf{d}_N\mid M)}$

— জাচারি ব্লুমেনফিল্ড
সূত্র

5

মাথায় রাখার আরেকটি বিষয় হ'ল আপনার কাছে প্রচুর ডেটা থাকতে পারে তবে এখনও আপনার মডেলটিতে কিছু নির্দিষ্ট পরামিতি সম্পর্কে খুব কম তথ্য থাকতে পারে । এই ধরনের ক্ষেত্রে, এমনকি একটি হালকা তথ্যপূর্ণ পূর্বনির্মাণ অনুমান সম্পাদন করার সময় অত্যন্ত সহায়ক হতে পারে।

নির্বোধ উদাহরণ হিসাবে, ধরুন আপনি দুটি গ্রুপের মাধ্যমের তুলনা করছেন এবং আপনার 1 গ্রুপের 1,000,000 নমুনা রয়েছে এবং 2 গ্রুপের 10 টি নমুনা রয়েছে তারপরে স্পষ্টতই গ্রুপ 2 সম্পর্কে একটি তথ্যবহুল পূর্ববর্তী থাকা অনুমানের উন্নতি করতে পারে, যদিও আপনি দশ লক্ষেরও বেশি সংগ্রহ করেছেন নমুনা।

এবং উদাহরণটি তুচ্ছ হতে পারে, এটি কিছু খুব গুরুত্বপূর্ণ জড়িত নেতৃত্ব দিতে শুরু করে। যদি আমরা কিছু জটিল ঘটনাটি বুঝতে চাই, তবে স্মার্ট জিনিসটি হ'ল আমরা যে অংশগুলি বুঝতে পারি না সে সম্পর্কিত অনেকগুলি তথ্য সংগ্রহ করি এবং আমরা যে অংশগুলি বুঝতে পারি সেগুলি সম্পর্কে কম তথ্য সংগ্রহ করি। যদি আমরা এই জাতীয় উপায়ে প্রচুর ডেটা সংগ্রহ করি তবে আমাদের পূর্ববর্তী তথ্য ছড়িয়ে দেওয়া কারণ আমাদের কাছে প্রচুর ডেটা সত্যই খারাপ পছন্দ; আমরা আমাদের বিশ্লেষণটি পিছনে ফেলেছি কারণ আমরা ইতিমধ্যে জানি এমন জিনিসগুলির ডেটা সংগ্রহ করতে সময় নষ্ট করি নি!

— ক্লিফ এবি
সূত্র