বায়েশিয়ান পরিসংখ্যানের প্রতি কোমল পদ্ধতি

আমি সম্প্রতি বোলস্টাডের "বায়সিয়ান স্ট্যাটিস্টিকসের ভূমিকা" দ্বিতীয় সংস্করণ পড়া শুরু করেছি। আমার একটি সূচনাসংখ্যার পরিসংখ্যানের ক্লাস ছিল যা মূলত পরিসংখ্যান সংক্রান্ত পরীক্ষাগুলি কভার করে এবং প্রায় রিগ্রেশন বিশ্লেষণে একটি শ্রেণীর মধ্য দিয়ে। এই আমার বোঝার পরিপূরক করতে আমি আর কোন বই ব্যবহার করতে পারি?

আমি প্রথম 100-125 পৃষ্ঠা জরিমানা করে দিয়েছি। এরপরে বইটি হাইপোথিসিস টেস্টিংয়ের কথা বলতে শুরু করে যা আমি coverাকতে খুব আগ্রহী কিন্তু সেখানে আমাকে দু'টি জিনিস ফেলে দিচ্ছে:

গণনায় সম্ভাব্যতা ঘনত্ব ফাংশন ব্যবহার। অন্য কথায় এই জাতীয় সমীকরণ কীভাবে মূল্যায়ন করা যায়।
এই পুরো বাক্যটি: "ধরুন আমরা পাই এর আগে বিটা (1,1) ব্যবহার করি। তারপরে y = 8 দিলে উত্তরের ঘনত্ব বিটা (9,3) হয়। নাল হাইপোথিসিসের উত্তরোত্তর সম্ভাবনাটি ..." আমি বিশ্বাস করি বিটা (1,1) এমন একটি পিডিএফকে বোঝায় যেখানে গড় 1 এবং স্টাডিভ 1? এটি কীভাবে পশ্চাত ঘনত্বের ফাংশন হিসাবে এটি একটি বিটাতে পরিবর্তিত হবে (9,3) get

আমি প্রাইয়ার্স বনাম পোস্টারিয়রদের ধারণা পেয়েছি এবং ম্যানুয়ালি একটি টেবিল ব্যবহার করে কীভাবে সেগুলি প্রয়োগ করতে হয় তা বুঝতে পারি। আমি পাই (আমার মনে হয়!) পাই পাই অনুমান জনসংখ্যার অনুপাত বা সম্ভাবনা উপস্থাপন করে।

আমি কীভাবে এটি ডেটার সাথে একসাথে সংযুক্ত করব তা আমি প্রতিদিনের ভিত্তিতে চালিয়ে যাব এবং ফলাফল পাব না।

hypothesis-testing bayesian

— জাস্টিন বোজনিয়ার
সূত্র

পরামিতি

π

$\pi$ প্রসঙ্গ থেকে প্রদর্শিত হয় একটি দ্বিপদ মডেল জনসংখ্যা সম্ভাব্যতা যাবে। এই ক্ষেত্রে, একটি বিটা বিতরণ পরিচিত সঙ্গে একটি দ্বিপদ সম্ভাবনা জন্য অনুবন্ধী পূর্বে হয়

n

$n$ এবং অজানা

π

$\pi$ । তবে, বিটা বিতরণের প্যারামিটারগুলি গড় এবং মানক বিচ্যুতি নয়, যেমনটি সাধারণ বিতরণের ক্ষেত্রে। বিটা বিতরণের প্যারামিটারের ক্ষেত্রে বিটা র্যান্ডম ভেরিয়েবলের গড় এবং তারতম্যের সূত্রটি দেখতে উইকিপিডিয়া পৃষ্ঠায় দেখুন।

— ক্যাবুরকে

ধন্যবাদ! কনজুগেট পূর্ববর্তী শব্দটি আমার কাছে পরিচিত নয়। পরিচিতি পর্যায়ে আমি সে সম্পর্কে আরও কোথায় জানতে পারি?

— জাস্টিন বোজনিয়ায়ার

আপনি আরও ব্যবহারিক পাঠ্যে আগ্রহী হতে পারেন, আপনি কি হ্যাকারদের জন্য বেয়েসিয়ান পদ্ধতিগুলি দেখেছেন? (প্রকাশ - আমি একটি অবদানকারী লেখক) এটি অনুসন্ধান করার চেষ্টা করুন (এটি ওপেনসোর্স এবং বিনামূল্যে)।

— ক্যাম.ড্যাভিডসন.পিলন

@ জাস্টিনবাজনিয়ায়ার এই লিঙ্কটি stats.stackexchange.com/questions/66018/… সংযোগের বর্ষসেরা প্রিজন সহ কারাগারের প্রিয়ারদের বর্ণনা করতে লোকেরা বিভিন্ন পদ ব্যবহার করে তার জন্য কিছু ব্যাখ্যা দেয়।

— সাইকোরাক্স মনিকাকে

@ ক্যাম.ড্যাভিডসন.পিলন তার জন্য ধন্যবাদ! এই পৃষ্ঠায় কেবলমাত্র চার্টগুলির উপর বিশ্বাসের আপডেট হওয়া আমাকে অন্যরা কী উত্তর দিচ্ছে তার আরও বেশি কিছু পেতে সহায়তা করছে: nbviewer.ipython.org/urls/raw.github.com/CamDavidsonPilon/…

— জাস্টিন বোজনিয়ায়

উত্তর:

গণনায় সম্ভাব্যতা ঘনত্ব ফাংশন ব্যবহার। অন্য কথায় এই জাতীয় সমীকরণ কীভাবে মূল্যায়ন করা যায়।

আমি মনে করি আপনি এখনও ঘন ঘনবাদী দৃষ্টিকোণ থেকে এটি সম্পর্কে ভাবছেন: আপনি যদি কোনও বিন্দু অনুমানের জন্য সন্ধান করেন তবে উত্তরোত্তর এটি আপনাকে দেবে না। আপনি পিডিএফ রেখেছেন, আপনি পিডিএফ বের করবেন। আপনার উত্তরোত্তর বিতরণ থেকে পরিসংখ্যান গণনা করে আপনি পয়েন্টের অনুমানগুলি অর্জন করতে পারেন, তবে আমি এটি কিছুটা হলেও পেয়ে যাব।

আমি প্রাইয়ার্স বনাম পোস্টারিয়রদের ধারণা পেয়েছি এবং ম্যানুয়ালি একটি টেবিল ব্যবহার করে কীভাবে সেগুলি প্রয়োগ করতে হয় তা বুঝতে পারি। আমি পাই (আমার মনে হয়!) পাই পাই অনুমান জনসংখ্যার অনুপাত বা সম্ভাবনা উপস্থাপন করে।

হিসাবে একই জিনিস : তারা উভয় PDF গুলি করছি। মাত্র সাধারনত বোঝাতে সেই নির্দিষ্ট পিডিএফ পূর্বাধিকার ঘনত্ব ব্যবহৃত হয়। $\pi(x)$ $p(x)$ $\pi$

আমি সন্দেহ করি যে আপনি প্রিয়ার এবং পোস্টারিয়র পাবেন না পাশাপাশি আপনার মনে হয় আপনি কী করেন, সুতরাং আসুন এটি ব্যয়েশিয়ার পরিসংখ্যানের মৌলিক ভিত্তিটি তৈরি করুন: বিষয়গত সম্ভাবনা ।

বিষয়গত সম্ভাবনার একটি চিন্তার পরীক্ষা

আসুন বলে নেওয়া যাক আমি আপনাকে একটি মুদ্রা উপস্থাপন করছি এবং আপনাকে জিজ্ঞাসা করব যে আপনি এই মুদ্রাটিকে ন্যায্য মুদ্রা বলে মনে করেন কিনা। আপনি সম্ভাব্যতার ক্লাসে প্রচুর লোকদের অন্যায় মুদ্রা সম্পর্কে কথা শুনেছেন, তবে আপনি বাস্তবে কখনও বাস্তবে কোনওটি দেখেননি, তাই আপনি প্রতিক্রিয়া জানান, "হ্যাঁ, অবশ্যই, আমি মনে করি এটি একটি ন্যায্য মুদ্রা।" তবে, আমি আপনাকে এই প্রশ্নটি জিজ্ঞাসা করেছিলাম তা আপনাকে কিছুটা বিরতি দেয়, সুতরাং যদিও আপনার অনুমানটি এটি ন্যায্য, আপনি যদি সত্যিই অবাক হন না তবে তা অবাক হবেন না। আপনার পকেটের পরিবর্তনতে আপনি এই মুদ্রাটি খুঁজে পেয়েছেন কিনা তার চেয়ে অনেক কম বিস্মিত (কারণ আপনি মনে করেন যে এটি সমস্ত আসল মুদ্রা, এবং আপনি এখনই আমার উপর নির্ভর করেন না কারণ আমি সন্দেহজনক আচরণ করছি)।

এখন, আমরা কয়েকটি পরীক্ষা চালাচ্ছি। 100 ফ্লিপের পরে, মুদ্রা 53 টি হেডস ফিরিয়ে দেয়। আপনি অনেক বেশি আত্মবিশ্বাসী যে এটি একটি ন্যায্য মুদ্রা, তবে আপনি এখনও এটির সম্ভাবনার পক্ষে উন্মুক্ত। পার্থক্যটি হ'ল এখন এই মুদ্রাটি যদি কিছুটা পক্ষপাতিত্ব করে থাকে তবে আপনি বেশ অবাক হবেন।

মুদ্রাটি যে মাথা দেখিয়ে দেবে এমন সম্ভাবনা সম্পর্কে (বিশেষত, যা আমরা বোঝাতে চাই ) আমরা কীভাবে এখানে আপনার পূর্ববর্তী ও উত্তরীয় বিশ্বাসকে উপস্থাপন করতে পারি ? একটি ঘনত্ববাদী সেটিংয়ে আপনার পূর্ব বিশ্বাস - আপনার নাল অনুমান - এটি । পরীক্ষা চালানোর পরে, আপনি শূন্যটিকে প্রত্যাখ্যান করতে পারবেন না এবং তাই আপনি এই ধারণাটি চালিয়ে যান যে হ্যাঁ, মুদ্রাটি সম্ভবত ন্যায্য। তবে আমরা কীভাবে আপনার আত্মবিশ্বাসের যে মুদ্রাটি ন্যায্য, তা পরিবর্তনের জন্য কীভাবে ব্যবহার করব ? পরীক্ষা-নিরীক্ষার পরে আপনি এমন অবস্থানে আছেন যে আপনি বাজি ধরবেন যে মুদ্রাটি ন্যায্য, তবে পরীক্ষার আগে আপনি কৃপণ হয়ে উঠতেন। $\theta$ $\theta = 0.5$

বায়েসিয়ান সেটিং-এ, আপনি সম্ভাব্যতাগুলিকে স্কেলার মান হিসাবে নয় বরং এলোমেলো ভেরিয়েবল, অর্থাৎ ফাংশন হিসাবে বিবেচনা করে প্রস্তাবের প্রতি আপনার আত্মবিশ্বাসকে আবদ্ধ করেন। বলার পরিবর্তে আমরা বলি , এবং এর মাধ্যমে পিডিএফটির বৈকল্পিকতায় আমাদের আত্মবিশ্বাসকে সংযুক্ত করে। যদি আমরা একটি উচ্চ বৈকল্পিকতা স্থির করি, আমরা বলছি, "আমি মনে করি সম্ভাবনাটি 0.5 is তবে আমি বিশ্বে যে সম্ভাবনাটি দেখছি তা এই মান থেকে অনেক দূরে থাকলে আমি অবাক হব না I আমি মনে করি $\theta = 0.5$ $\theta \sim N(0.5, \sigma^2)$ $\theta= 0.5$ , তবে প্রকৃতপক্ষে আমি সত্যই এটি নিশ্চিত নই। "একটি স্বল্প বৈচিত্র্য নির্ধারণ করে আমরা বলছি," আমি কেবল বিশ্বাস করি না যে সম্ভাবনাও 0.5 হয়, তবে পরীক্ষাগুলি এমন কোনও মান প্রদান করে যা খুব কাছের নয় not . "সুতরাং, উদাহরণস্বরূপ, আপনি যখন উচ্চতর বৈকল্পিকতার সাথে পরীক্ষা শুরু করেন। আপনার পূর্বরূপকে প্রমাণিত করে এমন ডেটা পাওয়ার পরে, পূর্বের গড়টি একই ছিল, তবে ভিন্নতাটি আরও সংকীর্ণ হয়ে পড়ে Our আমাদের আত্মবিশ্বাস আগের চেয়ে পরীক্ষা চলমান পরে অনেক বেশী। $\theta=0.5$ $\theta=0.5$

সুতরাং আমরা কীভাবে গণনা করব?

আমরা পিডিএফ দিয়ে শুরু করি এবং আমরা পিডিএফ দিয়ে শেষ করি। যখন আপনাকে কোনও বিন্দু অনুমানের প্রতিবেদন করার দরকার হয়, আপনি আপনার উত্তরোত্তর বিতরণের গড়, মধ্যম বা মোডের মতো পরিসংখ্যান গণনা করতে পারেন (আপনার ক্ষতির ফাংশনের উপর নির্ভর করে, যা আমি এখনই পাব না। আসুন আমরা কেবল গড় দিয়ে থাকি)। আপনার পিডিএফ-এর জন্য যদি কোনও বদ্ধ ফর্ম সমাধান থাকে তবে এই মানগুলি নির্ধারণ করা সম্ভবত তুচ্ছ। যদি উত্তরটি জটিল হয়, তবে আপনি আপনার উত্তরের থেকে নমুনা তৈরি করতে MCMC এর মতো পদ্ধতি ব্যবহার করতে পারেন এবং যে নমুনাটি আপনি আঁকেন সেগুলি থেকে পরিসংখ্যান বের করতে পারেন।

উদাহরণস্বরূপ যেখানে আপনার একটি বিটা আগে এবং দ্বিপদী সম্ভাবনা রয়েছে, উত্তরগুলির গণনা খুব পরিষ্কার গণনায় হ্রাস পায়। প্রদত্ত:

$\theta \sim Beta(\alpha, \beta)$
$X|\theta \sim Binomial(\theta)$

তারপরে উত্তরটি হ্রাস পায়:

$\theta|X \sim Beta(\alpha + \sum_{i=1}^n x_i,\, \beta + n - \sum_{i=1}^n x_i)$

আপনার বিটা এবং দ্বিপদী সম্ভাবনা থাকা এবং ডিজেই দ্বারা প্রদত্ত গণনাগুলিতে কেন স্পষ্ট হওয়া উচিত তার কারণ এটি কখনই ঘটবে । যখন কোনও পূর্বনির্ধারিত সম্ভাবনার মডেল সর্বদা পূর্বের মতো একই ধরণের বিতরণযুক্ত একটি পোস্ট দেয়, পূর্ব এবং সম্ভাবনার জন্য ব্যবহৃত বিতরণের প্রকারের মধ্যকার সম্পর্ককে কনজুগেট বলে । আছে ডিস্ট্রিবিউশন অনেক জোড়া অনুবন্ধী সম্পর্ক আছে, এবং conjugacy খুব ঘন ঘন প্রক্রিয়া সহজ হিসাব Bayesians দ্বারা leveraged হয়। একটি বিশেষ সম্ভাবনা দেওয়া, আপনি একটি সম্মিলন পূর্ববর্তী নির্বাচন করে আপনার জীবনকে অনেক সহজ করে তুলতে পারেন (যদি এটি উপস্থিত থাকে এবং আপনি নিজের পছন্দকে আগে পছন্দ করেন)।

আমি বিশ্বাস করি বিটা (1,1) এমন একটি পিডিএফকে বোঝায় যেখানে গড় 1 এবং স্টাডেভ 1?

সাধারণ বিতরণের সাধারণ প্যারামিটারাইজেশনে, দুটি প্যারামিটারগুলি বিতরণের গড় এবং মানক বিচ্যুতিকে বোঝায়। তবে ঠিক এটিই আমরা সাধারণ বন্টনকে পরামিতি করি। অন্যান্য সম্ভাব্যতা বিতরণগুলি খুব আলাদাভাবে পরামিতি করা হয়।

$Beta(\alpha, \beta)$ $\alpha$ $\beta$

\begin{aligned} X & \sim B e t a (α, β) \\ E [X] & = \frac{α}{α + β} \\ var [X] & = \frac{α β}{(α + β)^{2} (α + β + 1)} \end{aligned}

$\begin{equation} \begin{split} X &\sim Beta(\alpha, \beta) \\ \operatorname{E}[X] &= \frac{\alpha}{\alpha + \beta} \\ \operatorname{var}[X] &= \frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)} \end{split} \end{equation}$

আপনি স্পষ্ট দেখতে পাচ্ছেন, গড় এবং বৈকল্পিকতা এই বিতরণটির পরামিতিগুলির অংশ নয়, তবে তাদের বন্ধ ফর্ম সমাধান রয়েছে যা ইনপুট পরামিতিগুলির সহজ ফাংশন functions

$Beta(1,1)$ $Uniform(0,1)$

— ডেভিড মার্কস
সূত্র

আপনার উত্তরটি আমাকে যে মূল জিনিসটি দিয়েছিল তা হ'ল উপলব্ধিটি হ'ল যে যেখানে আমি স্তব্ধ হয়ে যাচ্ছি সেখানে একটি মান খুঁজে পাওয়া। একবার আমি ক্রুশকে পাঠ্য বিতরণের শর্তে ভাবতে শুরু করি এবং সমস্ত কিছু আরও বোধগম্য হতে শুরু করে। ধন্যবাদ!

— জাস্টিন বোজনিয়ায়ার

$p(\theta)=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}$ $(\alpha, \beta)=(1,1)$

দ্বিপদী সম্ভাবনার (বিইনারি ফলাফলগুলির সাথে পরীক্ষার নির্দিষ্ট সংখ্যা এবং সাফল্য / ব্যর্থতার স্থির সম্ভাবনা) বিটা পূর্বে বিভাজনের মধ্যে কনজুগেসির সম্পত্তি রয়েছে, যা উত্তরোত্তর (পূর্বের এবং সম্ভাবনার পণ্য) বন্ধ আকারে লেখার অনুমতি দেয়:

\begin{aligned} p (θ | y) & = \frac{p (y | θ) p (θ)}{p (y)} \\ \propto \frac{Γ (α) Γ (β)}{Γ (α + β)} θ^{α - 1} (1 - θ)^{β - 1} * (\binom{n}{y}) θ^{y} (1 - θ)^{n - y} \\ \propto θ^{α - 1} (1 - θ)^{β - 1} * θ^{y} (1 - θ)^{n - y} \\ \propto θ^{α + y - 1} (1 - θ)^{β + n - y - 1} \\ = \frac{Γ (α + y - 1) Γ (β + n - y - 1)}{Γ (α + β + n - 1)} θ^{α + y - 1} (1 - θ)^{β + n - y - 1} \end{aligned}

$\begin{equation} \begin{split} p(\theta|y) &= \frac{p(y|\theta)p(\theta)}{p(y)} \\ ~\\ ~\\ &\propto\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}*\binom{n}{y}\theta^y(1-\theta)^{n-y} \\ ~\\ ~\\ &\propto\theta^{\alpha-1}(1-\theta)^{\beta-1}*\theta^y(1-\theta)^{n-y} \\ ~\\ &\propto\theta^{\alpha+y-1}(1-\theta)^{\beta+n-y-1} \\ ~\\ &=\frac{\Gamma(\alpha+y-1)\Gamma(\beta+n-y-1)}{\Gamma(\alpha+\beta+n-1)}\theta^{\alpha+y-1}(1-\theta)^{\beta+n-y-1} \end{split} \end{equation}$

$\theta$

এই বদ্ধ-ফর্ম এক্সপ্রেশন সুবিধাজনক, কিন্তু কোনও উপায়ে প্রয়োজন হয় না। গুণমানের সম্ভাবনা ঘনত্বগুলি অন্যান্য গাণিতিক অভিব্যক্তিগুলিকে গুণ করার মতোই করা যেতে পারে; অসুবিধাগুলি উপস্থিত হওয়ায় অনেকগুলি ঘনত্বের পণ্যগুলি সহজেই বিটা পূর্ব / দ্বিপদী সম্ভাবনার মতো পুনরায় লিখিত হয় না। ভাগ্যক্রমে, কম্পিউটারগুলি এই শিথিল জিনিসটি বেছে নেয়।

— সাইকোরাক্স মনিকাকে রিইনস্টেট বলে
সূত্র

যদি আপনি একটি মৃদু পদ্ধতির সন্ধান করেন তবে আমি ক্রুশকের বইটি অত্যন্ত সুপারিশ করতে পারি যা মূল ধারণাগুলি ব্যাখ্যা করতে আর ব্যবহার করে। এটি বায়সিয়ান পরিসংখ্যান শেখার জন্য একটি খুব ব্যবহারিক এবং হ্যান্ড-অন পন্থা এবং তার ওয়েবসাইটে আপনি ব্যবহৃত সমস্ত কোড খুঁজে পেতে পারেন।

কেউ আমার কাছে ক্যাম.ড্যাভিডসন.পাইলনের লেখাটিও সুপারিশ করেছিলেন, এটি এখনও দেখুন না তবে এটি এখানে পাওয়া যাবে ।

— horseoftheyear
সূত্র

ধন্যবাদ! আমি প্রকৃতপক্ষে ক্রুশকে বইটি ইতিমধ্যে পেয়েছি এবং এটি পর্যালোচনা করতে ফিরে গিয়েছিলাম এবং বুঝতে পেরেছি এটি ঠিক আমার এখনই দরকার। পয়েন্টারের জন্য ধন্যবাদ!

— জাস্টিন বোজনিয়ার

@ জাস্টিনজোনিয়ার আমিও থিওরি অফ স্ট্যাটিস্টিক্সের (মেজাজ) পরিচয় দেওয়ার জন্য সুপারিশ করি । এটি তুলনামূলকভাবে উচ্চ-স্তরের কঠোরতা সরবরাহ করে তবে কেবল ধরে নেওয়া হয় যে আপনি খুব বেসিক ক্যালকুলাস জানেন।

— স্টিভ পি।