বায়েশিয়ান প্রিয়াররা কি বড় নমুনা আকারের সাথে অপ্রাসঙ্গিক হয়ে যায়?


26

বয়েশিয়ান অনুমান সম্পাদন করার সময়, আমরা পরামিতিগুলির সাথে থাকা আমাদের প্রিয়ারদের সাথে একযোগে আমাদের সম্ভাবনা ফাংশনটি সর্বাধিক করে পরিচালনা করি। লগ-সম্ভাবনা আরও সুবিধাজনক হওয়ার কারণে, আমরা কার্যকরভাবে একটি এমসিসিএম ব্যবহার করে max সর্বাধিক করে থাকি বা অন্যথায় যা পোস্টারিয়র ডিস্ট্রিবিউশনগুলি তৈরি করে (পিডিএফ ব্যবহার করে প্রতিটি প্যারামিটারের পূর্বের এবং প্রতিটি ডেটার পয়েন্টের সম্ভাবনা)।ln(prior)+ln(likelihood)

আমাদের যদি প্রচুর ডেটা থাকে, তবে সম্ভাবনাটি সাধারণ গণিত দ্বারা পূর্বের যে কোনও তথ্য সরবরাহ করে overwhel শেষ পর্যন্ত, এটি ভাল এবং ডিজাইনের দ্বারা; আমরা জানি যে উত্তরোত্তর আরও ডেটা সহ কেবলমাত্র সম্ভাবনাতে রূপান্তরিত করবে কারণ এটি অনুমিত হয়।

কনজুগেট প্রিয়ারদের দ্বারা সংজ্ঞায়িত সমস্যার জন্য, এটি ঠিক প্রমাণযোগ্য।

প্রাইয়াররা যখন কোনও প্রদত্ত সম্ভাবনা ফাংশন এবং কিছু নমুনার আকারের বিষয়টি বিবেচনা না করে তা স্থির করার কোনও উপায় আছে?


3
আপনার প্রথম বাক্যটি সঠিক নয়। বায়েশিয়ান অনুমান এবং এমসিসিএম অ্যালগরিদম সম্ভাবনা সর্বাধিক করে না।
niandra82

5
আপনি কি প্রান্তিক সম্ভাবনা, বেইস ফ্যাক্টর, পূর্ব / উত্তরোত্তর পূর্বাভাস বিতরণ, পূর্ববর্তী / উত্তরোত্তর ভবিষ্যদ্বাণীমূলক চেকের সাথে পরিচিত? আপনি বায়েশিয়ান দৃষ্টান্তের মডেলগুলির তুলনা করতে এই ধরণের জিনিস ব্যবহার করবেন। আমি মনে করি যে এই প্রশ্নটি বায়েস ফ্যাক্টর, কেবলমাত্র তাদের পূর্বের দ্বারা পৃথক হওয়া মডেলগুলির মধ্যে 1-এ রূপান্তরিত হবে না কেন নমুনা আকার অনন্তের দিকে চলে যায় to আপনি সম্ভাব্যতার দ্বারা বর্ণিত প্যারামিটার জায়গার মধ্যে ছাঁটাই হওয়া প্রিরিয়ারগুলিও আলাদা করে রাখতে চাইতে পারেন, কারণ এটি সম্ভাব্যতার সর্বোচ্চ সম্ভাবনার প্রাক্কলনে রূপান্তর করা থেকে লক্ষ্যটিকে অস্বীকার করতে পারে।
জাকারি ব্লুমেনফিল্ড

@ জাচারি ব্লুমেনফিল্ড: এটি সঠিক উত্তর হিসাবে যোগ্য হতে পারে!
শি'আন

সংশোধিত ফর্মটি কি "বেয়েসের নিয়মকে সর্বাধিকীকরণ" করছে? এছাড়াও, আমি যে মডেলগুলির সাথে কাজ করছি তা শারীরিকভাবে ভিত্তিক, সুতরাং কাটা পরামিতি স্পেসগুলি কাজের প্রয়োজন। (আমি এও সম্মত হই যে আপনার মন্তব্যগুলি সম্ভবত একটি উত্তর, আপনি কি তাদের @ জ্যাকারি ব্লুমেনফিল্ড থেকে বের করে দিতে পারবেন?)
পিক্সেল

উত্তর:


37

এটা যে সহজ নয়। আপনার ডেটাতে থাকা তথ্য পূর্বের তথ্যগুলিকে ছাপিয়ে যায় কেবলমাত্র আপনার নমুনার আকারই বড় নয়, তবে যখন আপনার ডেটা পূর্বের তথ্যগুলি ছাপিয়ে দেওয়ার জন্য পর্যাপ্ত তথ্য সরবরাহ করে। তথ্যবিরোধী প্রিরিয়াররা সহজেই ডেটা দ্বারা প্ররোচিত হয়, তবে দৃ strongly়ভাবে তথ্যযুক্তরা আরও প্রতিরোধী হতে পারে। চরম ক্ষেত্রে, অশুভ-সংজ্ঞায়িত প্রিরিয়ারদের সাথে আপনার ডেটা এটিকে কাটিয়ে উঠতে মোটেও সক্ষম হতে পারে না (যেমন কোনও কোনও অঞ্চলের শূন্য ঘনত্ব)।

মনে রাখবেন যে বয়েস উপপাদ্য দ্বারা আমরা আমাদের পরিসংখ্যানের মডেল, তথ্য-বহিরাগত, পূর্বের তথ্য এবং সম্ভাব্যতা ফাংশনে ডেটা দ্বারা জানানো তথ্যগুলিতে তথ্যের দুটি উত্স ব্যবহার করি :

posteriorprior×সম্ভাবনা

অপ্রয়োজনীয় পূর্ব (বা সর্বাধিক সম্ভাবনা) ব্যবহার করার সময়, আমরা আমাদের মডেলটিতে ন্যূনতম সম্ভাব্য পূর্বের তথ্য আনার চেষ্টা করি। তথ্যবহুল প্রিয়ারদের সাথে আমরা মডেলটিতে প্রচুর পরিমাণে তথ্য নিয়ে আসি। সুতরাং, ডেটা এবং পূর্ববর্তী উভয়ই আমাদের জানায় যে অনুমানিত পরামিতিগুলির মানগুলি আরও প্রশংসনীয় বা বিশ্বাসযোগ্য। তারা বিভিন্ন তথ্য আনতে পারে এবং এগুলির প্রত্যেকেই কিছু ক্ষেত্রে অপরটিকে শক্তিশালী করতে পারে।

আমি এটি খুব বেসিক বিটা-বাইনোমিয়াল মডেল দিয়ে বর্ণনা করব ( বিস্তারিত উদাহরণের জন্য এখানে দেখুন )। পূর্বে "অপ্রয়োজনীয়" সাথে , বেশ ছোট ছোট নমুনা এটিকে ছাপিয়ে যাওয়ার পক্ষে যথেষ্ট হতে পারে। নীচের প্লটগুলিতে আপনি বিভিন্ন নমুনা মাপের একই মডেলের প্রিয়ার্স (লাল বক্রাকার), সম্ভাবনা (নীল বক্ররেখা) এবং পোস্টেরিয়ারগুলি (ভায়োলেট বক্ররেখা) দেখতে পাবেন।

এখানে চিত্র বর্ণনা লিখুন

অন্যদিকে, আপনি সত্যিকারের মানের কাছাকাছি থাকা তথ্যের আগে তথ্যবহুল থাকতে পারেন, এটি খুব সহজেই হবে তবে ডেটা দ্বারা প্ররোচিত সাপ্তাহিক তথ্যবহুল হিসাবে এটি সহজে নয়।

এখানে চিত্র বর্ণনা লিখুন

তথ্যটি পূর্বের সাথে কেসটি একেবারেই আলাদা, যখন তথ্য যা বলে তার থেকে খুব বেশি দূরে থাকে (প্রথম উদাহরণ হিসাবে একই ডেটা ব্যবহার করে)। এই ক্ষেত্রে আপনার পূর্ববর্তী কাটিয়ে উঠতে আরও বৃহত্তর নমুনা প্রয়োজন।

এখানে চিত্র বর্ণনা লিখুন

সুতরাং এটি কেবলমাত্র নমুনার আকার সম্পর্কে নয়, আপনার ডেটা কী এবং আপনার পূর্বে কী তাও। লক্ষ্য করুন যে এটি একটি পছন্দসই আচরণ, কারণ তথ্যমূলক প্রিয়ারগুলি ব্যবহার করার সময় আমরা আমাদের মডেলের মধ্যে সম্ভাব্যভাবে ডেটা-অফ-ডেটা তথ্য অন্তর্ভুক্ত করতে চাই এবং যদি বড় নমুনাগুলি সর্বদা প্রিয়ারগুলিকে ফেলে দেয় তবে এটি অসম্ভব।

জটিল উত্তর-সম্ভাবনা-পূর্ব সম্পর্কের কারণে, উত্তরোত্তর বিতরণটি দেখার জন্য এবং কিছু উত্তরের ভবিষ্যদ্বাণীমূলক চেকগুলি করা সর্বদা ভাল (গেলম্যান, মেং এবং স্টার্ন, 1996; জেলম্যান এবং হিল, 2006; গেলম্যান এট আল, 2004)। অধিকন্তু, স্পিগেলহাল্টার (২০০৪) দ্বারা বর্ণিত হিসাবে, আপনি বিভিন্ন প্রবীণ ব্যবহার করতে পারেন, উদাহরণস্বরূপ "হতাশাবাদী" যা বড় প্রভাব সম্পর্কে সন্দেহ প্রকাশ করে, বা "উত্সাহী" যা অনুমান প্রভাব সম্পর্কে আশাবাদী। আপনার ডেটার সাথে বিভিন্ন প্রবীণরা কীভাবে আচরণ করে তার তুলনা অনানুষ্ঠানিকভাবে মূল্যায়ন করতে পারে যে পোস্টারিয়রটি পূর্বের দ্বারা কীভাবে প্রভাবিত হয়েছিল assess


স্পিগেলহাল্টার, ডিজে (2004) বায়সীয় ধারণাগুলি স্বাস্থ্য-যত্নের মূল্যায়নে অন্তর্ভুক্ত করা। পরিসংখ্যান বিজ্ঞান, 156-174।

গেলম্যান, এ।, কার্লিন, জেবি, স্টার্ন, এইচএস, এবং রুবিন, ডিবি (2004)। বায়েশিয়ান ডেটা বিশ্লেষণ। চ্যাপম্যান অ্যান্ড হল / সিআরসি।

গেলম্যান, এ। এবং হিল, জে। (2006) রিগ্রেশন এবং মাল্টিলেভেল / শ্রেণিবদ্ধ মডেলগুলি ব্যবহার করে ডেটা বিশ্লেষণ। ক্যামব্রিজ ইউনিভার্সিটি প্রেস.

গেলম্যান, এ।, মেং, এক্সএল, এবং স্টার্ন, এইচ। (1996)। মডেল ফিটনেসের উত্তরীয় ভবিষ্যদ্বাণীমূলক মূল্যায়ন বোধগম্য ত্রুটিগুলির মাধ্যমে। পরিসংখ্যান সিনিকা, 733-760।


2
চমৎকার অবদান, ধন্যবাদ টিম। আমি যুক্ত করতে চাই যে আপনি এখানে এত সুন্দরভাবে যে বিপরীতে অভিনয় করেছেন তা নিজেও এক মডেলের বিভিন্ন পরামিতির সাথে সম্পর্কিত একই মডেলের মধ্যে উপস্থিত হতে পারে । এমন কিছু পরামিতি থাকতে পারে যার সম্পর্কে ডেটা নগদ তথ্য সরবরাহ করে, সেক্ষেত্রে প্রবীণরা সনাক্তকরণের সীমাবদ্ধতা সরবরাহ করতে সমালোচনামূলকভাবে পরিবেশন করতে পারে ।
ডেভিড সি নরিস

গ্রাফের প্রথম 3x3 ম্যাট্রিক্সে, গ্রাফগুলি কি সঠিক? উত্তরোত্তর সম্পূর্ণভাবে সমতল এবং n = 25 সহ?
MichiganWater

1
@ মিশিগানওয়াটার প্রতিটি 9-প্লটের সংগ্রহগুলি y- অক্ষের জন্য একই স্কেল ব্যবহার করে যাতে বৃহত্তম মানগুলি পর্দার বাইরে না যায়। সুতরাং আপনার কাছে আরও ডেটা রয়েছে এমন ক্ষেত্রে তুলনামূলকভাবে এগুলি সমতল। আপনি যদি "জুম ইন" করেন তবে সেগুলি সমতল হবে না।
টিম

11

বয়েশিয়ান অনুমান সম্পাদন করার সময়, আমরা পরামিতিগুলির সাথে থাকা আমাদের প্রিয়ারদের সাথে একযোগে আমাদের সম্ভাবনা ফাংশনটি সর্বাধিক করে পরিচালনা করি।

এটি আসলে বেশিরভাগ অনুশীলনকারীই বায়েশিয়ান অনুগ্রহ হিসাবে বিবেচনা করেন না। এইভাবে প্যারামিটারগুলি অনুমান করা সম্ভব, তবে আমি এটিকে বায়েশিয়ান অনুমিতি বলব না।

বায়েশিয়ান অনুমান প্রতিযোগিতামূলক অনুমানের জন্য উত্তরীয় সম্ভাবনাগুলি (বা সম্ভাবনার অনুপাত) গণনা করতে পরবর্তী বিতরণগুলি ব্যবহার করে।

মন্টে কার্লো বা মার্কভ-চেইন মন্টি কার্লো (এমসিএমসি) কৌশল দ্বারা উত্তরোত্তর বিতরণগুলি অনুমিতভাবে অনুমান করা যায়।

এই পার্থক্যগুলি একদিকে রেখে, প্রশ্ন

বায়েশিয়ান প্রিয়াররা কি বড় নমুনা আকারের সাথে অপ্রাসঙ্গিক হয়ে যায়?

তবুও সমস্যার প্রসঙ্গ এবং আপনি কী যত্ন নেবেন তার উপর নির্ভর করে।

যদি আপনি যা ভাবনা করেন সেটিকে যদি ইতিমধ্যে খুব বড় নমুনা দেওয়া হয় তবে উত্তরটি সাধারণত হ্যাঁ, প্রিরিয়ররা অসম্পূর্ণভাবে অপ্রাসঙ্গিক *। তবে, আপনি যদি উদ্বিগ্ন হন তা হল মডেল নির্বাচন এবং বায়েশিয়ান হাইপোথিসিস পরীক্ষা, তবে উত্তরটি হ'ল না, প্রিরিয়ররা অনেকটাই গুরুত্বপূর্ণ, এবং নমুনা আকারের সাথে তাদের প্রভাব ক্ষয় হবে না।

* এখানে, আমি ধরে নিচ্ছি যে সম্ভাব্যতা দ্বারা বর্ণিত প্যারামিটার জায়গার বাইরে প্রিয়াররা কাটা / সেন্সর করা হয়নি, এবং গুরুত্বপূর্ণ অঞ্চলগুলিতে শূন্য-ঘনত্বের কাছাকাছি রূপান্তর সমস্যার কারণ হিসাবে তারা এতটা অসুস্থ-নির্দিষ্ট নয়। আমার যুক্তিটিও অ্যাসিম্পোটিক, যা নিয়মিত সমস্ত ক্যাভ্যাট নিয়ে আসে।

ভবিষ্যদ্বাণীমূলক ঘনত্ব

dN=(d1,d2,...,dN)dif(dNθ)θ

π0(θλ1)π0(θλ2)λ1λ2

πN(θdN,λj)f(dNθ)π0(θλj)forj=1,2

লেটিং θθNjπN(θdN,λj)θ^N=maxθ{f(dNθ)}θN1θN2θ^এনθε>0

limNPr(|θNjθ|ε)=0j{1,2}limNPr(|θ^Nθ|ε)=0

θNj=maxθ{πN(θdN,λj)}

f(d~dN,λj)=Θf(d~θ,λj,dN)πN(θλj,dN)dθf(d~dN,θNj)f(d~dN,θ)

মডেল নির্বাচন এবং হাইপোথিসিস পরীক্ষা

যদি কেউ বায়েসীয় মডেল নির্বাচন এবং অনুমানের পরীক্ষায় আগ্রহী হয় তবে তাদের সচেতন হওয়া উচিত যে পূর্বের প্রভাব asyptotically অদৃশ্য হয় না।

f(dNmodel)

KN=f(dNmodel1)f(dNmodel2)
Pr(modeljdN)=f(dNmodelj)Pr(modelj)l=1Lf(dNmodell)Pr(modell)

f(dNλj)=Θf(dNθ,λj)π0(θλj)dθ

f(dNλj)=n=0N1f(dn+1dn,λj)
f(dN+1dN,λj)f(dN+1dN,θ)f(dNλ1)f(dNθ)f(dNλ2)
f(dNλ1)f(dNλ2)p1
h(dNM)=Θh(dNθ,M)π0(θM)dθ
f(dNλ1)h(dNM)f(dNλ2)h(dNM)

5

মাথায় রাখার আরেকটি বিষয় হ'ল আপনার কাছে প্রচুর ডেটা থাকতে পারে তবে এখনও আপনার মডেলটিতে কিছু নির্দিষ্ট পরামিতি সম্পর্কে খুব কম তথ্য থাকতে পারে । এই ধরনের ক্ষেত্রে, এমনকি একটি হালকা তথ্যপূর্ণ পূর্বনির্মাণ অনুমান সম্পাদন করার সময় অত্যন্ত সহায়ক হতে পারে।

নির্বোধ উদাহরণ হিসাবে, ধরুন আপনি দুটি গ্রুপের মাধ্যমের তুলনা করছেন এবং আপনার 1 গ্রুপের 1,000,000 নমুনা রয়েছে এবং 2 গ্রুপের 10 টি নমুনা রয়েছে তারপরে স্পষ্টতই গ্রুপ 2 সম্পর্কে একটি তথ্যবহুল পূর্ববর্তী থাকা অনুমানের উন্নতি করতে পারে, যদিও আপনি দশ লক্ষেরও বেশি সংগ্রহ করেছেন নমুনা।

এবং উদাহরণটি তুচ্ছ হতে পারে, এটি কিছু খুব গুরুত্বপূর্ণ জড়িত নেতৃত্ব দিতে শুরু করে। যদি আমরা কিছু জটিল ঘটনাটি বুঝতে চাই, তবে স্মার্ট জিনিসটি হ'ল আমরা যে অংশগুলি বুঝতে পারি না সে সম্পর্কিত অনেকগুলি তথ্য সংগ্রহ করি এবং আমরা যে অংশগুলি বুঝতে পারি সেগুলি সম্পর্কে কম তথ্য সংগ্রহ করি। যদি আমরা এই জাতীয় উপায়ে প্রচুর ডেটা সংগ্রহ করি তবে আমাদের পূর্ববর্তী তথ্য ছড়িয়ে দেওয়া কারণ আমাদের কাছে প্রচুর ডেটা সত্যই খারাপ পছন্দ; আমরা আমাদের বিশ্লেষণটি পিছনে ফেলেছি কারণ আমরা ইতিমধ্যে জানি এমন জিনিসগুলির ডেটা সংগ্রহ করতে সময় নষ্ট করি নি!

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.