কীভাবে অনুমান করবেন, যখন কেবল সংক্ষিপ্তসার পরিসংখ্যান পাওয়া যায়?


17

এটি একাংশে নিম্নলিখিত প্রশ্ন এবং এটি অনুসরণ করে আলোচনার দ্বারা অনুপ্রাণিত ।

ধরুন আইডির নমুনা পর্যবেক্ষণ করা হয়েছে, XiF(x,θ) । লক্ষ্যটি অনুমান করা । তবে আসল নমুনা পাওয়া যায় না। এর পরিবর্তে আমাদের কাছে যা আছে তা নমুনার কয়েকটি পরিসংখ্যান । ধরা যাক স্থির হয়েছে। কীভাবে আমরা এস্টিমেট করেন ? এক্ষেত্রে সর্বাধিক সম্ভাবনা অনুমানকারী কী হবে?টি 1 , , টি কে কে θθT1,...,Tkkθ


1
তাহলে Ti=f(Xi) একটি পরিচিত ফাংশন জন্য f তারপর আপনি বিতরণের নিচে লিখতে পারেন Ti এবং সর্বোচ্চ সম্ভাবনা মূল্নির্ধারক স্বাভাবিক ভাবেই উদ্ভুত। তবে আপনি কি সুনির্দিষ্ট করেননি যে Ti কী?
স্টাফেন লরেন্ট

3
আমি যদি আগ্রহী পরিচিত । আমি যখন বলেছিলাম যে আমি টি নমুনার পরিসংখ্যান This Ti=f(X1,...,Xn)fTi
এমপিটিকাস

তাহলে এবং T j এর মধ্যে পার্থক্য কী ? TiTj
স্টাফেন লরেন্ট

2
দুঃখিত, এটি একটি না, আমি । আমাদের বেশ কয়েকটি ফাংশন রয়েছে f i , যা সম্পূর্ণ নমুনা হিসাবে যুক্তি হিসাবে গ্রহণ করে। fiffi
এমপিটিকাস

এটিই কি সর্বাধিক এনট্রপি ডিজাইন করা হয়নি?
সম্ভাব্যতা ব্লগ

উত্তর:


14

এই ক্ষেত্রে, আপনি নিম্নলিখিত অনুমান / বিধিনিষেধের মাধ্যমে সম্ভাব্যতার (এবং ফলত এমএলই এর ) একটি এবিসি অনুমান বিবেচনা করতে পারেন :

ধৃষ্টতা. মূল নমুনা আকার জানা যায়।n

এটি একটি বুনো অনুমান নয় যে ঘনত্বের অনুমানকারীগুলির মানের, সংশ্লেষণের ক্ষেত্রে, নমুনার আকারের উপর নির্ভর করে, সুতরাং কেউ আসল নমুনার আকার না জেনে নির্বিচারে ভাল অনুমানকারী অর্জন করতে পারে না।

ধারণা অবর বন্টন থেকে একটি নমুনা উৎপন্ন হয় এবং অর্ডার MLE একটি সন্নিকর্ষ উত্পাদন করার জন্য , আপনাকে অবশ্যই হিসাবে একটি গুরুত্ব কৌশল স্যাম্পলিং ব্যবহার করতে পারেন [1] বা একটি অভিন্ন পূর্বে বিবেচনা করতে θ উপযুক্ত সমর্থন সঙ্গে [2] হিসাবে হিসাবে সেট করুন ।θθ

আমি [2] এ পদ্ধতিটি বর্ণনা করতে যাচ্ছি। সবার আগে, আমি এবিসি স্যাম্পেলারটি বর্ণনা করি।

এবিসি স্যাম্পলার

যাক মডেল যে নমুনা যেখানে উত্পন্ন হতে θ Θ একটি প্যারামিটার (আনুমানিক করা), টি একটি পরিসংখ্যাত (নমুনা একটি ফাংশন) হতে হবে এবং টি 0 পর্যবেক্ষিত পরিসংখ্যাত হতে এবিসি অপভাষা মধ্যে এই একটি বলা হয় সারসংক্ষেপ পরিসংখ্যাত , ρ একটি মেট্রিক হতে π ( θ ) উপর একটি পূর্বে বন্টন θ এবং ε > 0 একটি সহনশীলতা। তারপরে, এবিসি-রিজেকশন স্যাম্পলারটি নীচের হিসাবে প্রয়োগ করা যেতে পারে।f(|θ)θΘTT0ρπ(θ)θϵ>0

  1. নমুনা থেকে π ( )θπ()
  2. একটি নমুনা তৈরি করুন আকারের এন মডেল থেকে ( | θ * )xnf(|θ)
  3. গণনা T=T(x)
  4. তাহলে গ্রহণ θ * এর অবর থেকে একটি সিমুলেশন যেমন θρ(T,T0)<ϵθθ

এই অ্যালগরিদম প্রদত্ত টি ( এক্স ) = টি 0 এর উত্তরোত্তর বিতরণ থেকে একটি আনুমানিক নমুনা উত্পন্ন করে । অতএব, পরিসংখ্যান টি যথেষ্ট হলেও অন্যান্য পরিসংখ্যান ব্যবহার করা যায় তখন সবচেয়ে ভাল পরিস্থিতি । এর আরও বিশদ বিবরণের জন্য এই কাগজটি দেখুনθT(x)=T0T

এখন, সাধারণ কাঠামোয়, যদি কেউ তার সমর্থনে এমএলই থাকে এমন একটি ইউনিফর্ম আগে ব্যবহার করে, তবে সর্বাধিক একটি পোস্টেরিয়েরি (এমএপি) সর্বাধিক সম্ভাবনা অনুমানের (এমএলই) সাথে মিলিত হয়। অতএব, আপনি যদি এবিসি স্যাম্পলারের আগে যথাযথ ইউনিফর্ম বিবেচনা করেন, তবে আপনি কোনও উত্তরোত্তর বিতরণের একটি আনুমানিক নমুনা তৈরি করতে পারেন যার এমএপি এমএলইয়ের সাথে মিলে যায়। বাকি পদক্ষেপটি এই মোডটি অনুমান করে consists এই সমস্যাটি সিভিতে আলোচনা করা হয়েছে, উদাহরণস্বরূপ "মাল্টিভারিয়েট মোডের কম্পিউটেশনাল দক্ষ অনুমান" তে

একটি খেলনা উদাহরণ

যাক A থেকে একটি নমুনা হতে এন ( μ , 1 ) এবং যে অনুমান এই নমুনা থেকে মাত্র তথ্য পাওয়া যায় ˉ এক্স = 1(x1,...,xn)N(μ,1)। যাকρমধ্যে ইউক্লিডিয় মেট্রিক হতেআরএবংε=0.001। নিম্নলিখিত আর কোড শো পদ্ধতি সঙ্গে কৃত্রিম নমুনা ব্যবহার উপরে বর্ণিত ব্যবহার করে একটি আনুমানিক MLE প্রাপ্ত কিভাবেএন=100এবংμ=0, আকারের অবর বন্টন একটি নমুনা1000, একটি অভিন্ন পূর্ববর্তীμউপর(-0.3,0.3), এবং উত্তরোত্তর নমুনার (এমএপি = এমএলই) মোডের অনুমানের জন্য একটি কার্নেল ঘনত্বের অনুমানক।x¯=1nj=1nxjρRϵ=0.001n=100μ=01000μ(0.3,0.3)

rm(list=ls())

# Simulated data
set.seed(1)
x = rnorm(100)

# Observed statistic
T0=mean(x)

# ABC Sampler using a uniform prior 

N=1000
eps = 0.001
ABCsamp = rep(0,N)
i=1

while(i<N+1){
u = runif(1,-0.3,0.3)
t.samp = rnorm(100,u,1)
Ts = mean(t.samp)
if(abs(Ts-T0)<eps){
ABCsamp[i]=u
i=i+1
print(i)
}
}

# Approximation of the MLE
kd = density(ABCsamp)
kd$x[which(kd$y==max(kd$y))]

যেমন আপনি দেখতে পাচ্ছেন, একটি ছোট সহনশীলতা ব্যবহার করে আমরা এমএলইয়ের খুব ভাল আনুমানিকতা পাই (যা এই তুচ্ছ উদাহরণে পরিসংখ্যান থেকে যথেষ্ট হিসাবে দেওয়া যায় তা থেকে গণনা করা যায়)। এটি লক্ষ করা গুরুত্বপূর্ণ যে সংক্ষিপ্তসার পরিসংখ্যানগুলির পছন্দটি অত্যন্ত গুরুত্বপূর্ণ। কোয়ান্টাইলগুলি সাধারণত সংক্ষিপ্ত পরিসংখ্যানগুলির জন্য একটি ভাল পছন্দ, তবে সমস্ত পছন্দগুলি একটি ভাল অনুমানের উত্পাদন করে না। এটি এমন ক্ষেত্রে হতে পারে যে সংক্ষিপ্ত পরিসংখ্যান খুব তথ্যবহুল নয় এবং তারপরে আনুমানিক মানটি খারাপ হতে পারে যা এবিসি সম্প্রদায়ের মধ্যে সুপরিচিত।

আপডেট: অনুরূপ পন্থা সম্প্রতি ফ্যান এট আল এ প্রকাশিত হয়েছিল (2012) । কাগজে আলোচনার জন্য এই এন্ট্রিটি দেখুন ।


2
(+1) এমএলই এবং এমএপির মধ্যে সম্পর্ক সম্পর্কে সঠিক ফলাফলটি জানাতে এবং শেষ অনুচ্ছেদে সতর্কতার জন্য (অন্যান্য কারণগুলির মধ্যে)। এই সতর্কবার্তাটিকে আরও সুস্পষ্ট করে তুলতে, যদি এই সংক্রান্ত (বা কোনও!) পদ্ধতিটি খারাপভাবে ব্যর্থ হবে যদি হাতের পরিসংখ্যানগুলি আনুষঙ্গিক বা প্রায় তাই হয়। উদাহরণস্বরূপ, কেউ আপনার খেলনার উদাহরণ এবং বিবেচনা করতে পারে । T=i(XiX¯)2
কার্ডিনাল

1
+1 @ প্রসারণকারী আমি সরলভাবে বলতে যাচ্ছিলাম হ্যাঁ আপনি যদি আপনার মডেলের জন্য উপলব্ধ হন তবে পর্যাপ্ত পরিসংখ্যান ব্যবহার করতে পারেন। তবে আপনার বিস্তৃত উত্তরগুলি এটিকে আবৃত করে বলে মনে হচ্ছে।
মাইকেল আর চেরনিক

একটি সহজ প্রশ্ন, আপনি উল্লেখ করেছেন যে ইউনিফর্ম পূর্বে অবশ্যই তার সমর্থনে এমএলই থাকতে পারে। তবে এমএলই একটি র্যান্ডম ভেরিয়েবল যা কেবল স্থিতিশীলভাবে আবদ্ধ থাকে, অর্থাত্ এটি ইতিবাচক সম্ভাবনার সাথে কোনও সীমাবদ্ধ সেটের বাইরেও হতে পারে।
এমপিটিকাস

1
@ এমপিক্টাস একটি নির্দিষ্ট নমুনার জন্য, আপনাকে আগে ইউনিফর্মের উপযুক্ত সমর্থনটি বেছে নিতে হবে। আপনি যদি নমুনা পরিবর্তন করেন তবে এটি পরিবর্তন হতে পারে। এটি লক্ষ করা গুরুত্বপূর্ণ যে এটি কোনও বায়েশিয়ান প্রক্রিয়া নয়, আমরা কেবল এটি একটি সাংখ্যিক পদ্ধতি হিসাবে ব্যবহার করছি, সুতরাং পূর্বের পছন্দটি নিয়ে খেলতে কোনও সমস্যা নেই। পূর্বের সমর্থন যত কম হবে তত ভাল। এটি এবিসি স্যাম্পলারের গতি বাড়িয়ে তুলবে কিন্তু যখন আপনার তথ্য এই অর্থে অস্পষ্ট হবে যে এমএলই কোথায় রয়েছে সে সম্পর্কে আপনার কোনও নির্ভরযোগ্য ধারণা নেই, তবে আপনার আরও বড় সহায়তার প্রয়োজন হতে পারে (এবং মূল্যটি প্রদান করবেন)।

(1000000,1000000)(0.1,0.15)

5

এগুলি সমস্তগুলির যৌথ বন্টন কিনা তা নির্ভর করে টিআমি's is known. If it is, e.g.,

(T1,,Tk)g(t1,,tk|θ,n)
then you can conduct maximum likelihood estimation based on this joint distribution. Note that, unless (T1,,Tk) is sufficient, this will almost always be a different maximum likelihood than when using the raw data (X1,,Xn). It will necessarily be less efficient, with a larger asymptotic variance.

If the above joint distribution with density g is not available, the solution proposed by Procrastinator is quite appropriate.


1

The (frequentist) maximum likelihood estimator is as follows:

For F in the exponential family, and if your statistics are sufficient your likelihood to be maximised can always be written in the form:

l(θ|T)=exp(ψ(θ)+T,ϕ(θ)),
where , is the scalar product, T is the vector of suff. stats. and ψ() and ϕ() are continuous twice-differentiable.

The way you actually maximize the likelihood depends mostly on the possiblity to write the likelihood analytically in a tractable way. If this is possible you will be able to consider general optimisation algorithms (newton-raphson, simplex...). If you do not have a tractable likelihood, you may find it easier to compute a conditional expection as in the EM algorithm, which will also yield maximum likelihood estimates under rather affordable hypotheses.

Best


For problems I am interested in, analytical tractability is not possible.
mpiktas

The reason for non-tractability then conditions the optimization scheme. However, extensions of the EM usually allow to get arround most of these reasons. I don"t think I can be more specific in my suggestions without seeing the model itself
julien stirnemann
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.