পর্যবেক্ষণ-স্তরের মহালানোবিস দূরত্ব বিতরণ


23

আমার যদি মাল্টিভারিয়েট স্বাভাবিক আইআইড নমুনা এবং ডি 2 আই ( বি , ) = ( এক্স আই - বি ) - 1 ( এক্স আই - বি ) সংজ্ঞায়িত হয় ) (ক মহলানবিশ দূরত্ব একটি নমুনা বিন্দু থেকে ভেক্টর কে [ছক] সাজানোর যা একটি ম্যাট্রিক্স ব্যবহার একটি তৌল জন্য)X1,,XnNp(μ,Σ)

di2(b,A)=(Xib)A1(Xib)
aA এর বিতরণ কী? ( নমুনাটির মহালানোবিসের দূরত্ব মানে ˉ এক্স নমুনা কোভারিয়েন্স ম্যাট্রিক্স এস ব্যবহার করে )?di2(X¯,S)X¯S

আমি একটি কাগজ এটা যে দাবি দিকে তাকিয়ে রইলাম , কিন্তু এই স্পষ্টত ভুল: χ 2 পি বন্টন হবে জন্য প্রাপ্ত হয়েছে 2 আমি ( μ , Σ ) (অজানা) জনসংখ্যা গড় ভেক্টর এবং সহভেদাংক ম্যাট্রিক্স ব্যবহার করে। যখন নমুনা অ্যানালগগুলি প্লাগ ইন করা হয়, তখন একজনের উচিত একটি হোটেলিং টি 2 বিতরণ, বা একটি স্কেলড এফ ( ) বিতরণ, বা এর মতো কিছু পাওয়া উচিত, তবে χ 2 পি নয় । আমি মিরহেড (2005) বা না-তে সঠিক ফলাফল খুঁজে পাইনিχp2χp2di2(μ,Σ)T 2F()χp2অ্যান্ডারসন (2003) , না মার্ডিয়া, কেন্ট এবং বিবিতে (1979, 2003) । স্পষ্টতই, এই ছেলেরা আউটলিয়ার ডায়াগনস্টিকস নিয়ে বিরক্ত করেনি, কারণ বহুভিত্তিক সাধারণ বিতরণ নিখুঁত এবং প্রতিবার যখন কোনও মাল্টিভারিয়েট ডেটা সংগ্রহ করে তখন সহজেই তা পাওয়া যায়: - /।

বিষয়গুলি আরও জটিল হতে পারে। হোটেলিং বিতরণের ফলাফল ভেক্টর অংশ এবং ম্যাট্রিক্স অংশের মধ্যে স্বাধীনতা ধরে নেওয়ার উপর ভিত্তি করে; এই জাতীয় স্বাধীনতা ˉ এক্স এবং এস এর জন্য ধারণ করে , তবে এটি আর এক্স আই এবং এস এর জন্য আর ধারণ করে না ।T 2X¯SXiS


এর সংজ্ঞা অনুসারে , আপনি কি এখনও এক্স i কে এলোমেলো পরিবর্তনশীল হিসাবে দেখেন বা এখন আপনি এটি একটি স্থির ভেক্টর হিসাবে আচরণ করছেন? সাবস্ক্রিপ্টটি অন্তর্ভুক্ত করার পরেটির পরামর্শ দেয় তবে এটি কিছুটা অদ্ভুত বলে মনে হচ্ছে। di2Xi
whuber

1
কেবল সামান্য অফ-দ্য কাফ সাইড নোট, তবে লক্ষ্য করুন যে হল μ এবং i d 2 i ( ˉ X , S ) এর সাথে সম্মতিযুক্ত একটি স্থির ধ্রুবকের সমান (হওয়া উচিত এন - পি , বা অনুরূপ, আমি মনে করি) প্রায় অবশ্যই। XiX¯μidi2(X¯,S)np
কার্ডিনাল

1
@ হুশিয়ার - সম্ভবত জোর দেওয়ার জন্য যে এটি নমুনা থেকে একটি পর্যবেক্ষণ ব্যবহার করে গণনা করা হয়েছে, কোনও নতুন পর্যবেক্ষণ নয়?
jboman

1
@ হুবুহু, মোটামুটি জোবোম্যান কী বলেছে তার পংক্তির পাশাপাশি - এটি পর্যবেক্ষণ-স্তরের পরিসংখ্যান (উদাহরণ হিসাবে নমুনা স্তরের পরিসংখ্যানের বিপরীতে)।
স্টাসকে

1
di2(X¯,S)n/(n1)2di2(X¯,S)B(p/2,(np1)/2)di2(μ,S). The distributions of the di2's are not independent.

উত্তর:


18

Check out Gaussian Mixture Modeling by Exploiting the Mahalanobis Distance (alternative link). See page no 13, Second column. Authors also given some proof also for deriving the distribution. The distribution is scaled beta. Please let me know if this is not working for you. Otherwise I could check any hint in the S.S. Wilks book tomorrow.


4
The answer given in the paper is: n(n1)2di2(X¯,S)B(p2,np12). Thanks!
StasK

9

There are 3 relevant distributions. As noted, if the true population parameters are used then the distribution is chi-squared with df=p. This is also the asymptotic distribution with estimated parameters and large sample size.

Another answer gives the correct distribution for the most common situation, with estimated parameters when the observation itself is part of the estimation set:

n(d2)(n1)2Beta(p2,(np1)2).
However, if the observation xi is independent of the parameter estimates, then the distribution is proportional to a Fisher's F-ratio distribution:
(nd2(np)(p(n1)(n+1))F(p,np)

Welcome to the site, @JoeSullivan. I took the liberty of using LATEX to make your equations easier to read. Please make sure they still say what you want.
gung - Reinstate Monica

can you give a reference for the F formula?
eyaler

1
one related reference, section 3 in Hardin, Johanna, and David M. Rocke. 2005. “The Distribution of Robust Distances.” Journal of Computational and Graphical Statistics 14 (4): 928–46. doi:10.1198/106186005X77685.
Josef
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.