একাধিক মাত্রায় অভিন্নতা কীভাবে পরীক্ষা করবেন?


13

অভিন্নতার জন্য পরীক্ষা করা কিছু সাধারণ বিষয়, তবে আমি বিস্মিত হই যে পয়েন্টগুলির বহুমাত্রিক মেঘের জন্য এটি করার পদ্ধতিগুলি কী।


আকর্ষণীয় প্রশ্ন। আপনি কি স্বাধীন এন্ট্রি বিবেচনা করছেন?

1
@ প্রিলিনেটর আমি এই মুহূর্তে এই বিষয়টি নিয়ে ভাবছি। স্বাধীনতা ছাড়া অভিন্নতা পাওয়া সম্ভব কিনা তা জানার চেষ্টা করা হচ্ছে। কোন ইঙ্গিত স্বাগত।
gui11aume

4
হ্যাঁ, স্বাধীনতা ছাড়া অভিন্নতা পাওয়া সম্ভব। যেমন, ইউনিট থেকে নমুনা এর একটি অভিন্ন গ্রিড উৎপাদিত দ্বারা -cube -cubes আচ্ছাদন এবং এর একটি অভিন্ন বন্টন অনুযায়ী উৎপত্তি সমতা ঘনক্ষেত্র। ইউনিট কিউবের মধ্যে পড়া এপসিলন-কিউবগুলির কেন্দ্রগুলি পুনরুদ্ধার করুন। আপনি যদি চান, এলোমেলোভাবে তাদের কাছ থেকে সাবমেল। সমস্ত পয়েন্টের নির্বাচিত হওয়ার সমান সম্ভাবনা রয়েছে: বিতরণটি অভিন্ন। ফলাফলটিও অভিন্ন দেখায়, তবে যেহেতু দুটি বিন্দু একে অপরের দূরত্বের মধ্যে থাকতে পারে না স্পষ্টতই পয়েন্টগুলি স্বাধীন নয়। ϵ R n ϵ ϵ ϵ ϵnϵRnϵϵϵ
হোবার

উত্তর:


14

স্ট্যান্ডার্ড পদ্ধতিতে রিপলির কে ফাংশন বা এর থেকে প্রাপ্ত কিছু যেমন এল ফাংশন ব্যবহার করে। এটি এমন একটি প্লট যা সর্বোচ্চ দূরত্বের কার্য (apart ) হিসাবে ফাংশন হিসাবে পয়েন্টগুলির প্রতিবেশীদের গড় সংখ্যার সংক্ষিপ্তসার করে । মাত্রায় অভিন্ন বিতরণের জন্য , সেই গড়ের মতো আচরণ করা উচিত : এবং এটি সর্বদা ছোট । এটি ক্লাস্টারিং, স্থানিক অ-স্বাধীনতার অন্যান্য রূপ এবং প্রান্তের প্রভাবগুলির কারণে এ জাতীয় আচরণ থেকে বিদায় নেয় (যেহেতু পয়েন্টগুলির দ্বারা নমুনাযুক্ত অঞ্চলটি নির্দিষ্ট করা গুরুত্বপূর্ণ)। এই জটিলতার কারণে - যা হিসাবে আরও খারাপ হয়n ρ n ρ nρnρnρnবৃদ্ধি পায় - বেশিরভাগ অ্যাপ্লিকেশনগুলিতে সিমুলেশনের মাধ্যমে নাল কে ফাংশনটির জন্য একটি আত্মবিশ্বাস ব্যান্ড তৈরি করা হয় এবং পর্যবেক্ষণ করা K ক্রিয়াকলাপটি ভ্রমণকে সনাক্ত করার জন্য অতিরিক্তভাবে চিহ্নিত করা হয়। কিছু চিন্তাভাবনা এবং অভিজ্ঞতার সাথে, ভ্রমণগুলি ক্লাস্টারের প্রবণতার সাথে নির্দিষ্ট দূরত্বে বা না বুঝে বোঝানো যেতে পারে।

চিত্র 1

ডিকসন (2001), আইবিডের কে ফাংশন এবং এর সম্পর্কিত এল-ফাংশনের উদাহরণ। এল ফাংশনটি এমনভাবে তৈরি করা হয়েছে যাতে ইউনিফর্ম বিতরণের জন্য শূন্যের অনুভূমিক রেখা: একটি ভাল ভিজ্যুয়াল রেফারেন্স। ড্যাশড লাইনগুলি এই নির্দিষ্ট অধ্যয়নের জন্য আত্মবিশ্বাস ব্যান্ড, সিমুলেশন মাধ্যমে গণনা করা হয়। কঠিন ধূসর ট্রেস হ'ল ডেটার জন্য এল ফাংশন। দূরত্বের ०-২০ মিটারে ইতিবাচক ভ্রমণ এই দূরত্বগুলিতে কিছুটা ক্লাস্টারিং ইঙ্গিত করে।L(ρ)ρ

আমি /stats//a/7984 এ সম্পর্কিত প্রশ্নের জবাবে একটি কাজের উদাহরণ পোস্ট করেছি , in এ এমবেড থাকা দ্বি-মাত্রিক বহুগুণে ইউনিফর্ম বিতরণের জন্য কে-ফাংশন থেকে উত্পন্ন প্লট plot অনুকরণ দ্বারা অনুমান করা হয়।R3

ইন R, স্প্যাটস্ট্যাট ফাংশন করে kestএবং যথাক্রমে এবংk3est জন্য কে-ফাংশন গণনা করে । 3 টিরও বেশি মাত্রায় আপনি সম্ভবত নিজেরাই আছেন তবে অ্যালগরিদমগুলি হুবহু একই রকম হবে। আপনি দূরবর্তী ম্যাট্রিক্স থেকে গণনা হিসাবে (মধ্যম দক্ষতার সাথে) দ্বারা গননা করতে পারেন ।এন = 3n=2n=3stats::dist


আপনি যে উত্তরটি যুক্ত করেছেন তার উত্তর দিয়ে ব্রাউনিয়ান সেতু এবং যে প্লটগুলি দেখিয়েছেন তার মধ্যে আপনি কি সম্পর্কটি খুঁজে পেয়েছেন?
gui11aume

13

দেখা যাচ্ছে যে প্রশ্নটি আমার চেয়ে বেশি কঠিন। তবুও, আমি আমার বাড়ির কাজটি করেছি এবং চারপাশটি দেখার পরে, আমি রিপলির কার্যকারিতা ছাড়াও দুটি মাত্রায় বেশ কয়েকটি মাত্রায় অভিন্নতা পরীক্ষা করার জন্য খুঁজে পেয়েছি।

আমি একটি আর প্যাকেজ তৈরি করেছি যা unfউভয় পরীক্ষার প্রয়োগ করে। আপনি থেকে এটা বিনামূল্যে ডাউনলোড করতে পারেন GitHubhttps://github.com/gui11aume/unf । এর একটি বড় অংশ সিতে রয়েছে তাই আপনার এটি আপনার মেশিনে সংকলন করতে হবে R CMD INSTALL unf। যে নিবন্ধগুলির উপর বাস্তবায়ন ভিত্তিক রয়েছে সেগুলি প্যাকেজে পিডিএফ ফর্ম্যাটে রয়েছে।

প্রথম পদ্ধতিটি @ প্রলিনেটিনেটর দ্বারা বর্ণিত একটি রেফারেন্স থেকে এসেছে ( মাল্টিভারিয়েট অভিন্নতা এবং এর অ্যাপ্লিকেশনগুলি, লিয়াং এট আল।, 2000 ) পরীক্ষা করে এবং কেবলমাত্র ইউনিট হাইপারক्यूबে অভিন্নতা পরীক্ষা করার অনুমতি দেয়। ধারণাটি হ'ল ভিন্নতা সংক্রান্ত পরিসংখ্যানগুলি যা কেন্দ্রীয় সীমার উপপাদ্য দ্বারা তাত্পর্যপূর্ণভাবে গাউসিয়ান। এটি একটি পরিসংখ্যান গণনা করতে দেয় যা পরীক্ষার ভিত্তি।χ2

library(unf)
set.seed(123)
# Put 20 points uniformally in the 5D hypercube.
x <- matrix(runif(100), ncol=20)
liang(x) # Outputs the p-value of the test.
[1] 0.9470392

দ্বিতীয় পদ্ধতিটি কম প্রচলিত এবং সর্বনিম্ন বিস্তৃত গাছ ব্যবহার করে । প্রাথমিক কাজটি ফ্রিডম্যান অ্যান্ড রাফস্কি ১৯ 1979৯ সালে (প্যাকেজের রেফারেন্স) সম্পাদন করেছিলেন যা দুটি বিতরণকারী নমুনা একই বিতরণ থেকে আসে কিনা তা পরীক্ষা করে দেখার জন্য। নীচের চিত্রটি নীতির চিত্র তুলে ধরেছে।

একরূপতা

দুটি দ্বিখণ্ডিত নমুনা থেকে পয়েন্টগুলি তাদের মূল নমুনার (বাম প্যানেল) উপর নির্ভর করে লাল বা নীল রঙে প্লট করা হয়। দুটি মাত্রায় পুলযুক্ত নমুনার সর্বনিম্ন স্প্যানিং ট্রি গণনা করা হয় (মাঝের প্যানেল)। এটি এমন গাছ যা সর্বনিম্ন প্রান্ত দৈর্ঘ্যের যোগফল। গাছটি সাবট্রিগুলিতে পচে যায় যেখানে সমস্ত পয়েন্টে একই লেবেল থাকে (ডান প্যানেল)।

নীচের চিত্রটিতে, আমি একটি কেস দেখাই যেখানে নীল বিন্দুগুলি একত্রিত হয়, যা প্রক্রিয়া শেষে গাছের সংখ্যা হ্রাস করে, যেমন আপনি ডান প্যানেলে দেখতে পাচ্ছেন। ফ্রিডম্যান এবং রাফস্কি একটি প্রক্রিয়াতে যে পরিমাণ গাছের সংখ্যক প্রাপ্ত গাছের সংক্ষিপ্ত বিবরণ গণনা করেছেন, যা পরীক্ষা চালিয়ে যাওয়ার অনুমতি দেয়।

অ অভিন্নতা

মাল্টিভারিয়েট নমুনার অভিন্নতার জন্য একটি সাধারণ পরীক্ষা তৈরির এই ধারণাটি ১৯৮৮ সালে স্মিথ এবং জৈন দ্বারা বিকাশিত হয়েছিল এবং বেন ফাফফ সি-এ প্রয়োগ করেছিলেন (প্যাকেজের উল্লেখ)। দ্বিতীয় নমুনাটি প্রথম নমুনার আনুমানিক উত্তল হালতে সমানভাবে উত্পাদিত হয় এবং ফ্রেডম্যান এবং রাফস্কির পরীক্ষা দুটি-নমুনা পুলটিতে সঞ্চালিত হয়।

পদ্ধতির সুবিধাটি হ'ল এটি কেবল হাইপারকিউবে নয়, প্রতিটি উত্তল মাল্টিভারিয়েট আকারে অভিন্নতা পরীক্ষা করে। শক্তিশালী অসুবিধা, পরীক্ষাটি একটি এলোমেলো উপাদান রয়েছে কারণ দ্বিতীয় নমুনা এলোমেলোভাবে উত্পন্ন হয়। অবশ্যই, কেউ পুনরায় প্রজননযোগ্য উত্তর পেতে পরীক্ষার পুনরাবৃত্তি করতে পারে এবং ফলাফলগুলি গড় করতে পারে, তবে এটি কার্যকর নয়।

পূর্ববর্তী আর অধিবেশন চালিয়ে যাওয়া, এখানে এটি কীভাবে চলছে।

pfaff(x) # Outputs the p-value of the test.
pfaff(x) # Most likely another p-value.

গিথুব থেকে কোডটি অনুলিপি / কাঁটাচামচ করুন।


1
দুর্দান্ত ওভারভিউ, আপনাকে ধন্যবাদ! ভবিষ্যতের প্রজন্মের জন্য, আমি এই নিবন্ধটি একটি দরকারী "ব্যবহারিক" সংক্ষিপ্ত রূপে পেয়েছি (কোনওভাবেই লেখকের সাথে অনুমোদিত নয়)।
মিউনার

3

(U,Z)UUniform(0,1)Z=U0<p<1W1pWUniform(0,1)U

nnχ2


1
2n

@ তবে আমি মনে করি না যে ন্যূনতম সংখ্যক কোষের সংখ্যা হওয়া দরকার এবং আমরা বেশ কয়েকটি মাত্রা এখানে বৃহত্তর বোঝাতে চাই না আমরা তা স্থির করেছিলাম। আমরা কি কেবল 3 বা 4 এর সাথে লেনদেন করছি
মাইকেল আর চেরনিক

5
আপনি যখন এর ব্যাপ্তি এবং সম্ভাব্য প্রয়োগযোগ্যতার চিত্র অঙ্কন করেন তখন আপনার উত্তর সমস্ত পাঠকের কাছে আরও কার্যকর হয়। (উন্নতি জন্য +1।) (একটি বিকল্প কৌশল, ভাল পরিসংখ্যানগত পরামর্শকারী চেতনায়, মন্তব্য ব্যবহার করতে মাত্রা সম্ভাব্য সংখ্যা এবং তারপর দরজী যে আপনার উত্তর সম্পর্কে ওপি জিজ্ঞাসা করা হল।)
whuber

"তাহলে অভিন্নতার জন্য একটি a চি \ 2 পরীক্ষা করুন" "আপনি কি দয়া করে এটিটি প্রসারিত করতে পারেন? উইকিপিডিয়া সালে en.wikipedia.org/wiki/Pearson%27s_chi-squared_test হইয়া ধার্মিকতা একমাত্র Chi2 পরীক্ষা, সমসত্ত্বতা ও স্বাধীনতার আছে।
ইয়ারোস্লাভ নিকিতেনকো
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.