অভিন্নতার জন্য পরীক্ষা করা কিছু সাধারণ বিষয়, তবে আমি বিস্মিত হই যে পয়েন্টগুলির বহুমাত্রিক মেঘের জন্য এটি করার পদ্ধতিগুলি কী।
অভিন্নতার জন্য পরীক্ষা করা কিছু সাধারণ বিষয়, তবে আমি বিস্মিত হই যে পয়েন্টগুলির বহুমাত্রিক মেঘের জন্য এটি করার পদ্ধতিগুলি কী।
উত্তর:
স্ট্যান্ডার্ড পদ্ধতিতে রিপলির কে ফাংশন বা এর থেকে প্রাপ্ত কিছু যেমন এল ফাংশন ব্যবহার করে। এটি এমন একটি প্লট যা সর্বোচ্চ দূরত্বের কার্য (apart ) হিসাবে ফাংশন হিসাবে পয়েন্টগুলির প্রতিবেশীদের গড় সংখ্যার সংক্ষিপ্তসার করে । মাত্রায় অভিন্ন বিতরণের জন্য , সেই গড়ের মতো আচরণ করা উচিত : এবং এটি সর্বদা ছোট । এটি ক্লাস্টারিং, স্থানিক অ-স্বাধীনতার অন্যান্য রূপ এবং প্রান্তের প্রভাবগুলির কারণে এ জাতীয় আচরণ থেকে বিদায় নেয় (যেহেতু পয়েন্টগুলির দ্বারা নমুনাযুক্ত অঞ্চলটি নির্দিষ্ট করা গুরুত্বপূর্ণ)। এই জটিলতার কারণে - যা হিসাবে আরও খারাপ হয়n ρ n ρ nবৃদ্ধি পায় - বেশিরভাগ অ্যাপ্লিকেশনগুলিতে সিমুলেশনের মাধ্যমে নাল কে ফাংশনটির জন্য একটি আত্মবিশ্বাস ব্যান্ড তৈরি করা হয় এবং পর্যবেক্ষণ করা K ক্রিয়াকলাপটি ভ্রমণকে সনাক্ত করার জন্য অতিরিক্তভাবে চিহ্নিত করা হয়। কিছু চিন্তাভাবনা এবং অভিজ্ঞতার সাথে, ভ্রমণগুলি ক্লাস্টারের প্রবণতার সাথে নির্দিষ্ট দূরত্বে বা না বুঝে বোঝানো যেতে পারে।
ডিকসন (2001), আইবিডের কে ফাংশন এবং এর সম্পর্কিত এল-ফাংশনের উদাহরণ। এল ফাংশনটি এমনভাবে তৈরি করা হয়েছে যাতে ইউনিফর্ম বিতরণের জন্য শূন্যের অনুভূমিক রেখা: একটি ভাল ভিজ্যুয়াল রেফারেন্স। ড্যাশড লাইনগুলি এই নির্দিষ্ট অধ্যয়নের জন্য আত্মবিশ্বাস ব্যান্ড, সিমুলেশন মাধ্যমে গণনা করা হয়। কঠিন ধূসর ট্রেস হ'ল ডেটার জন্য এল ফাংশন। দূরত্বের ०-২০ মিটারে ইতিবাচক ভ্রমণ এই দূরত্বগুলিতে কিছুটা ক্লাস্টারিং ইঙ্গিত করে।
আমি /stats//a/7984 এ সম্পর্কিত প্রশ্নের জবাবে একটি কাজের উদাহরণ পোস্ট করেছি , in এ এমবেড থাকা দ্বি-মাত্রিক বহুগুণে ইউনিফর্ম বিতরণের জন্য কে-ফাংশন থেকে উত্পন্ন প্লট plot অনুকরণ দ্বারা অনুমান করা হয়।
ইন R
, স্প্যাটস্ট্যাট ফাংশন করে kest
এবং যথাক্রমে এবংk3est
জন্য কে-ফাংশন গণনা করে । 3 টিরও বেশি মাত্রায় আপনি সম্ভবত নিজেরাই আছেন তবে অ্যালগরিদমগুলি হুবহু একই রকম হবে। আপনি দূরবর্তী ম্যাট্রিক্স থেকে গণনা হিসাবে (মধ্যম দক্ষতার সাথে) দ্বারা গননা করতে পারেন ।এন = 3stats::dist
দেখা যাচ্ছে যে প্রশ্নটি আমার চেয়ে বেশি কঠিন। তবুও, আমি আমার বাড়ির কাজটি করেছি এবং চারপাশটি দেখার পরে, আমি রিপলির কার্যকারিতা ছাড়াও দুটি মাত্রায় বেশ কয়েকটি মাত্রায় অভিন্নতা পরীক্ষা করার জন্য খুঁজে পেয়েছি।
আমি একটি আর প্যাকেজ তৈরি করেছি যা unf
উভয় পরীক্ষার প্রয়োগ করে। আপনি থেকে এটা বিনামূল্যে ডাউনলোড করতে পারেন GitHub এ https://github.com/gui11aume/unf । এর একটি বড় অংশ সিতে রয়েছে তাই আপনার এটি আপনার মেশিনে সংকলন করতে হবে R CMD INSTALL unf
। যে নিবন্ধগুলির উপর বাস্তবায়ন ভিত্তিক রয়েছে সেগুলি প্যাকেজে পিডিএফ ফর্ম্যাটে রয়েছে।
প্রথম পদ্ধতিটি @ প্রলিনেটিনেটর দ্বারা বর্ণিত একটি রেফারেন্স থেকে এসেছে ( মাল্টিভারিয়েট অভিন্নতা এবং এর অ্যাপ্লিকেশনগুলি, লিয়াং এট আল।, 2000 ) পরীক্ষা করে এবং কেবলমাত্র ইউনিট হাইপারক्यूबে অভিন্নতা পরীক্ষা করার অনুমতি দেয়। ধারণাটি হ'ল ভিন্নতা সংক্রান্ত পরিসংখ্যানগুলি যা কেন্দ্রীয় সীমার উপপাদ্য দ্বারা তাত্পর্যপূর্ণভাবে গাউসিয়ান। এটি একটি পরিসংখ্যান গণনা করতে দেয় যা পরীক্ষার ভিত্তি।
library(unf)
set.seed(123)
# Put 20 points uniformally in the 5D hypercube.
x <- matrix(runif(100), ncol=20)
liang(x) # Outputs the p-value of the test.
[1] 0.9470392
দ্বিতীয় পদ্ধতিটি কম প্রচলিত এবং সর্বনিম্ন বিস্তৃত গাছ ব্যবহার করে । প্রাথমিক কাজটি ফ্রিডম্যান অ্যান্ড রাফস্কি ১৯ 1979৯ সালে (প্যাকেজের রেফারেন্স) সম্পাদন করেছিলেন যা দুটি বিতরণকারী নমুনা একই বিতরণ থেকে আসে কিনা তা পরীক্ষা করে দেখার জন্য। নীচের চিত্রটি নীতির চিত্র তুলে ধরেছে।
দুটি দ্বিখণ্ডিত নমুনা থেকে পয়েন্টগুলি তাদের মূল নমুনার (বাম প্যানেল) উপর নির্ভর করে লাল বা নীল রঙে প্লট করা হয়। দুটি মাত্রায় পুলযুক্ত নমুনার সর্বনিম্ন স্প্যানিং ট্রি গণনা করা হয় (মাঝের প্যানেল)। এটি এমন গাছ যা সর্বনিম্ন প্রান্ত দৈর্ঘ্যের যোগফল। গাছটি সাবট্রিগুলিতে পচে যায় যেখানে সমস্ত পয়েন্টে একই লেবেল থাকে (ডান প্যানেল)।
নীচের চিত্রটিতে, আমি একটি কেস দেখাই যেখানে নীল বিন্দুগুলি একত্রিত হয়, যা প্রক্রিয়া শেষে গাছের সংখ্যা হ্রাস করে, যেমন আপনি ডান প্যানেলে দেখতে পাচ্ছেন। ফ্রিডম্যান এবং রাফস্কি একটি প্রক্রিয়াতে যে পরিমাণ গাছের সংখ্যক প্রাপ্ত গাছের সংক্ষিপ্ত বিবরণ গণনা করেছেন, যা পরীক্ষা চালিয়ে যাওয়ার অনুমতি দেয়।
মাল্টিভারিয়েট নমুনার অভিন্নতার জন্য একটি সাধারণ পরীক্ষা তৈরির এই ধারণাটি ১৯৮৮ সালে স্মিথ এবং জৈন দ্বারা বিকাশিত হয়েছিল এবং বেন ফাফফ সি-এ প্রয়োগ করেছিলেন (প্যাকেজের উল্লেখ)। দ্বিতীয় নমুনাটি প্রথম নমুনার আনুমানিক উত্তল হালতে সমানভাবে উত্পাদিত হয় এবং ফ্রেডম্যান এবং রাফস্কির পরীক্ষা দুটি-নমুনা পুলটিতে সঞ্চালিত হয়।
পদ্ধতির সুবিধাটি হ'ল এটি কেবল হাইপারকিউবে নয়, প্রতিটি উত্তল মাল্টিভারিয়েট আকারে অভিন্নতা পরীক্ষা করে। শক্তিশালী অসুবিধা, পরীক্ষাটি একটি এলোমেলো উপাদান রয়েছে কারণ দ্বিতীয় নমুনা এলোমেলোভাবে উত্পন্ন হয়। অবশ্যই, কেউ পুনরায় প্রজননযোগ্য উত্তর পেতে পরীক্ষার পুনরাবৃত্তি করতে পারে এবং ফলাফলগুলি গড় করতে পারে, তবে এটি কার্যকর নয়।
পূর্ববর্তী আর অধিবেশন চালিয়ে যাওয়া, এখানে এটি কীভাবে চলছে।
pfaff(x) # Outputs the p-value of the test.
pfaff(x) # Most likely another p-value.
গিথুব থেকে কোডটি অনুলিপি / কাঁটাচামচ করুন।