মাল্টিভারিয়েট মোডের গণনামূলকভাবে দক্ষ অনুমান


14

সংক্ষিপ্ত সংস্করণ: একটি অবিচ্ছিন্ন বিতরণ থেকে নমুনাযুক্ত বহুমাত্রিক ডেটা সেটের মোডটি নির্ধারণের সবচেয়ে গণনামূলক দক্ষ পদ্ধতি কোনটি?

দীর্ঘ সংস্করণ: আমি একটি ডেটা সেট পেয়েছি যা এর মোডটি অনুমান করা দরকার। মোডটি গড় বা মিডিয়ানের সাথে একত্রে আসে না। একটি নমুনা নীচে দেখানো হয়েছে, এটি 2D উদাহরণ, তবে একটি এনডি সমাধান আরও ভাল হবে: এখানে চিত্র বর্ণনা লিখুন

বর্তমানে, আমার পদ্ধতিটি হ'ল

  1. মোডের কাঙ্ক্ষিত রেজোলিউশনের সমান গ্রিডে কার্নেল ঘনত্বের হিসাব গণনা করুন
  2. সর্বাধিক গণিত বিন্দুর সন্ধান করুন

স্পষ্টতই, এটি কে-কে কে প্রচুর অবিশ্বাস্য পয়েন্টে গণনা করে, বিশেষত খারাপ যদি উচ্চ মাত্রার অনেকগুলি ডাটা পয়েন্ট থাকে বা আমি মোডে ভাল রেজোলিউশন আশা করি।

বিকল্পটি হ'ল কে-ডি-তে গ্লোবাল শিখর খুঁজতে সিমুলেটেড অ্যানিলিং, জেনেটিক অ্যালগরিদম ইত্যাদি ব্যবহার করা।

প্রশ্নটি হল এই গণনা সম্পাদনের একটি স্মার্ট পদ্ধতি আছে কিনা?


আমি উত্তরটি জানি না তবে মনে করি এটি একটি দুর্দান্ত প্রশ্ন। আপনি উল্লেখ করেছেন তার থেকে ভাল পদ্ধতির কথা ভাবা আমার পক্ষে কঠিন। আমি মনে করি মাল্টিভারিয়েটের তুলনায় অদ্বিতীয় কার্নেল অনুমানের পদ্ধতির মধ্যে পার্থক্য রয়েছে। ডেভিড স্কটের এই বইটি মাল্টিভারিয়েট কার্নেল পদ্ধতির বিষয়ে সহায়ক হতে পারে, যদিও আমি নিশ্চিত নই যে তিনি শীর্ষ শিকার সম্পর্কে আলোচনা করেছেন। amazon.com/…
মাইকেল আর। চেরনিক 3'12

উত্তর:


7

KKf(x)Kf(x)K

অ্যালগরিদম সম্পর্কে একটি খুব বিশদ বিবরণও এই ব্লগ এন্ট্রিতে দেওয়া হয়েছে ।


3
দুর্দান্ত তথ্যসূত্র, ল্যারি ওয়াসারম্যানেরও সম্প্রতি একটি ছোট্ট পোস্টটি কৌশলটির বিশদটি বর্ণনা করে ছিল, অ্যামেজিং মিন শিফট অ্যালগরিদম
অ্যান্ডি ডাব্লু

1
@ অ্যানডাব্লু শুভ কল! ল্যারি ওয়াসারম্যানের পোস্ট (এবং সাধারণভাবে তার ব্লগ) দুর্দান্ত। মন্তব্যে গিয়ে, আমি গড়-শিফট, মিডিয়োড-শিফ্ট এবং কুইকশিফটে একটি বৈকল্পিকের মধ্যে এই চিত্রণীয় রেফারেন্সটি পেয়েছি।
সমীর

2
ধন্যবাদ। এটি দ্রুততম কিনা তা বলতে পারি না তবে এটি অবশ্যই স্থানীয় সর্বাধিক সন্ধান করে। এখানে কিছু সিন্থেটিক ডেটাতে ট্রাজেক্টোরি এবং শিখার হারের কিছু প্লট রয়েছে
tkw954

9

যদি আপনার প্রধান আগ্রহটি দ্বি-মাত্রিক সমস্যা হয় তবে আমি বলব যে কার্নেলের ঘনত্বের প্রাক্কলনটি একটি ভাল পছন্দ কারণ এটির অ্যাসেম্পোটটিকাল বৈশিষ্ট্য রয়েছে (নোট করুন যে আমি বলছি না যে এটি সেরা)। উদাহরণস্বরূপ দেখুন

পারজেন, ই। (1962)। সম্ভাবনার ঘনত্ব ফাংশন এবং মোডের অনুমানের উপরগাণিতিক পরিসংখ্যানগুলির বার্তা 33: 1065–1076।

ডি ভ্যালপাইন, পি। (2004)। মন্টে কার্লো রাষ্ট্রীয় স্থানের সম্ভাবনা ভারী উত্তরোত্তর কর্নেল ঘনত্বের অনুমানের দ্বারাআমেরিকান পরিসংখ্যান সমিতি 99: 523-536 জার্নাল।

উচ্চ মাত্রার জন্য (4+) অনুকূল ব্যান্ডউইথ ম্যাট্রিক্স অনুমান করতে সুপরিচিত অসুবিধার কারণে এই পদ্ধতিটি সত্যিই ধীর হয়ে গেছে, দেখুন

এখন, ksপ্যাকেজের কমান্ডের সাথে সমস্যাটি KDEযেমনটি আপনি উল্লেখ করেছেন যে এটি নির্দিষ্ট গ্রিডের ঘনত্বের মূল্যায়ন করে যা খুব সীমাবদ্ধ হতে পারে। আপনি যদি KDEব্যান্ডউইথ ম্যাট্রিক্স অনুমানের জন্য প্যাকেজটি ব্যবহার করেন , উদাহরণস্বরূপ Hscv, কার্নেল ঘনত্ব অনুমানকারী প্রয়োগ করুন এবং তারপরে কমান্ডটি ব্যবহার করে এই ফাংশনটি অপ্টিমাইজ করেন তবে এই সমস্যাটি সমাধান করা যেতে পারে optim। এটি সিমুলেটেড ডেটা এবং একটি গাউসিয়ান কার্নেল ব্যবহার করে নীচে দেখানো হয়েছে R

rm(list=ls())

# Required packages
library(mvtnorm)
library(ks)

# simulated data
set.seed(1)
dat = rmvnorm(1000,c(0,0),diag(2))

# Bandwidth matrix
H.scv=Hlscv(dat)

# [Implementation of the KDE](http://en.wikipedia.org/wiki/Kernel_density_estimation)
H.eig = eigen(H.scv)
H.sqrt = H.eig$vectors %*% diag(sqrt(H.eig$values)) %*% solve(H.eig$vectors)
H = solve(H.sqrt)
dH = det(H.scv)

Gkde = function(par){
return( -log(mean(dmvnorm(t(H%*%t(par-dat)),rep(0,2),diag(2),log=FALSE)/sqrt(dH))))
}

# Optimisation
Max = optim(c(0,0),Gkde)$par
Max

আকার-সীমাবদ্ধ অনুমানকারীগুলি দ্রুততর হয়, উদাহরণস্বরূপ

কুলে, এমএল, সামওয়ার্থ, আরজে এবং স্টুয়ার্ট, এমআই (২০১০)। বহুমাত্রিক লগ-অবতল ঘনত্বের সর্বাধিক সম্ভাবনার অনুমানজার্নাল রয়েল স্ট্যাটিস্টিকাল সোসাইটি বি 72: 545–600।

তবে তারা এই উদ্দেশ্যে খুব উঁচুতে রয়েছে

4

আপনি যে পদ্ধতিগুলি ব্যবহার করে বিবেচনা করতে পারেন সেগুলি হ'ল: জেনারেলগুলির (বা অন্যান্য নমনীয় বিতরণ) এর বহুবিধ সসীম মিশ্রণটি ফিট করা বা

আব্রাহাম, সি।, বিয়াউ, জি। এবং ক্যাডার, বি (2003)। মাল্টিভারিয়েট ঘনত্বের মোডের সাধারণ অনুমানপরিসংখ্যানের কানাডিয়ান জার্নাল 31: 23-25।

আশা করি এটা কাজে লাগবে.


0

সম্প্রতি আমরা একটি কাগজ প্রকাশ করেছি যা দ্রুত ধারাবাহিক মোডের অনুমানকারীকে পরামর্শ দেয়।

পিএস রুজানকিন এবং এভি লোগাচোভ (2019)। বহুমাত্রিক স্থানে একটি দ্রুত মোডের অনুমানকারী। পরিসংখ্যান এবং সম্ভাবনার চিঠিগুলি

O(dn)dn

আমি আমার সাম্প্রতিক কাগজ থেকে নতুন ন্যূনতম বৈকল্পিক মোড অনুমানের পরামর্শ দেব

পিএস রুজানকিন (2020)। এক শ্রেণীর ননপ্যারামেট্রিক মোড অনুমানকারী। পরিসংখ্যান মধ্যে যোগাযোগ - সিমুলেশন এবং গণনা

O(dn2)nRd

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.