সংক্ষেপে আমার প্রশ্ন: আর মাইস (ডেটা ইমপুটেশন) চলমান সময়ে উন্নতি করার কোনও পদ্ধতি আছে কি?
আমি একটি ডেটা সেট (30 ভেরিয়েবল, 1.3 মিলিয়ন সারি) নিয়ে কাজ করছি যার মধ্যে (বেশ এলোমেলোভাবে) হারিয়ে যাওয়া তথ্য রয়েছে। 30 টির মধ্যে 15 টির মধ্যে প্রায় 8% পর্যবেক্ষণে এনএ থাকে। অনুপস্থিত ডেটাটিকে বোঝানোর জন্য, আমি মাইস প্যাকেজের অংশ মাইস ফাংশনটি চালাচ্ছি ।
আমি পদ্ধতিটি "ফাস্টপিমিএম" এবং এম = 1 সহ একটি উপসেটে (100,000 সারি), এমনকি বেশ ধীরে চলমান সময়টি অনুভব করি এবং প্রায় 15 মিনিট ধরে চলে।
পারফরম্যান্সে খুব বেশি হারানো ছাড়া চলমান সময়কে উন্নত করার কোনও উপায় আছে কি? (mice.impute.mean বেশ দ্রুত, তবে তথ্যের গুরুত্বপূর্ণ ক্ষতির সাথে আসে!)।
পুনরুত্পাদনযোগ্য কোড:
library(mice)
df <- data.frame(replicate(30,sample(c(NA,1:10),1000000,rep=TRUE)))
df <- data.frame(scale(df))
output <- mice(df, m=1, method = "fastpmm")