ডেপ্লায়ার ব্যবহার করে ডেটাফ্রেমে সম্পূর্ণ কেসগুলির জন্য ফিল্টার করুন (কেস-ভিত্তিক মুছে ফেলা)

Question 1

Dplyr ব্যবহার করে সম্পূর্ণ কেসগুলির জন্য কোনও ডেটা.ফ্রেম ফিল্টার করা সম্ভব? complete.casesঅবশ্যই সমস্ত ভেরিয়েবলের কাজগুলির একটি তালিকা সহ। তবে এটি ক) ভার্বোজ যখন প্রচুর ভেরিয়েবল থাকে এবং খ) ভেরিয়েবলের নামগুলি জানা না গেলে অসম্ভব (যেমন কোনও ফাংশনে যা কোনও ডেটাফ্রেম প্রসেস করে)।

library(dplyr)
df = data.frame(
    x1 = c(1,2,3,NA),
    x2 = c(1,2,NA,5)
)

df %.%
  filter(complete.cases(x1,x2))

Question 2

এটা চেষ্টা কর:

df %>% na.omit

অথবা এটা:

df %>% filter(complete.cases(.))

অথবা এটা:

library(tidyr)
df %>% drop_na

আপনি যদি কোনও ভেরিয়েবলের নিখোঁজের উপর ভিত্তি করে ফিল্টার করতে চান তবে শর্তসাপেক্ষ ব্যবহার করুন:

df %>% filter(!is.na(x1))

বা

df %>% drop_na(x1)

অন্যান্য উত্তরগুলি বোঝায় যে উপরের সমাধানগুলির সমাধানগুলি na.omitঅনেক ধীর গতিযুক্ত তবে এটির তুলনায় ভারসাম্য বজায় রাখতে হবে যে এটি বৈশিষ্ট্যের মধ্যে বাদ দেওয়া সারিগুলির সারি সূচকগুলি দেয় na.actionযখন উপরের অন্যান্য সমাধানগুলি দেয় না।

str(df %>% na.omit)
## 'data.frame':   2 obs. of  2 variables:
##  $ x1: num  1 2
##  $ x2: num  1 2
##  - attr(*, "na.action")= 'omit' Named int  3 4
##    ..- attr(*, "names")= chr  "3" "4"

যোগ হয়েছে dplyr এবং মন্তব্যগুলির সর্বশেষ সংস্করণ প্রতিফলিত করার জন্য আপডেট হয়েছে ।

সংযোজন এবং মন্তব্যগুলির সর্বশেষ সংস্করণ প্রতিবিম্বিত করতে আপডেট হয়েছে ।

Question 3

এটি আমার পক্ষে কাজ করে:

df %>%
  filter(complete.cases(df))

বা আরও কিছু সাধারণ:

library(dplyr) # 0.4
df %>% filter(complete.cases(.))

এটির সুবিধা হবে যে ফিল্টারটিতে যাওয়ার আগে ডেটা চেইনে পরিবর্তন করা যেতে পারে।

আরও কলাম সহ আরও একটি মানদণ্ড:

set.seed(123)
x <- sample(1e5,1e5*26, replace = TRUE)
x[sample(seq_along(x), 1e3)] <- NA
df <- as.data.frame(matrix(x, ncol = 26))
library(microbenchmark)
microbenchmark(
  na.omit = {df %>% na.omit},
  filter.anonymous = {df %>% (function(x) filter(x, complete.cases(x)))},
  rowSums = {df %>% filter(rowSums(is.na(.)) == 0L)},
  filter = {df %>% filter(complete.cases(.))},
  times = 20L,
  unit = "relative")

#Unit: relative
#             expr       min        lq    median         uq       max neval
 #         na.omit 12.252048 11.248707 11.327005 11.0623422 12.823233    20
 #filter.anonymous  1.149305  1.022891  1.013779  0.9948659  4.668691    20
 #         rowSums  2.281002  2.377807  2.420615  2.3467519  5.223077    20
 #          filter  1.000000  1.000000  1.000000  1.0000000  1.000000    20

Question 4

গ্রোথেন্ডিকের জবাবের জন্য এখানে কিছু মানদণ্ডের ফলাফল রয়েছে। na.omit () অন্যান্য দুটি সমাধানের মতো 20x সময় নেয়। আমি মনে করি ডিপিপ্লায়ারের ফিল্টারটির অংশ হিসাবে এটির জন্য যদি কোনও ফাংশন থাকে তবে এটি ভাল হবে।

library('rbenchmark')
library('dplyr')

n = 5e6
n.na = 100000
df = data.frame(
    x1 = sample(1:10, n, replace=TRUE),
    x2 = sample(1:10, n, replace=TRUE)
)
df$x1[sample(1:n, n.na)] = NA
df$x2[sample(1:n, n.na)] = NA


benchmark(
    df %>% filter(complete.cases(x1,x2)),
    df %>% na.omit(),
    df %>% (function(x) filter(x, complete.cases(x)))()
    , replications=50)

#                                                  test replications elapsed relative
# 3 df %.% (function(x) filter(x, complete.cases(x)))()           50   5.422    1.000
# 1               df %.% filter(complete.cases(x1, x2))           50   6.262    1.155
# 2                                    df %.% na.omit()           50 109.618   20.217

Question 5

এটি একটি সংক্ষিপ্ত ফাংশন যা আপনাকে কলামগুলি নির্দিষ্ট করতে দেয় (মূলত যা কিছু dplyr::select বুঝতে পারে) যার কোনও এনএ মান থাকতে পারে না (প্যান্ডাস ডিএফ.প্রোপনা () এর পরে মডেলিং ):

drop_na <- function(data, ...){
    if (missing(...)){
        f = complete.cases(data)
    } else {
        f <- complete.cases(select_(data, .dots = lazyeval::lazy_dots(...)))
    }
    filter(data, f)
}

[ ড্রপ_না এখন পরিপাচারের অংশ: উপরেরগুলি দ্বারা প্রতিস্থাপন করা যেতে পারে library("tidyr")]

উদাহরণ:

library("dplyr")
df <- data.frame(a=c(1,2,3,4,NA), b=c(NA,1,2,3,4), ac=c(1,2,NA,3,4))
df %>% drop_na(a,b)
df %>% drop_na(starts_with("a"))
df %>% drop_na() # drops all rows with NAs

Question 6

এটা চেষ্টা কর

df[complete.cases(df),] #output to console

বা এটিও

df.complete <- df[complete.cases(df),] #assign to a new data.frame

উপরের কমান্ডগুলি আপনার ডেটা.ফ্রেমে সমস্ত কলাম (ভেরিয়েবল) এর সম্পূর্ণতার জন্য যাচাইয়ের যত্ন নেয়।

Question 7

কেবল সম্পূর্ণতার জন্য, সম্পূর্ণরূপে dplyr::filterএড়ানো যেতে পারে তবে কেবল magrittr:extract(একটি উপনাম [) ব্যবহার করে চেইন রচনা করতে সক্ষম হন :

library(magrittr)
df = data.frame(
  x1 = c(1,2,3,NA),
  x2 = c(1,2,NA,5))

df %>%
  extract(complete.cases(.), )

অতিরিক্ত বোনাস হ'ল গতি, এটি filterএবং na.omitরূপগুলির মধ্যে দ্রুততম পদ্ধতি (@ মিহা ট্রয়েট মাইক্রোব্যাঙ্কমার্ক ব্যবহার করে পরীক্ষা করা)।