গ্রুপ অনুসারে প্রথম সারিটি নির্বাচন করুন

Question 1

এটির মতো ডেটাফ্রেম থেকে

test <- data.frame('id'= rep(1:5,2), 'string'= LETTERS[1:10])
test <- test[order(test$id), ]
rownames(test) <- 1:10

> test
    id string
 1   1      A
 2   1      F
 3   2      B
 4   2      G
 5   3      C
 6   3      H
 7   4      D
 8   4      I
 9   5      E
 10  5      J

আমি প্রতিটি আইডি / স্ট্রিং জুটির প্রথম সারিতে একটি নতুন তৈরি করতে চাই। Sqldf যদি এর মধ্যে আর কোড গ্রহণ করে, ক্যোয়ারীটি এর মতো দেখতে পারে:

res <- sqldf("select id, min(rownames(test)), string 
              from test 
              group by id, string")

> res
    id string
 1   1      A
 3   2      B
 5   3      C
 7   4      D
 9   5      E

এর মতো কোনও নতুন কলাম তৈরির কোনও সমাধান কি সংক্ষিপ্ত রয়েছে

test$row <- rownames(test)

এবং মিনিট (সারি) দিয়ে একই স্কেলডিএফ কোয়েরি চালাচ্ছেন?

Question 2

আপনি duplicatedএটি খুব দ্রুত করতে ব্যবহার করতে পারেন ।

test[!duplicated(test$id),]

গতি freaks জন্য মানদণ্ড:

ju <- function() test[!duplicated(test$id),]
gs1 <- function() do.call(rbind, lapply(split(test, test$id), head, 1))
gs2 <- function() do.call(rbind, lapply(split(test, test$id), `[`, 1, ))
jply <- function() ddply(test,.(id),function(x) head(x,1))
jdt <- function() {
  testd <- as.data.table(test)
  setkey(testd,id)
  # Initial solution (slow)
  # testd[,lapply(.SD,function(x) head(x,1)),by = key(testd)]
  # Faster options :
  testd[!duplicated(id)]               # (1)
  # testd[, .SD[1L], by=key(testd)]    # (2)
  # testd[J(unique(id)),mult="first"]  # (3)
  # testd[ testd[,.I[1L],by=id] ]      # (4) needs v1.8.3. Allows 2nd, 3rd etc
}

library(plyr)
library(data.table)
library(rbenchmark)

# sample data
set.seed(21)
test <- data.frame(id=sample(1e3, 1e5, TRUE), string=sample(LETTERS, 1e5, TRUE))
test <- test[order(test$id), ]

benchmark(ju(), gs1(), gs2(), jply(), jdt(),
    replications=5, order="relative")[,1:6]
#     test replications elapsed relative user.self sys.self
# 1   ju()            5    0.03    1.000      0.03     0.00
# 5  jdt()            5    0.03    1.000      0.03     0.00
# 3  gs2()            5    3.49  116.333      2.87     0.58
# 2  gs1()            5    3.58  119.333      3.00     0.58
# 4 jply()            5    3.69  123.000      3.11     0.51

আসুন এটি আবার চেষ্টা করুন, তবে প্রথম তাপ থেকে প্রাপ্ত প্রতিযোগীদের সাথে এবং আরও ডেটা এবং আরও অনুলিপি সহ

set.seed(21)
test <- data.frame(id=sample(1e4, 1e6, TRUE), string=sample(LETTERS, 1e6, TRUE))
test <- test[order(test$id), ]
benchmark(ju(), jdt(), order="relative")[,1:6]
#    test replications elapsed relative user.self sys.self
# 1  ju()          100    5.48    1.000      4.44     1.00
# 2 jdt()          100    6.92    1.263      5.70     1.15

Question 3

আমি dplyr পদ্ধতির পক্ষে।

group_by(id) হয় অনুসরণ করে

filter(row_number()==1) বা
slice(1) বা
slice_head(1) # (dplyr => 1.0)
top_n(n = -1)
- top_n()অভ্যন্তরীণভাবে র‌্যাঙ্ক ফাংশন ব্যবহার করে। র‌্যাঙ্কের নীচ থেকে নেতিবাচক নির্বাচন করে।

কিছু ক্ষেত্রে গ্রুপ_বাইয়ের পরে আইডির ব্যবস্থা করা প্রয়োজনীয় হতে পারে।

library(dplyr)

# using filter(), top_n() or slice()

m1 <-
test %>% 
  group_by(id) %>% 
  filter(row_number()==1)

m2 <-
test %>% 
  group_by(id) %>% 
  slice(1)

m3 <-
test %>% 
  group_by(id) %>% 
  top_n(n = -1)

তিনটি পদ্ধতিই একই ফল দেয়

# A tibble: 5 x 2
# Groups:   id [5]
     id string
  <int> <fct> 
1     1 A     
2     2 B     
3     3 C     
4     4 D     
5     5 E

Question 4

কি সম্পর্কে

DT <- data.table(test)
setkey(DT, id)

DT[J(unique(id)), mult = "first"]

সম্পাদনা করুন

এছাড়াও একটি অনন্য পদ্ধতি রয়েছে data.tablesযার জন্য প্রথম সারিটি কী দ্বারা ফিরে আসবে

jdtu <- function() unique(DT)

আমি মনে করি, যদি আপনি ক্রম হয় test, বেঞ্চমার্ক বাহিরে তারপর আপনি সরানোর করতে setkeyএবং data.tableপাশাপাশি বেঞ্চমার্ক থেকে রুপান্তরের (যেমন setkey মূলত আইডি, একই দ্বারা বাছাই করে order)।

set.seed(21)
test <- data.frame(id=sample(1e3, 1e5, TRUE), string=sample(LETTERS, 1e5, TRUE))
test <- test[order(test$id), ]
DT <- data.table(DT, key = 'id')
ju <- function() test[!duplicated(test$id),]

jdt <- function() DT[J(unique(id)),mult = 'first']


 library(rbenchmark)
benchmark(ju(), jdt(), replications = 5)
##    test replications elapsed relative user.self sys.self 
## 2 jdt()            5    0.01        1      0.02        0        
## 1  ju()            5    0.05        5      0.05        0

এবং আরও তথ্য সহ

** অনন্য পদ্ধতি সহ সম্পাদনা করুন **

set.seed(21)
test <- data.frame(id=sample(1e4, 1e6, TRUE), string=sample(LETTERS, 1e6, TRUE))
test <- test[order(test$id), ]
DT <- data.table(test, key = 'id')
       test replications elapsed relative user.self sys.self 
2  jdt()            5    0.09     2.25      0.09     0.00    
3 jdtu()            5    0.04     1.00      0.05     0.00      
1   ju()            5    0.22     5.50      0.19     0.03

অনন্য পদ্ধতিটি এখানে দ্রুত।

Question 5

একটি সহজ ddplyবিকল্প:

ddply(test,.(id),function(x) head(x,1))

গতি যদি সমস্যা হয় তবে একই ধরণের পদ্ধতির সাথে নেওয়া যেতে পারে data.table:

testd <- data.table(test)
setkey(testd,id)
testd[,.SD[1],by = key(testd)]

অথবা এটি যথেষ্ট দ্রুত হতে পারে:

testd[testd[, .I[1], by = key(testd]$V1]

Question 6

এখন জন্য dplyr, একটি পৃথক কাউন্টার যুক্ত।

df %>%
    group_by(aa, bb) %>%
    summarise(first=head(value,1), count=n_distinct(value))

আপনি গ্রুপ তৈরি করেন, তাদের গোষ্ঠীগুলির মধ্যে সংক্ষিপ্তসার দিন।

যদি ডেটা সংখ্যাসূচক হয় তবে আপনি ব্যবহার করতে পারেন: এর জায়গায়
first(value)[এছাড়াও রয়েছে last(value)]head(value, 1)

দেখুন: http://cran.rstudio.com/web/packages/dplyr/vignettes/intrication.html

সম্পূর্ণ:

> df
Source: local data frame [16 x 3]

   aa bb value
1   1  1   GUT
2   1  1   PER
3   1  2   SUT
4   1  2   GUT
5   1  3   SUT
6   1  3   GUT
7   1  3   PER
8   2  1   221
9   2  1   224
10  2  1   239
11  2  2   217
12  2  2   221
13  2  2   224
14  3  1   GUT
15  3  1   HUL
16  3  1   GUT

> library(dplyr)
> df %>%
>   group_by(aa, bb) %>%
>   summarise(first=head(value,1), count=n_distinct(value))

Source: local data frame [6 x 4]
Groups: aa

  aa bb first count
1  1  1   GUT     2
2  1  2   SUT     2
3  1  3   SUT     3
4  2  1   221     3
5  2  2   217     3
6  3  1   GUT     2

Question 7

(1) এসকিউএলাইটের rowidসিউডো-কলামে একটি বিল্ট রয়েছে তাই এটি কাজ করে:

sqldf("select min(rowid) rowid, id, string 
               from test 
               group by id")

প্রদান:

  rowid id string
1     1  1      A
2     3  2      B
3     5  3      C
4     7  4      D
5     9  5      E

(২) এছাড়াও sqldfনিজস্ব একটি row.names=যুক্তি রয়েছে:

sqldf("select min(cast(row_names as real)) row_names, id, string 
              from test 
              group by id", row.names = TRUE)

প্রদান:

  id string
1  1      A
3  2      B
5  3      C
7  4      D
9  5      E

(3) তৃতীয় বিকল্প যা উপরের দুটি উপাদানের সাথে মিশে তা আরও ভাল হতে পারে:

sqldf("select min(rowid) row_names, id, string 
               from test 
               group by id", row.names = TRUE)

প্রদান:

  id string
1  1      A
3  2      B
5  3      C
7  4      D
9  5      E

নোট করুন যে এই তিনটিই এসকিউএল-তে এসকিউএলাইট এক্সটেনশনের উপর নির্ভর করে যেখানে অন্য কলামগুলি একই সারি থেকে বেছে নেওয়ার ফলস্বরূপ minবা ব্যবহারের maxগ্যারান্টিযুক্ত। (অন্যান্য এসকিউএল-ভিত্তিক ডাটাবেসে যার নিশ্চয়তা দেওয়া যায় না))

Question 8

একটি বেস আর বিকল্পটি হ'ল split()- lapply()- do.call()প্রতিমা:

> do.call(rbind, lapply(split(test, test$id), head, 1))
  id string
1  1      A
2  2      B
3  3      C
4  4      D
5  5      E

একটি অধিক প্রত্যক্ষ বিকল্প হয় ফাংশন:lapply()[

> do.call(rbind, lapply(split(test, test$id), `[`, 1, ))
  id string
1  1      A
2  2      B
3  3      C
4  4      D
5  5      E

কলের 1, )শেষে কমা স্থানটি প্রয়োজনীয় কারণ এটি প্রথম সারির এবং সমস্ত কলাম নির্বাচন করার জন্য কল করার সমতুল্য ।lapply()[1, ]