কীভাবে বিভাগে এবং উপ বিভাগের সাথে কলাম সমন্বিত ডেটাফ্রেমকে পাইভটিং করবেন


12

আমার নিচে উল্লিখিত ডেটাফ্রেম রয়েছে:

structure(
  list(ID = c("P-1", " P-1", "P-1", "P-2", "P-3", "P-4", "P-5", "P-6", "P-7",
              "P-8"),
       Date = c("2020-03-16 12:11:33", "2020-03-16 13:16:04",
                "2020-03-16 06:13:55", "2020-03-16 10:03:43",
                "2020-03-16 12:37:09", "2020-03-16 06:40:24",
                "2020-03-16 09:46:45", "2020-03-16 12:07:44",
                "2020-03-16 14:09:51", "2020-03-16 09:19:23"),
       Status = c("SA", "SA", "SA", "RE", "RE", "RE", "RE", "XA", "XA", "XA"),
       Flag = c("L", "L", "L", NA, "K", "J", NA, NA, "H", "G"),
       Value = c(5929.81, 5929.81, 5929.81, NA, 6969.33, 740.08, NA, NA, 1524.8,
                 NA),
       Flag2 = c("CL", "CL", "CL", NA, "RY", "", NA, NA, "", NA),
       Flag3 = c(NA, NA, NA, NA, "RI", "PO", NA, "SS", "DDP", NA)),
  .Names=c("ID", "Date", "Status", "Flag", "Value", "Flag2", "Flag3"),
  row.names=c(NA, 10L), class="data.frame")

আমি নীচে উল্লিখিত কোড ব্যবহার করছি:

    df %>% mutate(L = ifelse(Flag == "L",1,0),
                  K = ifelse(Flag == "K",1,0),
                  # etc for Flag) %>%
      mutate(sub_status = NA) %>%
      mutate(sub_status = ifelse(!is.na(Flag2) & Flag3 == 0, "a", sub_status),
             sub_status = ifelse(is.na(Flag2) & Flag3 != 0, "b", sub_status),
             # etc for sub-status) %>%
      mutate(value_class = ifelse(0 <= Value & Value <= 15000, "0-15000",
                                  "15000-50000")) %>%
      group_by(Date, status, sub_status, value_class) %>%
      summarise(L = sum(L),
                K = sum(K),
                # etc
                count = n())

যা আমাকে নিম্নলিখিত আউটপুট সরবরাহ করে:

    Date         Status  sub_status   value_class G H I J K L NA Count
    2020-03-20   SA      a            0-15000     0 0 0 0 1 1 0  2
    2020-03-20   SA      b            0-15000     0 0 0 0 1 0 0  1
    ................
    ................

আমি নীচের আউটপুটটি পেতে চাই DF, যেখানে Statusকলামটির স্বতন্ত্র 3 টি মান রয়েছে এবং Flag2এর মানগুলি বা [নাল] বা এনএ রয়েছে এবং অবশেষে Flag3কলামে [নাল] বা এনএ সহ স্বতন্ত্র 7 মান রয়েছে। একটি স্বতন্ত্র IDজন্য আমাদের Flag3কলামের একাধিক এন্ট্রি আছে ।

Value0-15000, 15000-50000 এর মতো 3 টি গ্রুপ তৈরি করে আমাকে নিম্নলিখিত ডেটাফ্রেম তৈরি করতে হবে ।

  • কোনও স্বতন্ত্র আইডির জন্য যদি Flag20 বা [নাল] / এনএ বাদে কিছু মান থাকে তবে 0 বা [নাল] / এনএ Flag3মান হয় তবে তা হবে a
  • কোনও স্বতন্ত্র আইডির জন্য যদি Flag30 বা [নাল] / এনএ ব্যতীত কিছু মান থাকে তবে 0 বা [নাল] / এনএ Flag2মান হয় তবে তা হবেb
  • একটি স্বতন্ত্র ID 'র জন্য উভয় তাহলে Flag2& Flag3কিছু চেয়ে 0 বা [নাল] অন্য মূল্য আছে / এন তারপর এটি হবেc
  • যদি একটি স্বতন্ত্র ID 'র জন্য উভয় Flag2& Flag3মান 0 বা [নাল] / এনএ এটি হবে করেছেd

আমি নিম্নলিখিত কাঠামোতে percentএবং Totalকলামের সাথে উপরে বর্ণিত ডেটাফ্র্যামিকে সাজিয়ে রাখতে চাই ।

আমি শতাংশ উল্লেখ করেছি 2/5যে অবস্থা দেখানোর জন্য যেহেতু মোট দ্বারা বিভক্ত করা হবে sub_statusতাদের নিজ নিজ দ্বারা বিভক্ত করা হবে Status

16/03/2020         0 - 15000                    15000 - 50000
Status  count   percent  L K J H G [Null]    count   percent  L K J H G [Null]   Total
SA        1 1/8 (12.50%) 1 0 0 0 0   0         0       -      0 0 0 0 0    0       1
a         1 1/1(100.00%) 1 0 0 0 0   0         0       -      0 0 0 0 0    0       1
b         0       -      0 0 0 0 0   0         0       -      0 0 0 0 0    0       0
c         0       -      1 0 0 0 0   0         0       -      0 0 0 0 0    0       0
d         0       -      0 0 0 0 0   0         0       -      0 0 0 0 0    0       0
RE        4      50.00%  0 1 1 0 0   2         0       -      0 0 0 0 0    0       4
a         0        -     0 0 0 0 0   0         0       -      0 0 0 0 0    0       0
b         1      25.00%  0 0 1 0 0   1         0       -      0 0 0 0 0    0       1
c         1      25.00%  0 1 0 0 0   1         0       -      0 0 0 0 0    0       1
d         2      50.00%  0 0 0 0 0   2         0       -      0 0 0 0 0    0       2
XA        3      37.50%  0 0 0 1 1   1         0       -      0 0 0 0 0    0       3
a         0        -     0 0 0 0 0   0         0       -      0 0 0 0 0    0       0
b         2      66.67%  0 0 0 1 0   1         0       -      0 0 0 0 0    0       2
c         0        -     0 0 0 0 0   0         0       -      0 0 0 0 0    0       0
d         1      33.33%  0 0 0 0 1   0         0       -      0 0 0 0 0    0       1
Total     8     100.00%  1 1 0 0 1   3         0       -      0 0 0 0 0    0       8

আমি সর্বশেষ তারিখের ভিত্তিতে প্রয়োজনীয় আউটপুট উল্লেখ করেছি যা 16/03/2020, যদি ডাটাফ্রেমের startdateআউটপুট ডেটাফ্রেমে সমস্ত মান 0 অনুযায়ী সর্বশেষ তারিখ না থাকে । শতাংশ কলামটি কেবলমাত্র রেফারেন্সের জন্য সেখানে গণনা করা হবে শতাংশের মান, ,.

এছাড়াও, আমি কাঠামো স্থির রাখতে চাই। উদাহরণস্বরূপ, যদি কোনও পরামিতি এক দিনের জন্য উপস্থিত না হয় তবে আউটপুট কাঠামো 0 মানের সমান হয়।

উদাহরণস্বরূপ, ধরুন যে তারিখটির 17/03/2020স্থিতি SAবা সাব_স্ট্যাটাসের সাথে কোনও সারি নেই যার cজন্য স্থান ধারক এর মান হিসাবে আউটপুটে থাকবে 0


@ অ্যাকরুন: আমি 2/5উপস্থাপনের জন্য শতাংশের কলামটি ঠিক রেখেছি । শতকরা চিহ্নের সাথে কেবলমাত্র 2 দশমিক পয়েন্ট সহ শতাংশের মান থাকবে।
user9211845

@ কাকরুন: দয়া করে পরামর্শ দিন: প্রয়োজনীয় আউটপুটটি আর এর মাধ্যমে সম্ভব
কিনা

আপনার ডেটা ইনপুটটি 10 ​​সারি, তবে আরও iis প্রত্যাশিত। ইনপুট উদাহরণের ভিত্তিতে প্রত্যাশিত কি
আকরুন

@ কাকরুন: আমি দুঃখিত তবে আউটপুটটি কেবলমাত্র দর্শনের উপস্থাপনার জন্য। এ জাতীয় আউটপুট পেতে আমার দৃষ্টিভঙ্গি বুঝতে হবে।
user9211845

1
dputআপনার পছন্দ মতো ডেটাসেট দিয়ে শুরু করতে পারেন - এটি তৃতীয় কোড ব্লক। পূর্ববর্তী কোডটি প্রাসঙ্গিক বলে মনে হচ্ছে না কারণ আপনি আউটপুট সহ সামগ্রীটি মনে করছেন।
কোল

উত্তর:


3

আশা করি এটি আপনাকে আরম্ভ করার জন্য যথেষ্ট হবে, আরও এগিয়ে যাওয়ার জন্য আমার একটি প্রত্যাশিত আউটপুট লাগবে যা দেখে মনে হচ্ছে এটি আর থেকে এসেছে এবং ভেরিয়েবলগুলি কীভাবে গণনা করা হবে সে সম্পর্কে আরও ব্যাখ্যা।

library(tidyverse)
df <- structure(
  list(ID = c("P-1", " P-1", "P-1", "P-2", "P-3", "P-4", "P-5", "P-6", "P-7",
              "P-8"),
       Date = c("2020-03-16 12:11:33", "2020-03-16 13:16:04",
                "2020-03-16 06:13:55", "2020-03-16 10:03:43",
                "2020-03-16 12:37:09", "2020-03-16 06:40:24",
                "2020-03-16 09:46:45", "2020-03-16 12:07:44",
                "2020-03-16 14:09:51", "2020-03-16 09:19:23"),
       Status = c("SA", "SA", "SA", "RE", "RE", "RE", "RE", "XA", "XA", "XA"),
       Flag = c("L", "L", "L", NA, "K", "J", NA, NA, "H", "G"),
       Value = c(5929.81, 5929.81, 5929.81, NA, 6969.33, 740.08, NA, NA, 1524.8,
                 NA),
       Flag2 = c("CL", "CL", "CL", NA, "RY", "", NA, NA, "", NA),
       Flag3 = c(NA, NA, NA, NA, "RI", "PO", NA, "SS", "DDP", NA)),
  .Names=c("ID", "Date", "Status", "Flag", "Value", "Flag2", "Flag3"),
  row.names=c(NA, 10L), class="data.frame")

df2 <- df %>%
  mutate(
    # add variables
    Value = ifelse(0 <= Value & Value <= 15000, "0-15000", "15000-50000"),
    substatus = case_when(
      !is.na(Flag2) & is.na(Flag3) ~ "a",
      !is.na(Flag3) & is.na(Flag2) ~ "b",
      !is.na(Flag3) & !is.na(Flag2) ~ "c",
      TRUE ~ "d"),
    # make Date an actual date rather than a timestamp
    Date = as.Date(Date),
    # remove obsolete columns
    Flag2 = NULL,
    Flag3 = NULL,
    ID = NULL,
    # renames NAs into the name of the desired column
    Flag = ifelse(is.na(Flag), "[Null]", Flag),
    # create column of 1 for pivot
    temp = 1,
    # and row id
    id = row_number()
    ) %>%
  # create new columns L K etc, this also drops the Flag col
  pivot_wider(names_from = "Flag", values_from = "temp", values_fill = list(temp=0)) %>%
  # move `[Null]` column to the end
  select(everything(), -`[Null]`, `[Null]`) %>%
  mutate(
    id = NULL,
    count = 1,
    Total = rowSums(select(., L:`[Null]`))) 
df2
#> # A tibble: 10 x 12
#>    Date       Status Value substatus     L     K     J     H     G `[Null]`
#>    <date>     <chr>  <chr> <chr>     <dbl> <dbl> <dbl> <dbl> <dbl>    <dbl>
#>  1 2020-03-16 SA     0-15~ a             1     0     0     0     0        0
#>  2 2020-03-16 SA     0-15~ a             1     0     0     0     0        0
#>  3 2020-03-16 SA     0-15~ a             1     0     0     0     0        0
#>  4 2020-03-16 RE     <NA>  d             0     0     0     0     0        1
#>  5 2020-03-16 RE     0-15~ c             0     1     0     0     0        0
#>  6 2020-03-16 RE     0-15~ c             0     0     1     0     0        0
#>  7 2020-03-16 RE     <NA>  d             0     0     0     0     0        1
#>  8 2020-03-16 XA     <NA>  b             0     0     0     0     0        1
#>  9 2020-03-16 XA     0-15~ c             0     0     0     1     0        0
#> 10 2020-03-16 XA     <NA>  d             0     0     0     0     1        0
#> # ... with 2 more variables: count <dbl>, Total <dbl>

# As you didn't tell what to do with NA values so I left them as NA 

bind_rows(
  df2 %>%
    # add missing combinations of abcd
    complete(nesting(Date, Status, Value), substatus) %>%
    group_by(Date, Value, Status, substatus) %>% 
    summarize_all(~sum(., na.rm=TRUE)) %>%
    group_by(Status, Value) %>%
    mutate(percent = paste(round(100 * Total / sum(Total), 2), "%")) %>%
    ungroup(),
  df2 %>% 
    mutate(substatus = Status, Status = paste0(Status, "_")) %>%
    group_by(Date, Value, Status, substatus) %>% 
    mutate(count = n()) %>%
    group_by(count, add = TRUE) %>%
    summarize_all(~sum(., na.rm=TRUE)) %>%
    group_by(Value) %>%
    mutate(percent = paste(round(100 * Total / sum(Total), 2), "%"))
) %>%
  arrange(Date, Value, desc(Status)) %>%
  mutate(Status = NULL) %>%
  rename(Status = substatus) %>%
  print(n=Inf)
#> # A tibble: 25 x 12
#>    Date       Value Status     L     K     J     H     G `[Null]` count Total
#>    <date>     <chr> <chr>  <dbl> <dbl> <dbl> <dbl> <dbl>    <dbl> <dbl> <dbl>
#>  1 2020-03-16 0-15~ XA         0     0     0     1     0        0     1     1
#>  2 2020-03-16 0-15~ a          0     0     0     0     0        0     0     0
#>  3 2020-03-16 0-15~ b          0     0     0     0     0        0     0     0
#>  4 2020-03-16 0-15~ c          0     0     0     1     0        0     1     1
#>  5 2020-03-16 0-15~ d          0     0     0     0     0        0     0     0
#>  6 2020-03-16 0-15~ SA         3     0     0     0     0        0     3     3
#>  7 2020-03-16 0-15~ a          3     0     0     0     0        0     3     3
#>  8 2020-03-16 0-15~ b          0     0     0     0     0        0     0     0
#>  9 2020-03-16 0-15~ c          0     0     0     0     0        0     0     0
#> 10 2020-03-16 0-15~ d          0     0     0     0     0        0     0     0
#> 11 2020-03-16 0-15~ RE         0     1     1     0     0        0     2     2
#> 12 2020-03-16 0-15~ a          0     0     0     0     0        0     0     0
#> 13 2020-03-16 0-15~ b          0     0     0     0     0        0     0     0
#> 14 2020-03-16 0-15~ c          0     1     1     0     0        0     2     2
#> 15 2020-03-16 0-15~ d          0     0     0     0     0        0     0     0
#> 16 2020-03-16 <NA>  XA         0     0     0     0     1        1     2     2
#> 17 2020-03-16 <NA>  a          0     0     0     0     0        0     0     0
#> 18 2020-03-16 <NA>  b          0     0     0     0     0        1     1     1
#> 19 2020-03-16 <NA>  c          0     0     0     0     0        0     0     0
#> 20 2020-03-16 <NA>  d          0     0     0     0     1        0     1     1
#> 21 2020-03-16 <NA>  RE         0     0     0     0     0        2     2     2
#> 22 2020-03-16 <NA>  a          0     0     0     0     0        0     0     0
#> 23 2020-03-16 <NA>  b          0     0     0     0     0        0     0     0
#> 24 2020-03-16 <NA>  c          0     0     0     0     0        0     0     0
#> 25 2020-03-16 <NA>  d          0     0     0     0     0        2     2     2
#> # ... with 1 more variable: percent <chr>
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.