dplyr

-2热度

1回答

我是R的新手，我一直在面对这个问题。每当我试图使十分位数或四分位数使用“dplyr”包，我十分位获得合并到更少的组。像欲10个不同的基团，而我只得到6,4或有时只3. 我知道R期望可以组/合并小十分位数，如果它有较小的数据。但我想避免这个问题。请帮忙！谢谢！代码： mydata <- data.frame(col1= c(0,00,0,0,0,0,0,0,0,0,0,0,0,0,0,0,

0热度

4回答

两个字符串之间不同的行提取字符

我在一个数据框中有两列字符串，并且对于每一行我都想看到不同的字符。 E.g给出 Lines <- " a b cat car dog ding cow haw" df <- read.table(text = Lines, header = TRUE, as.is = TRUE) 回报 a b diff cat car t dog ding o cow haw co

2热度

2回答

如何使用更快的方式处理和组合列表中的数据帧

最后，我遇到了一个问题，那个数据处理非常缓慢，并附加了多个data.frames的行。我使用lapply和dplyr组合进行数据处理。 OTH，由于每个数据帧中有20000行乘以目录中的100个文件，进程变得非常慢。目前这对我来说是一个巨大的瓶颈，因为即使在lapply过程完成后我没有足够的内存来处理bind_rows过程。这里是我的数据处理方法，先的文件列表 files <- list.f

4热度

2回答

为什么在group_by（）而不是filter（）中工作？

我正在构建一个函数，我将基于一个字符串操纵数据框架。在函数，我将建立一个列名作为从字符串并用它来操纵数据帧，这样的事情： library(dplyr) orig_df <- data_frame( id = 1:3 , amt = c(100, 200, 300) , anyA = c(T,F,T) , othercol = c(F,F,T) )

1热度

1回答

使用dplyr按R按组缩放：分组和非分组似乎会生成相同的结果

继上一个问题（link）后，似乎在使用管道和dplyr时分组数据不会改变缩放比例。这里是一些示例代码，从链接的问题略有改变。 set.seed(123) n = 1000 df <- data.frame(ID = sample(c("A","B","C","D","E"), size=n, replace=TRUE), score = runif(n, 0, 10)) s

0热度

3回答

如何汇总数据并创建新列？

我很烦恼以我想要的方式总结我的数据。我想知道是否有人能指出我出错的地方。以下是我的数据的子集。它来自于综合社会调查和我的数据集的尺寸为2x33500 class owngun 32997 Middle Class No 8246 Working Class No 13613 Middle Class Yes 31553 Middle Class No 31316 Work

0热度

2回答

R：动态变量名称比较

我重新编写了数据集中的一堆变量，并在我的数据集中给出了新记录的变量前缀“r_”。我想运行table对，以确保重新编码是正确的。像table(v1, r_v1)之类的，但我需要为很多变量做。他们没有任何特定的顺序，所以我不能使用索引。下面是一个可重复使用的数据示例（也有关于优化代码的任何提示，敬请关注！）。 mtcars %>% select(c(disp,hp)) %>% mutate_all

0热度

1回答

查找每个组的滚动最大值

确定即时消息与时间序列数据一起工作。我正在使用dplyr按每天进行分组。然后在每一天的小组中，我希望找到滚动的最大值。我需要知道如果特定的行值是一天中的最大值，如果是，那么我想我需要打印当前的最大值，直到遇到下一个最大值。我的程序至今低于： day.group <- new.df %>% dplyr::mutate(day = format(Date, "%d")) %>%

0热度

1回答

提取前r中

固定日期我有一个数据集的最近的日期，df如下： df <- read.table(text = " ID INDEX_DATE DATE VALUE 1 14/06/2017 16/02/2015 7 1 14/06/2017 16/02/2015 6.5 1 14/06/2017 21/07/2015 7 1 14/

0热度

1回答

过滤器的行和列总和值

我的数据看起来像 pos year A B 1 2012 1 1 1 2013 1 NA 2 2012 NA NA 2 2013 NA 1 我试图计算每个POS A和B之间的百分比差异，只有当A和B都不NA。 ddply(x, .(pos), summarize, diff = ifelse(is.na(A)==FALSE & is.na(B)==FALSE,