dplyr

    -2热度

    1回答

    我是R的新手,我一直在面对这个问题。 每当我试图使十分位数或四分位数使用“dplyr”包,我十分位获得合并到更少的组。 像欲10个不同的基团,而我只得到6,4或有时只3. 我知道R期望可以组/合并小十分位数,如果它有较小的数据。 但我想避免这个问题。请帮忙! 谢谢! 代码: mydata <- data.frame(col1= c(0,00,0,0,0,0,0,0,0,0,0,0,0,0,0,0,

    0热度

    4回答

    我在一个数据框中有两列字符串,并且对于每一行我都想看到不同的字符。 E.g给出 Lines <- " a b cat car dog ding cow haw" df <- read.table(text = Lines, header = TRUE, as.is = TRUE) 回报 a b diff cat car t dog ding o cow haw co

    2热度

    2回答

    最后,我遇到了一个问题,那个数据处理非常缓慢,并附加了多个data.frames的行。我使用lapply和dplyr组合进行数据处理。 OTH,由于每个数据帧中有20000行乘以目录中的100个文件,进程变得非常慢。 目前这对我来说是一个巨大的瓶颈,因为即使在lapply过程完成后我没有足够的内存来处理bind_rows过程。 这里是我的数据处理方法, 先的文件列表 files <- list.f

    4热度

    2回答

    我正在构建一个函数,我将基于一个字符串操纵数据框架。在函数,我将建立一个列名作为从字符串并用它来操纵数据帧,这样的事情: library(dplyr) orig_df <- data_frame( id = 1:3 , amt = c(100, 200, 300) , anyA = c(T,F,T) , othercol = c(F,F,T) )

    1热度

    1回答

    继上一个问题(link)后,似乎在使用管道和dplyr时分组数据不会改变缩放比例。这里是一些示例代码,从链接的问题略有改变。 set.seed(123) n = 1000 df <- data.frame(ID = sample(c("A","B","C","D","E"), size=n, replace=TRUE), score = runif(n, 0, 10)) s

    0热度

    3回答

    我很烦恼以我想要的方式总结我的数据。我想知道是否有人能指出我出错的地方。 以下是我的数据的子集。它来自于综合社会调查和我的数据集的尺寸为2x33500 class owngun 32997 Middle Class No 8246 Working Class No 13613 Middle Class Yes 31553 Middle Class No 31316 Work

    0热度

    2回答

    我重新编写了数据集中的一堆变量,并在我的数据集中给出了新记录的变量前缀“r_”。我想运行table对,以确保重新编码是正确的。像table(v1, r_v1)之类的,但我需要为很多变量做。他们没有任何特定的顺序,所以我不能使用索引。 下面是一个可重复使用的数据示例(也有关于优化代码的任何提示,敬请关注!)。 mtcars %>% select(c(disp,hp)) %>% mutate_all

    0热度

    1回答

    确定即时消息与时间序列数据一起工作。我正在使用dplyr按每天进行分组。然后在每一天的小组中,我希望找到滚动的最大值。我需要知道如果特定的行值是一天中的最大值,如果是,那么我想我需要打印当前的最大值,直到遇到下一个最大值。 我的程序至今低于: day.group <- new.df %>% dplyr::mutate(day = format(Date, "%d")) %>%

    0热度

    1回答

    固定日期我有一个数据集的最近的日期,df如下: df <- read.table(text = " ID INDEX_DATE DATE VALUE 1 14/06/2017 16/02/2015 7 1 14/06/2017 16/02/2015 6.5 1 14/06/2017 21/07/2015 7 1 14/

    0热度

    1回答

    我的数据看起来像 pos year A B 1 2012 1 1 1 2013 1 NA 2 2012 NA NA 2 2013 NA 1 我试图计算每个POS A和B之间的百分比差异,只有当A和B都不NA。 ddply(x, .(pos), summarize, diff = ifelse(is.na(A)==FALSE & is.na(B)==FALSE,