2012-07-22 37 views
5

我想按时间间隔聚合一个数据框,对每列应用不同的功能。我想我几乎有aggregate下来,并已将我的数据与chron包的间隔分开,这很容易。R:具有列特定功能的聚合

但我不知道如何处理子集。所有的映射函数*apply,*ply都带有一个函数(我希望某些东西需要一个函数向量应用每列或变量,但没有找到),所以我正在编写一个函数我的数据框子集,并给我所有变量的意思,除了“时间”,这是指数,和“径流”应该是总和。

我尝试这样做:

aggregate(d., list(Time=trunc(d.$time, "00:10:00")), function (dat) with(dat, 
list(Time=time[1], mean(Port.1), mean(Port.1.1), mean(Port.2), mean(Port.2.1), 
mean(Port.3), mean(Port.3.1), mean(Port.4), mean(Port.4.1), Runoff=sum(Port.5)))) 

这将是丑陋足够,即使它没有给我这个错误:

Error in eval(substitute(expr), data, enclos = parent.frame()) : 
    not that many frames on the stack 

还告诉我,我真的做错了什么。从我见过的R中我认为必须有一种优雅的方式来做到这一点,但它是什么?

dput:

d. <- structure(list(time = structure(c(15030.5520833333, 15030.5555555556, 
15030.5590277778, 15030.5625, 15030.5659722222), format = structure(c("m/d/y", 
"h:m:s"), .Names = c("dates", "times")), origin = structure(c(1, 
1, 1970), .Names = c("month", "day", "year")), class = c("chron", 
"dates", "times")), Port.1 = c(0.359747, 0.418139, 0.417459, 
0.418139, 0.417459), Port.1.1 = c(1.3, 11.8, 11.9, 12, 12.1), 
    Port.2 = c(0.288837, 0.335544, 0.335544, 0.335544, 0.335544 
    ), Port.2.1 = c(2.3, 13, 13.2, 13.3, 13.4), Port.3 = c(0.253942, 
    0.358257, 0.358257, 0.358257, 0.359002), Port.3.1 = c(2, 
    12.6, 12.7, 12.9, 13.1), Port.4 = c(0.352269, 0.410609, 0.410609, 
    0.410609, 0.410609), Port.4.1 = c(5.9, 17.5, 17.6, 17.7, 
    17.9), Port.5 = c(0L, 0L, 0L, 0L, 0L)), .Names = c("time", 
"Port.1", "Port.1.1", "Port.2", "Port.2.1", "Port.3", "Port.3.1", 
"Port.4", "Port.4.1", "Port.5"), row.names = c(NA, 5L), class = "data.frame") 

回答

8

你的方法有很多错误。一般的建议是不要直截了当地认为最终的陈述应该是这样的,而是一步一步地做事,否则就会使调试(理解和修复错误)变得相当困难。

例如,你可以有开始:

aggregate(d., list(Time=trunc(d.$time, "00:10:00")), identity) 

注意到有什么不对您的拆分变量。显然aggregate不喜欢使用这类数据。您可以通过转换Time到数字解决这个问题:

aggregate(d., list(Time=as.numeric(trunc(d.$time, "00:10:00"))), identity) 

这时可以尝试

aggregate(d., list(Time=as.numeric(trunc(d.$time, "00:10:00"))), apply.fun) 

其中apply.fun是用户定义的函数。这种失败,相当criptic消息,但运行

aggregate(d., list(Time=as.numeric(trunc(d.$time, "00:10:00"))), print) 

有助于实现这里面aggregateFUN功能不是针对每个数据块调用一次(并通过了data.frame),但它是为每一列调用一次(并传递了一个未命名的向量),因此您无法使用aggregate获得想要的结果。

取而代之,您可以使用plyr包中的ddply函数。在那里,应用于每件作品的功能确实收到数据。框架所以你可以做这样的事情:

apply.fun <- function(dat) with(dat, data.frame(Time=time[1], 
               mean(Port.1), 
               mean(Port.1.1), 
               mean(Port.2), 
               mean(Port.2.1), 
               mean(Port.3), 
               mean(Port.3.1), 
               mean(Port.4), 
               mean(Port.4.1), 
               Runoff=sum(Port.5))) 

d.$Time <- as.numeric(trunc(d.$time, "00:10:00")) 
library(plyr) 
ddply(d., "Time", apply.fun) 

#   Time mean.Port.1. mean.Port.1.1. mean.Port.2. mean.Port.2.1. 
# 1 15030.5520833 0.4061886   9.82 0.3262026   11.04 
# mean.Port.3. mean.Port.3.1. mean.Port.4. mean.Port.4.1. Runoff 
# 1  0.337543   10.66  0.398941   15.32  0 

编辑:在下面的第一个评论@roysc问题后续行动,你可以这样做:

apply.fun <- function(dat) { 
    out <- as.data.frame(lapply(dat, mean)) 
    out$Time <- dat$time[1] 
    out$Runoff <- sum(dat$Port.5) 
    return(out) 
} 
+0

好吧,我想我明白这一点更好一点。我习惯于强类型语言,并发现R的类强制方案令人困惑。我也想知道的是,如果有一种简单的方法来采取大多数colums的意思,但是专门对待一个,而不是明确地做。我是否必须将df分开然后重新组合列? – scry 2012-07-22 19:10:58

1

这个怎么样?

library(plyr) 
ddply(d., .(time), colMeans) 
+0

这错过了这样的事实,其中一列不应该有意思,而是总和 – Chase 2012-07-22 20:15:32

+0

我注意到,但更有用的答案来了。我会更新这个。 – Maiasaura 2012-07-22 22:28:00

5

使用by而不是aggregate

如果f是samee,除了list您的匿名函数内部它被替换data.frame使f <- function(dat) with(dat, data.frame(...whatever...))则:

d.by <- by(d., list(Time = trunc(d.$time, "00:10:00")), f) 
d.rbind <- do.call("rbind", d.by) # bind rows together 

# fix up row and column names 
rownames(d.rbind) <- NULL 
colnames(d.rbind) <- colnames(d.) 

我们可以删除其指定的列名,如果f添加的名称本身的最后一条语句而不仅仅是Time