řffdfdply分裂问题

我有其中R问题，ffdfdply功能řffdfdply分裂问题

a=as.ffdf(data.frame(b=11:20,c=c(4,4,4,4,4,5,5,5,5,5), d=c(1,1,1,0,0,0,1,0,1,1))) 

ffdfdply(a, split=a$c, FUN= function(x) {data.frame(cumsum(x$d))}, trace=T)

它产生的输出是简单地不考虑分割准则的累积和。

我需要这样的

输出我们可以包括“分裂”下的多个列？如果有人提供了一个例子，这将是非常棒的。

谢谢。

@jwijffels，我对另一组数据

i=as.ffdf(data.frame(a=c(1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,2), b=c(1,4,6,2,5,3,1,4,3,2,8,7,1,3,5,4,2,6,3,1,2), c=c(1,1,1,1,1,1,2,2,2,2,1,1,1,1,1,1,1,1,2,2,2), d=c(1,0,1,1,0,1,0,1,1,0,0,1,1,1,0,0,1,1,1,1,0)))

我收到的输出是不正确的测试解决方案。我需要a列和c列的累积和d列。

下面的步骤是正确的，给了正确的结果

idx <- ffdforder(i[c("a","c","b")]) 
ordered_i <- i[idx, ] 
ordered_i$key_a_c <- ikey(ordered_i[c("a", "c")])

，但是当我尝试累计总和，得到不正确的结果。

cumsum_i <- ffdfdply(ordered_i, split=as.character(ordered_i$key_a_c), FUN= function(x) { 
    ## Data in RAM, on which you can use data.table 
    x <- as.data.table(x) 
    result <- x[, cumsum_a_c := cumsum(x$d), by = list(key_a_c)] 
    as.data.frame(result) 
}, trace=T)

请帮忙。我需要在大数据上运行这些命令。

来源

2013-07-22 Ajay

可能重复[使用ffdfdply来拆分数据并获得每个id在拆分中的特征]（http://stackoverflow.com/questions/10981384/using-ffdfdply-to-split-data -and-GET-特性 - 的 - 每个-ID-中最分裂 – thelatemail

使用cumsum_a_c）：不是cumsum_a_c = cumsum（d）：= cumsum（X $ d）。这是FUN中正确的data.table语法。 – jwijffels

正确的用法将是

require(ffbase) 
require(data.table) 
a=as.ffdf(data.frame(b=11:20,c=c(4,4,4,4,4,5,5,5,5,5), d=c(1,1,1,0,0,0,1,0,1,1))) 
ffdfdply(a, split=as.character(a$c), FUN= function(x) { 
    ## Data in RAM, on which you can use data.table 
    x <- as.data.table(x) 
    result <- x[, cumsum := cumsum(d), by = list(c)] 
    as.data.frame(result) 
    }, trace=T)

如果你想通过2列拆分，只是做一个新列组合这两个列并将其用作分割。见?ikey创建该列

来源

2013-07-22 10:45:46 jwijffels

如果我们有一个大数据，那么我认为x < - as.data.table（x）会产生内存问题。 – Ajay

不，你不会有内存问题。你在'x'中得到的是'a'ffdf的一个子集，其中一个或多个拆分元素的数据组被放入RAM中。您放入RAM并在其上应用FUN的子集的大小由BATCHBYTES控制。 – jwijffels

谢谢...那是伟大的 – Ajay

阅读帮助是有点用在这里，从?ffdfdply

这个功能实际上并没有分割数据。为了减少数据在分割级别很多的情况下被放入RAM的次数，该功能提取根据BATCHBYTES可以将放入RAM的分割元素组。

与....

请确保你的乐趣覆盖的事实，一些裂元件可以在其上施加FUN 数据的一个大块。

所以从我的，阅读实际上你需要有一个分结合风格的功能对工作组的功能在你的ffdfdply以及调用。像这样利用ave：

a$c <- with(a, as.integer(c)) 
ffdfdply(
    a, 
    split=a$c, 
    function(x) data.frame(c=x$c,cumsum=ave(x$d,x$c,FUN=cumsum)), 
    trace=T 
)

结果：

来源

2013-07-22 10:33:51 thelatemail

谢谢..请纠正我，如果我错了。 BATCHBYTES在ffdfdply中发挥着重要作用。如果我们不确定数据，并且固定的BATCHBYTES将导致不一致的结果。你可以举一个例子，在拆分下包含多个列。 – Ajay

@Ajay - 我不是'ff'很内行，但它听起来像是'ffdfdply'能可能需要数分团成一个'BATCHBYTE'根据每个组的大小和BATCHBYTE'的'大小。因此，您必须拥有**另一个**分组功能，以防批次中存在> 1个组。 – thelatemail

是的，这就是为什么DOC状态“请确保你的乐趣覆盖的事实，一些裂元件可以在其上施加FUN一个数据块。” – jwijffels

řffdfdply分裂问题

回答

相关问题