2016-02-27 71 views
2

我对这些数据有一个新的问题。因为我的完整的数据具有这样参考R中data.table中的上一行,条件为

a=data.table(A=c(1:10),B=c(1,2,0,2,0,0,3,4,0,2),C=c(2,3,1,4,5,3,6,7,2,2),D=c(1,1,1,1,1,2,2,2,2,2)) 


#  A B C D 
# 1: 1 1 2 1 
# 2: 2 2 3 1 
# 3: 3 0 1 1 
# 4: 4 2 4 1 
# 5: 5 0 5 1 
# 6: 6 0 3 2 
# 7: 7 3 6 2 
# 8: 8 4 7 2 
# 9: 9 0 2 2 
#10: 10 2 2 2 

形式现在,我想创建一个新的列,其计算与B A倍数值的数量/衣柜前一行C,只要B是不是0.例如,在第2行中,我可以计算D = 2 *(1/2)。但是,第4行必须是4 *(2/3),不能是4 *(0/1)。 我使用

a[, D:= {i1 <- (NA^!B) 
list(A*shift(na.locf(i1*B))/shift(na.locf(i1*C)))},by=d] 

由于Akrun昨天推荐。它不起作用,当我计算它的结果是这样的

A B C d  D 
# 1: 1 1 2 1  NA 
# 2: 2 2 3 1 1.000000 
# 3: 3 0 1 1 2.000000 
# 4: 4 2 4 1 2.666667 
# 5: 5 0 5 1 2.500000 
# 6: 6 0 3 2  NA 
# 7: 7 3 6 2 3.500000 
# 8: 8 4 7 2 4.571429 
# 9: 9 0 2 2 5.142857 
# 10: 10 2 2 2  NA 

任何人都知道这里的问题是什么?错误是较长的对象长度不是较短的对象长度的倍数。

+0

什么将是d的第一个元素的输出? – akrun

+0

D的第一个元素的输出是NA –

回答

3

我们可以将'B','C'中对应'B'中'0'值的元素替换为NA。使用na.locfzoo替换那些NA值与先前的非NA元素,shift元素(默认情况下,它给出lag为1),将修改的列'B'除以'C',然后乘以'A' 。将输出分配(:=)到新列'D'。

library(zoo) 
a[B==0, c('B', 'C'):=list(NA, NA)] 
a[, c('B', 'C'):= na.locf(.SD), .SDcols=B:C] 
a[, D:= {tmp <- shift(.SD[, 2:3, with=FALSE]) 
      A*(tmp[[1]]/tmp[[2]])}] 

或者我们可以把它紧凑。我们得到一个逻辑向量(!B),检查'B'中的'0'元素,将其转换为1s和NA的向量(NA^),与列'B'和'C'相乘,以便1被替换为这些列中的相应元素,而NA保持原样。做na.locf(和以前一样),shift然后做乘法/除法。

a[, D:= {i1 <- (NA^!B) 
    list(A*shift(na.locf(i1*B))/shift(na.locf(i1*C)))}] 

代替或致电shift/na.locf两次

a[, D:= {i1 <- (NA^!B) 
     tmp <- shift(na.locf(i1*.SD)) 
     a[['A']]*(tmp[[1]]/tmp[[2]])}, .SDcols=B:C] 
+1

谢谢。你真的解决了我的问题。它也非常紧凑。 –

+0

嗨,@akrun,请你看一下吗? –

+0

@ThanhQuang YOu可能需要'... na.locf(i1 * B),na.rm = FALSE)/ shift(na.locf(i1 * C,na.rm = FALSE)...' – akrun

3

这可以通过滚动来实现连接:

a[, row := .I] 
a[, B/C, by=row][V1 != 0][a, A*shift(V1), on="row", roll=TRUE] 
# [1]  NA 1.000000 2.000000 2.666667 2.500000 3.000000 3.500000 4.000000 
# [9] 5.142857 5.714286