2016-12-01 70 views
1

假设我有3列,组1,组2一DF &可变分组超过2列和在计算随后的组的利用价值

set.seed(1) 
group1 = c(rep(1,5),rep(2,5),rep(3,5),rep(4,5)) 
group2 = c("A","B","C","D","B","C","C","B","C","A","B","D") 
variable = c(as.integer(rnorm(20,2)**3)) 
df=data.frame(group1, group2, variable) 

我加入其中规定的列“MIN1”如果b的值'group1'内也存在于组1(x-1)中。副Versa加plus1。低于总数据帧:

group1 group2 variable min1 plus1 
1  1  A  3 0  0 
2  1  B  11 0  1 
3  1  C  2 0  1 
4  2  D  47 0  1 
5  2  B  13 1  1 
6  2  C  2 1  1 
7  3  C  16 1  0 
8  3  B  21 1  1 
9  3  C  18 1  0 
10  4  A  5 0  0 
11  4  B  44 1  0 
12  4  D  14 0  0 

现在我想做的计算如MAX()和SUM()(但也有一些更奇特的)上的变量,但不只是在自己的组别1 &内的所有值group2组合,但包括组之前(或之后)的值。 min1示例如下所示。

group1_min1 group2_min1 sum_min1 max_min1 
1   2   B  24  13 
2   2   C  4  2 
3   3   C  36  18 
4   3   B  34  21 
5   4   B  65  44 

注意,对于group1_min1(3),group2_min1(C)中使用三个值:行6,7 & 9(2,16 & 18)。

我尝试使用GROUP_BY和dplyr中总结,是这样的:

group_by(group1, group2) %>% 
summarize_each(funs(sum, max)) 

编辑:

我找到了解决之添加到原来的DF:

sum_min1 = c() 
j=0 
for (j in 1:(length(df$group1))){ 
    if (df[j,"min1"] == 0){sum_min1 = c(sum_min1,0)} else { 
    sum_min1 = c(sum_min1,(sum(df[which((df[,"group1"] == df[j,"group1"] | df[,"group1"] == (df[j,"group1"]-1)) & df[,"group2"]==(df[j,"group2"])),"variable"]))) 
    } 
} 
df = cbind(df,sum_min1) 

这提供输出:

group1 group2 variable min1 plus1 sum_min1 
1   1 A  3 0  0  0 
2   1 B  11 0  1  0 
3   1 C  2 0  1  0 
4   2 D  47 0  0  0 
5   2 B  13 1  1  24 
6   2 C  2 1  1  4 
7   3 C  16 1  0  36 
8   3 B  21 1  1  34 
9   3 C  18 1  0  36 
10  4 A  5 0  0  0 
11  4 B  44 1  0  65 
12  4 D  14 0  0  0 

但是,这似乎是一个非常粗糙的方式,可能需要很长时间才能处理大数据集,实际上也存在多个变量和多个函数。这也可能是一个问题,因为我想要做一些用户定义的函数,其中包括for循环的所有值。

有没有更好的方法来做到这一点?

对不起,我做错了,我是R和StackOverflow的新手,而不是母语。

+0

什么是b在'如果“内的B的值group1'' –

+0

而且其中规定的值,你说'group1(x-1)'是什么意思?我不明白你的符号。 – JWLM

+0

如果我用字母改变group2,也许更容易。 如果在组1中(例如第1,2和3行(全1)或第4,5,6(全部2)),组2中有特定的字母(例如df [6,2] = C)检查df [1:3,2]中是否存在C,因为该组(值为1)比组(C)(df [6,2])的组数小1,因此该行的值为0. 第11行为TRUE为此,因为B也在组1中(在第8行中值为4-1 = 3) – Paul

回答

0
# Data 
set.seed(1) 
group1 = c(rep(1,3),rep(2,3),rep(3,3),rep(4,3)) 
group2 = c("A","B","C","D","B","C","C","B","C","A","B","D") 
variable = c(as.integer(rnorm(12,2)**3)) 
df=data.frame(group1, group2, variable) 

对于第一部分 -

df$min1 <- sapply(seq(nrow(df)), function(x) 
      { 
      if(df[x, "group1"] == 1){0} else { 
      max(df[x, "group2"] %in% df[df$group1 == df[x,"group1"] - 1,"group2"])} 
      }) 

df$plus1 <- sapply(seq(nrow(df)), function(x) 
      { 
      if(df[x, "group1"] == max(df$group1){0} else { 
      max(df[x, "group2"] %in% df[df$group1 == df[x,"group1"] + 1,"group2"])} 
      }) 

第二部分

df$sum_min1 <- sapply(seq(nrow(df)), function(x) 
       { 
       if(df[x, "group1"] == 1){0}else{ 
        sum(df[df$group1 == df[x,"group1"] & 
         df$group2 == df[x,"group2"],"variable"], 
         df[df$group1 == df[x,"group1"] - 1 & 
         df$group2 == df[x,"group2"],"variable"])} 
       }) 
+0

在第二部分中,我想对列变量中的值执行一些功能。他们应该采取的值如下: 组1中具有与组2相同值的所有值(因此第7和9行在组1中均为'B',值为3,它们的变量值为16和18。然而,求和函数不仅应该考虑那些2,而且也应该考虑第6行,因为它也具有值B,但是在小于行7和9的组中。总和应该是2 + 16 + 18。 也可以使用这些计算的列,但当min1或plus1也为零时,也可以使用零。 – Paul

+0

检查更新的脚本。如果有效,请将答案标记为正确。 –