2017-07-19 127 views
1

我有一个熊猫数据框(df)与我想基于另一个熊猫DataFrame(dfIdx)中的信息相加的信息与相同的列和索引。特别是,如果df的形式如下:累积和熊猫DataFrame与指标DataFrame

df = pd.DataFrame([[172770, 1442, 114581],[35464, 67062, 175285],[124399, 14294, 44104],[50608, 58802, 189253],[1000, 10000, 100000]],columns=['A','B','C']) 

和dfIdx以下形式的:在df

dfIdx = pd.DataFrame([[0, 0, 1], [0, 0, 0], [0, 1, 0], [1, 1, 0],[0,0,1]],columns=['A','B','C']) 

我想要的结果是行的累积和的行之前和包括在dfIdx中值为1。所以结果应该是这样的:

 A  B  C 
0  0  0 114581 
1  0  0  0 
2  0 82798  0 
3 383241 58802  0 
4  0  0 508642 

对于额外的信用,我想就能够灵活地累积和如何追溯到包括贡献。例如,如果累积和窗口为1,然后我只希望在一个最上一行包括,赋予结果:

 A  B  C 
0  0  0 114581 
1  0  0  0 
2  0 81356  0 
3 175007 58802  0 
4  0  0 289253 

我意识到我给原来的例子并没有提供所有的我想要的行为例子,因此,建议的解决方案是不完整的。我用另一行增加了数据以提供更多不同的行为。

+0

如果有帮助,提出的解决方案如果我将'df_group'修改为'dfIdx.loc [list(reversed(dfIdx.index))]。cumsum()。loc [dfIdx.index,x.name]'',下面的@ScottBoston似乎可以工作。还有其他建议吗? – DrTRD

回答

2

编辑以满足新的需求和扩大数据集

df_out = (df.apply(lambda x: x.groupby(dfIdx.loc[::-1,x.name].cumsum().replace(0,pd.np.nan).bfill()) 
          .transform('cumsum') 
          .mul(dfIdx[x.name]))) 

输出:

 A  B  C 
0  0  0 114581 
1  0  0  0 
2  0 82798  0 
3 383241 58802  0 
4  0  0 508642 

更新额外的分数:

n=1 #for summing 1 pervious value 
df_out = (df.apply(lambda x: x.groupby(dfIdx.loc[::-1,x.name].cumsum().replace(0,pd.np.nan).bfill()) 
           .rolling(n+1,min_periods=1).sum().reset_index(level=0,drop=True) 
           .mul(dfIdx[x.name]))) 

输出:

  A  B   C 
0  0.0  0.0 114581.0 
1  0.0  0.0  0.0 
2  0.0 81356.0  0.0 
3 175007.0 58802.0  0.0 
4  0.0  0.0 289253.0 

注:你是如此接近使用reversed你的观察。我正在做同样的事情。这完全是关于你如何分组dfIdx。


让我们尝试:

df_out = (df.apply(lambda x: x.groupby(dfIdx[x.name].cumsum().replace(0,pd.np.nan).bfill()) 
          .transform('cumsum') 
          .mul(dfIdx[x.name]))) 

输出:

 A  B  C 
0  0  0 114581 
1  0  0  0 
2  0 82798  0 
3 383241 58802  0 

而对于 “加分”,其中n = 1,我们使用的2滚动周期:

n=1 #for summing 1 pervious value 
df_out = (df.apply(lambda x: x.groupby(dfIdx[x.name].cumsum().replace(0,pd.np.nan).bfill()) 
           .rolling(n+1,min_periods=1).sum().reset_index(level=0,drop=True) 
           .mul(dfIdx[x.name]))) 

输出:

  A  B   C 
0  0.0  0.0 114581.0 
1  0.0  0.0  0.0 
2  0.0 81356.0  0.0 
3 175007.0 58802.0  0.0 

如何?

第1步得到的分组中dfIdx:

df_group = dfIdx.cumsum()\ 
    .replace(0,pd.np.nan)\ 
    .bfill() 

    A B C 
0 1.0 1.0 1 
1 1.0 1.0 1 
2 1.0 1.0 1 
3 1.0 2.0 1 

第2步使用分组做 '变换' 或DF '滚动'。

df_out = df.apply(lambda x: x.groupby(df_group)        
    .rolling(n+1,min_periods=1) 
    .sum() 
    .reset_index(level=0,drop=True)) 

      A  B   C 
0 172770.0 1442.0 114581.0 
1 208234.0 68504.0 289866.0 
2 159863.0 81356.0 219389.0 
3 175007.0 58802.0 233357.0 

第3步让我们的面具或更换与dfIdx 0对准这些值,我们可以使用多个

df_out.mul(dfIdx)

  A  B   C 
0  0.0  0.0 114581.0 
1  0.0  0.0  0.0 
2  0.0 81356.0  0.0 
3 175007.0 58802.0  0.0