2014-06-14 87 views
3

我试图根据列中的条件重复DataFrame中的行值。如果在列变化= 1的值,然后我想重复列中的值A,B,和C直至下一个变化= 1基于条件的熊猫DataFrame重复值

index = pandas.date_range('20000131', periods=5) 
columns = ['A', 'B', 'C', 'Change'] 

data = {'A': pandas.Series([False, True, False, True, False], index=index) 
    , 'B': pandas.Series([True, True, False, False, False], index=index) 
    , 'C': pandas.Series([True, False, True, True, True], index=index) 
    , 'Change' : pandas.Series([1,0,0,1,0], index=index)} 

结果:

   A  B  C Change 
2000-01-31 False True True  1 
2000-02-01 True True False  0 
2000-02-02 False False True  0 
2000-02-03 True False True  1 
2000-02-04 False False True  0 

期望结果:

   A  B  C Change 
2000-01-31 False True True  1 
2000-02-01 False True True  0 
2000-02-02 False True True  0 
2000-02-03 True False True  1 
2000-02-04 True False True  0 

这是最接近我已经能够使用移()得到的,但它只能持续一排。我需要它坚持N行。在下面的例子中,它在第三行(或者第二行以0基数)分解。

print pandas.DataFrame(numpy.where(pandas.DataFrame(df['Change']==1) 
    , df, df.shift())) 

结果:

 0  1  2 3 
0 False True True 1 
1 False True True 1 
2 False True False 0 
3 True False True 1 
4 True False True 1 

谢谢。

回答

5

你可以在更改== 0填充行与南和ffill:

In [11]: df.loc[df.Change != 1, ['A', 'B', 'C']] = numpy.nan 

In [12]: df 
Out[12]: 
      A B C Change 
2000-01-31 0 1 1  1 
2000-02-01 NaN NaN NaN  0 
2000-02-02 NaN NaN NaN  0 
2000-02-03 1 0 1  1 
2000-02-04 NaN NaN NaN  0 

In [13]: df.ffill() 
Out[13]: 
      A B C Change 
2000-01-31 0 1 1  1 
2000-02-01 0 1 1  0 
2000-02-02 0 1 1  0 
2000-02-03 1 0 1  1 
2000-02-04 1 0 1  0 

如果你需要这些是布尔列,然后在每一列使用astype(bool)

顺便说一句,你可以这与重采样(除了最后缺少的行和列更改):

In [14]: df[df.Change == 1].resample('D', fill_method='ffill') 
Out[14]: 
      A B C Change 
2000-01-31 0 1 1  1 
2000-02-01 0 1 1  1 
2000-02-02 0 1 1  1 
2000-02-03 1 0 1  1 
+1

感谢安迪!你已经回答了我在这里搜索的大部分问题。填补作品完美。我其实更喜欢1和0。我感谢快速帮助。 – tkfbristol