基于条件的熊猫DataFrame重复值

我试图根据列中的条件重复DataFrame中的行值。如果在列变化= 1的值，然后我想重复列中的值A，B，和C直至下一个变化= 1基于条件的熊猫DataFrame重复值

index = pandas.date_range('20000131', periods=5) 
columns = ['A', 'B', 'C', 'Change'] 

data = {'A': pandas.Series([False, True, False, True, False], index=index) 
    , 'B': pandas.Series([True, True, False, False, False], index=index) 
    , 'C': pandas.Series([True, False, True, True, True], index=index) 
    , 'Change' : pandas.Series([1,0,0,1,0], index=index)}

结果：

   A  B  C Change 
2000-01-31 False True True  1 
2000-02-01 True True False  0 
2000-02-02 False False True  0 
2000-02-03 True False True  1 
2000-02-04 False False True  0

期望结果：

   A  B  C Change 
2000-01-31 False True True  1 
2000-02-01 False True True  0 
2000-02-02 False True True  0 
2000-02-03 True False True  1 
2000-02-04 True False True  0

这是最接近我已经能够使用移（）得到的，但它只能持续一排。我需要它坚持N行。在下面的例子中，它在第三行（或者第二行以0基数）分解。

print pandas.DataFrame(numpy.where(pandas.DataFrame(df['Change']==1) 
    , df, df.shift()))

结果：

 0  1  2 3 
0 False True True 1 
1 False True True 1 
2 False True False 0 
3 True False True 1 
4 True False True 1

谢谢。

来源

2014-06-14 tkfbristol

你可以在更改== 0填充行与南和ffill：

In [11]: df.loc[df.Change != 1, ['A', 'B', 'C']] = numpy.nan 

In [12]: df 
Out[12]: 
      A B C Change 
2000-01-31 0 1 1  1 
2000-02-01 NaN NaN NaN  0 
2000-02-02 NaN NaN NaN  0 
2000-02-03 1 0 1  1 
2000-02-04 NaN NaN NaN  0 

In [13]: df.ffill() 
Out[13]: 
      A B C Change 
2000-01-31 0 1 1  1 
2000-02-01 0 1 1  0 
2000-02-02 0 1 1  0 
2000-02-03 1 0 1  1 
2000-02-04 1 0 1  0

如果你需要这些是布尔列，然后在每一列使用astype(bool)。

顺便说一句，你可以近这与重采样（除了最后缺少的行和列更改）：

In [14]: df[df.Change == 1].resample('D', fill_method='ffill') 
Out[14]: 
      A B C Change 
2000-01-31 0 1 1  1 
2000-02-01 0 1 1  1 
2000-02-02 0 1 1  1 
2000-02-03 1 0 1  1

来源

2014-06-14 00:20:17

感谢安迪！你已经回答了我在这里搜索的大部分问题。填补作品完美。我其实更喜欢1和0。我感谢快速帮助。 – tkfbristol

基于条件的熊猫DataFrame重复值

回答

相关问题