2015-07-13 26 views
1

假设我有以下pandas数据框:如何在Pandas中将当前行项目设置为更小(如果更小)?

table = [[datetime.datetime(2015, 1, 31), 1, 0.5], 
     [datetime.datetime(2015, 2, 27), 1, 2], 
     [datetime.datetime(2015, 3, 31), 1, 1.5], 
     [datetime.datetime(2015, 4, 30), 1, 0], 
     [datetime.datetime(2015, 5, 31), 1, 2], 
     [datetime.datetime(2015, 6, 30), 1, 1.2], 
     [datetime.datetime(2015, 7, 31), 1, 3], 
     [datetime.datetime(2015, 8, 31), 1, 0]] 

df = pd.DataFrame(table, columns=['Date', 'Id', 'Value']) 

     Date Id Value 
0 2015-01-31 1 0.5 
1 2015-02-27 1 2.0 
2 2015-03-31 1 1.5 
3 2015-04-30 1 0.0 
4 2015-05-31 1 2.0 
5 2015-06-30 1 1.2 
6 2015-07-31 1 3.0 
7 2015-08-31 1 0.0 

我希望通过df一个简单的方法来循环和Value当前元素设置为先前的,如果是小于或等于,如果添加一个布尔元素已被更改为前一个。但是,我对如何这样做感到茫然。由此产生的数据框将是:

 Date Id Value Altered 
0 2015-01-31 1 0.5 False 
1 2015-02-27 1 2.0 False 
2 2015-03-31 1 2.0 True 
3 2015-04-30 1 2.0 True 
4 2015-05-31 1 2.0 True 
5 2015-06-30 1 2.0 True 
6 2015-07-31 1 3.0 False 
7 2015-08-31 1 3.0 True 

回答

2

您可以使用cummax()来计算列的累积最大值。

商店cummax()作为一个临时变量,它与原来的列比较,以获得“改变”一栏,然后将其指定为新的“值”列结果:

temp = df.Value.cummax() 
df['Altered'] = df.Value < temp 
df['Value'] = temp 

这给:

>>> df 
     Date Id Value Altered 
0 2015-01-31 1 0.5 False 
1 2015-02-27 1 2.0 False 
2 2015-03-31 1 2.0 True 
3 2015-04-30 1 2.0 True 
4 2015-05-31 1 2.0 False 
5 2015-06-30 1 2.0 True 
6 2015-07-31 1 3.0 False 
7 2015-08-31 1 3.0 True 

(注值在“改变”指数4是假的,而不是真实的,因为值保持2.0)再次

+0

好奇的问题,为什么第4行不同于预期的结果? – deinonychusaur

+0

@deinonychusaur:索引4处的值在累积最大值栏中保持为2.0:未更改。 (也许这是OP预期输出中的拼写错误。) –

+0

我认为定义等于与文本中的OP表达式相同,如果这是相关的,则使其有点棘手。 – deinonychusaur

3

使用.cummax()获取最大值为最新。将其与Value列进行比较,看它是否被更改。

import pandas as pd 
import datetime 

table = [[datetime.datetime(2015, 1, 31), 1, 0.5], 
    [datetime.datetime(2015, 2, 27), 1, 2], 
    [datetime.datetime(2015, 3, 31), 1, 1.5], 
    [datetime.datetime(2015, 4, 30), 1, 0], 
    [datetime.datetime(2015, 5, 31), 1, 2], 
    [datetime.datetime(2015, 6, 30), 1, 1.2], 
    [datetime.datetime(2015, 7, 31), 1, 3], 
    [datetime.datetime(2015, 8, 31), 1, 0]] 

df = pd.DataFrame(table, columns=['Date', 'Id', 'Value']) 
df['New_Value'] = df.Value.cummax() 
df['Altered'] = df['New_Value'] > df['Value'] 

print(df) 


     Date Id Value New_Value Altered 
0 2015-01-31 1 0.5  0.5 False 
1 2015-02-27 1 2.0  2.0 False 
2 2015-03-31 1 1.5  2.0 True 
3 2015-04-30 1 0.0  2.0 True 
4 2015-05-31 1 2.0  2.0 False 
5 2015-06-30 1 1.2  2.0 True 
6 2015-07-31 1 3.0  3.0 False 
7 2015-08-31 1 0.0  3.0 True 
+0

谢谢,张建勋! – Tingiskhan

相关问题