2017-07-28 234 views
1

我想在熊猫中创建一个有条件的列以及之前的值和其他列。熊猫自我条件列

import pandas as pd 
import numpy as np 
a = np.random.standard_normal(100) 
A = pd.DataFrame(a) 
A['Out'] = 0 
A['Out2'] = 0 
for t in range(1,A.shape[0]): 
    if (A[0][t] > 1) & (A['Out'][t-1]==0): 
     A['Out'][t] = 1 
    elif (A[0][t] < -1) & (A['Out'][t-1]==0): 
     A['Out'][t] = -1 
    elif ((A[0][t] > 0) & (A['Out'][t-1]==-1)) | ((A[0][t] < 0) & (A['Out'][t-1]==1)): 
     A['Out'][t] = 0 
    else: 
     A['Out'][t] = A['Out'][t-1] 
A['Out2'] = np.where((A.index== 0),0 
     ,np.where((A[0] > 1) & (A['Out2'].shift()==0), 1 
     ,np.where((A[0] < -1) & (A['Out2'].shift()==0), -1 
     ,np.where(((A[0] > 0) & (A['Out2'].shift()==-1)) | ((A[0] < 0) & (A['Out2'].shift()==1)), 0 
     ,A['Out2'].shift())))) 

列A ['Out2']试图以向量化形式复制A ['Out'],但不读取以前的值。列A ['Out']花费很长时间才能通过循环进行编译。有人能以更快,矢量化的方式帮助我创建此专栏吗?

+1

你能提供您所需的输出和输入的例子? – asongtoruin

回答

1

您可以创建一个函数,然后使用apply。要访问以前的数据,您可以使用一个变量来存储该值。希望以下代码有所帮助。

import pandas as pd 
import numpy as np 
a = np.random.standard_normal(100) 
A = pd.DataFrame(a) 
state = 0 
def get_val(A,prev_state): 
    global state 
    if (A > 1) & (prev_state==0): 
     state = 1 
    elif (A < -1) & (prev_state==0): 
     state = -1 
    elif ((A > 0) & (prev_state==-1)) | ((A < 0) & (prev_state==1)): 
     state = 0  
    return state 

A['Out'] = A[0].apply(lambda x: get_val(x,state)) 

输出:

 
      0 Out 
0 1.366864 1  
1 0.887763 1  
2 -0.663636 0  
3 -1.824950 -1  
4 0.459663 0  
5 -1.325129 -1  
6 1.587188 0  
7 -0.148159 0  
8 0.578862 0  
9 0.758460 0  

如果使用%%timeit

100 loops, best of 3: 2.16 ms per loop 
+0

这是完美的...感谢您的快速反应! –

+0

不客气@random_black。当你获得足够的声望时,不要忘记加注 – Dark