2015-09-29 138 views
2

我有一个熊猫数据框,其中包含不同时间尺度的信息,即某些时期我每秒钟有100个数据点,其他时期我每分钟有1个数据点。熊猫 - 重采样 - 下采样前的上采样

我的目标是用固定的时间窗(例如:1秒)重新采样这个数据帧,使用上次采样时的正则化和下采样的均值。另外,我希望指定算法执行这两种操作(缩减采样和上采样)的顺序,因为我需要上采样(使用最后一个)首先执行,而下采样(使用均值)仅在之后执行。

这是否可以使用熊猫重采样功能?例如,在下面的示例代码中,我希望结果数据框中包含以下值:0到10秒之间的0.5(平均值),10到19秒之间的0(最后一个)以及19和10之间的10 39秒。

import pandas as pd 
import numpy as np 

df1 = pd.DataFrame({'value' : np.repeat(1,10)}, index=pd.date_range('2010-01-01 00:00:00', periods=10, freq='1S')) 
df2 = pd.DataFrame({'value' : np.repeat(0,10)}, index=pd.date_range('2010-01-01 00:00:00.5', periods=10, freq='1S')) 
df3 = pd.DataFrame({'value' : np.repeat(10,3)}, index=pd.date_range('2010-01-01 00:00:19', periods=3, freq='10S')) 

df = pd.concat([df1, df2, df3], axis=0) 
df = df.sort_index() 

df.resample(rule='1S', fill_method='ffill', kind='timestamp', how='mean') 

你是怎么建议我解决这个问题的?

编辑:我真正的数据框很大,所以我想尽量减少操作的数量,特别是那些涉及对象复制。

回答

1

首先你的传统重采样与采样:

df_new = df.resample(rule='1S') 

其次采样,你update你的下采样数据,但不覆盖它。您填写与填充向前向上取样数据的空白:

df_new.update(df.resample(rule='1S', fill_method='ffill', kind='timestamp', how='last'), 
       overwrite=False) 

>>> df_new 
        value 
2010-01-01 00:00:00 0.5 
2010-01-01 00:00:01 0.5 
2010-01-01 00:00:02 0.5 
2010-01-01 00:00:03 0.5 
2010-01-01 00:00:04 0.5 
2010-01-01 00:00:05 0.5 
2010-01-01 00:00:06 0.5 
2010-01-01 00:00:07 0.5 
2010-01-01 00:00:08 0.5 
2010-01-01 00:00:09 0.5 
2010-01-01 00:00:10 0.0 
2010-01-01 00:00:11 0.0 
2010-01-01 00:00:12 0.0 
2010-01-01 00:00:13 0.0 
2010-01-01 00:00:14 0.0 
2010-01-01 00:00:15 0.0 
2010-01-01 00:00:16 0.0 
2010-01-01 00:00:17 0.0 
2010-01-01 00:00:18 0.0 
2010-01-01 00:00:19 10.0 
2010-01-01 00:00:20 10.0 
2010-01-01 00:00:21 10.0 
2010-01-01 00:00:22 10.0 
2010-01-01 00:00:23 10.0 
2010-01-01 00:00:24 10.0 
2010-01-01 00:00:25 10.0 
2010-01-01 00:00:26 10.0 
2010-01-01 00:00:27 10.0 
2010-01-01 00:00:28 10.0 
2010-01-01 00:00:29 10.0 
2010-01-01 00:00:30 10.0 
2010-01-01 00:00:31 10.0 
2010-01-01 00:00:32 10.0 
2010-01-01 00:00:33 10.0 
2010-01-01 00:00:34 10.0 
2010-01-01 00:00:35 10.0 
2010-01-01 00:00:36 10.0 
2010-01-01 00:00:37 10.0 
2010-01-01 00:00:38 10.0 
2010-01-01 00:00:39 10.0 

不能混合上采样/在一个单一的resample操作下采样。我不确定为什么操作顺序对您来说很重要,只要您获得理想的结果即可。

+0

感谢您的回答,我不清楚您必须多次调用resample。 –