大熊猫时间序列重新采样某一天

我怀疑很多人的数据已经遇到此问题的时间序列，和熊猫的工作似乎并没有提供一个简单的解决方案结束（尚未！）：大熊猫时间序列重新采样某一天

假设：

您有一系列收盘价日常数据的时间序列，按日期（日期）进行了索引。
今天是19JUN。最后关闭数据值是18JUN。
您想要将日常数据重新采样到OHLC柱，并以某个给定的频率（假设M或2M）结束18JUN。

所以对于M频率，最后一棒是19MAY-18JUN，前一个19APR-18MAY，等等...

ts.resample('M', how='ohlc')

会做重采样，但 'M' 是“end_of_month '期间，所以结果会给予2014-05的整整一个月和2014-06的2周期限，所以你最后的酒吧不会是'月度酒吧'。这不是我们想要的！

由于2M频率，考虑到我的样本时间序列，我的测试给了我最后一个小节标签为2014-07-31（以前标签为2014-05-31），这是相当误导性的，因为没有关于JUL的数据。 ..所谓的最后2个月酒吧再次只是覆盖最近的2周。

正确DatetimeIndex容易与创建：

pandas.date_range(end='2014-06-18', freq='2M', periods=300) + datetime.timedelta(days=18)

（熊猫文档更喜欢通过

pandas.date_range(end='2014-06-18', freq='2M', periods=300) + pandas.tseries.offsets.DateOffset(days=18)

做同样的事情，但我的测试表明，该方法虽然较为“pandaïc”是2x更慢！）

无论采用哪种方法，我们都无法将正确的DatetimeIndex应用于ts.resample（）。

似乎熊猫开发团队（Date ranges in Pandas）已经意识到这个问题，但与此同时，您如何解决这个问题才能让OHLC的滚动频率在时间序列的最后一天处于停滞状态？

来源

2014-06-19 comte

这基本上是从复制/粘贴黑客一起，我敢肯定在某些情况下失败 - 但下面是一个自定义偏移的一些起始代码，该代码是锚定到一个月中的特定日期。

from pandas.tseries.offsets import (as_datetime, as_timestamp, apply_nat, 
           DateOffset, relativedelta, datetime) 
class MonthAnchor(DateOffset): 
    """DateOffset Anchored to day in month 

     Arguments: 
     day_anchor: day to be anchored to 
    """ 

    def __init__(self, n=1, **kwds): 
     super(MonthAnchor, self).__init__(n) 

     self.kwds = kwds 
     self._dayanchor = self.kwds['day_anchor'] 

    @apply_nat 
    def apply(self, other): 
     n = self.n 

     if other.day > self._dayanchor and n <= 0: # then roll forward if n<=0 
      n += 1 
     elif other.day < self._dayanchor and n > 0: 
      n -= 1 

     other = as_datetime(other) + relativedelta(months=n) 
     other = datetime(other.year, other.month, self._dayanchor) 
     return as_timestamp(other) 

    def onOffset(self, dt): 
     return dt.day == self._dayanchor 

    _prefix = ''

用法示例：

In [28]: df = pd.DataFrame(data=np.linspace(50, 100, 200), index=pd.date_range(end='2014-06-18', periods=200), columns=['value']) 

In [29]: df.head() 
Out[29]: 
       value 
2013-12-01 50.000000 
2013-12-02 50.251256 
2013-12-03 50.502513 
2013-12-04 50.753769 
2013-12-05 51.005025 


In [61]: month_offset = MonthAnchor(day_anchor = df.index[-1].day + 1) 

In [62]: df.resample(month_offset, how='ohlc') 
Out[62]: 
       value         
       open  high  low  close 
2013-11-19 50.000000 54.271357 50.000000 54.271357 
2013-12-19 54.522613 62.060302 54.522613 62.060302 
2014-01-19 62.311558 69.849246 62.311558 69.849246 
2014-02-19 70.100503 76.884422 70.100503 76.884422 
2014-03-19 77.135678 84.673367 77.135678 84.673367 
2014-04-19 84.924623 92.211055 84.924623 92.211055 
2014-05-19 92.462312 100.000000 92.462312 100.000000

来源

2014-06-19 18:22:58 chrisb

看来，如果day_anchor是>例如28（用于FEB最后一天）失败，有一个“ValueError异常：白天是超出范围的一个月” – comte

大熊猫时间序列重新采样某一天

回答

相关问题