2016-11-30 317 views
2

因此,我对包Pandas有所了解。 我正在做一些关于ETF策略的背部测试,我需要对Pandas Dataframe做很多查询。用日期时间索引或列查询Python Pandas DataFrame

所以我们可以说我这两个DataFrames,DF和DF1,唯一的区别是: DF有日期时间指数,而DF1有时间戳列和整数指数

In[104]: df.head() 
Out[104]: 

         high  low open close volume openInterest 
2007-04-24 09:31:00 148.28 148.12 148.23 148.15 2304400  341400 
2007-04-24 09:32:00 148.21 148.14 148.14 148.19 2753500  449100 
2007-04-24 09:33:00 148.24 148.13 148.18 148.14 2863400  109900 
2007-04-24 09:34:00 148.18 148.12 148.13 148.16 3118287  254887 
2007-04-24 09:35:00 148.17 148.14 148.16 148.16 3202112   83825 

In[105]: df1.head() 
Out[105]: 

       dates high  low open close volume openInterest 
0 2007-04-24 09:31:00 148.28 148.12 148.23 148.15 2304400  341400 
1 2007-04-24 09:32:00 148.21 148.14 148.14 148.19 2753500  449100 
2 2007-04-24 09:33:00 148.24 148.13 148.18 148.14 2863400  109900 
3 2007-04-24 09:34:00 148.18 148.12 148.13 148.16 3118287  254887 
4 2007-04-24 09:35:00 148.17 148.14 148.16 148.16 3202112   83825 

所以我测试了查询速度一点点:

In[100]: %timeit df1[(df1['dates'] >= '2015-11-17') & (df1['dates'] < '2015-11-18')] 
%timeit df.loc[(df.index >= '2015-11-17') & (df.index < '2015-11-18')] 
%timeit df.loc['2015-11-17'] 
100 loops, best of 3: 4.67 ms per loop 
100 loops, best of 3: 3.14 ms per loop 
1 loop, best of 3: 259 ms per loop 

令我吃惊的是,使用内置了大熊猫的逻辑其实是最慢的:

df.loc['2015-11-17'] 

有谁知道这是为什么? 是否有任何文件或博客有关最有效的方式来查询熊猫DataFrame?

回答

0

如果我是你,我会用更简单的方法:

df['2015-11-17'] 

在我看来,这将是更多的“熊猫逻辑”比使用.loc[]单个日期。我猜测它也更快。

测试一分钟OHLC数据帧:

%timeit df.loc[(df.index >= '2015-11-17') & (df.index < '2015-11-18')] 
%timeit df.loc['2015-11-17'] 
%timeit df['2015-11-17'] 

100 loops, best of 3: 13.8 ms per loop 
1 loop, best of 3: 1.39 s per loop 
1000 loops, best of 3: 486 us per loop 
+0

谢谢,伙计!我也对它进行了测试,最简单的方法是最快的,因为它应该是。你知道我在哪里可以得到关于与熊猫查询不同方法的全貌吗? –

+0

[http://pandas.pydata.org/pandas-docs/stable/indexing.html](http://pandas.pydata.org/pandas-docs/stable/indexing.html)这是一个开始 –

+0

哈哈我实际上现在正在看它,再次感谢很多! –

相关问题