(熊猫0.16.1,2.7.8的Python 2.1.0蟒蛇(64位),英特尔至强3.07GHz,Win7的64位)蟒蛇大熊猫read_csv如何加快处理时间戳
我有一个CSV表报价数据。每天约40万行。
sym time bid ask bsize asize
[email protected] 2014.05.07T08:10:02.407 1.3927 1.3928 28 29
[email protected] 2014.05.07T08:10:02.430 1.3927 1.3928 27 29
要与熊猫阅读此成Python
pd.read_csv("quotes.csv", parse_dates = {'idx':[1]}, index_col = 'idx')
约需40秒。
任何想法,如果这可以做得更快?人们提出了Cython解决方案in this post,但我不知道Python/pandas解决方案是否存在?
顺便说一句,这下面不解析日期,一个错误?
pd.read_csv("quotes.csv", parse_dates = [1])
我的速度慢了多少t与'parse_dates'?我不认为cython真的会在这里帮助(或者不值得努力,但我可能是错的)。你也可以像文本一样阅读文本,然后转换为日期时间。 – JohnE
@JohnE这是40秒,parse_dates读取400k行。以字符串形式读取并稍后解析需要大致相同的时间 - 解析速度很慢。 – jf328