2013-07-30 103 views
4

我想加载一个csv文件(大约250 MB)作为熊猫的数据框。在我的第一次尝试中,我使用了典型的read_csv命令,但我收到了错误内存。 我曾尝试在Large, persistent DataFrame in pandas使用块中提​​到的方法:用熊猫加载大的CSV文件

x=pd.read_csv('myfile.csv', iterator=True, chunksize=1000) 
xx=pd.concat([chunk for chunk in x], ignore_index=True) 

但是当我试图来连接,我收到以下错误:异常:“通过所有的对象都没有”。事实上,我不能访问我使用winpython 3.3.2.1大块

与大熊猫0.11.0

+0

你解决了这个问题吗?你升级到熊猫0.12.0吗? – smci

+0

是的,我安装了最后一个winpython 64位版本,它与my文件一起工作。我仍然需要测试更大的文件 – user2082695

回答

2

我建议你安装winpython的64位版本的32位。然后,您应该可以毫无问题地加载250 MB文件。

0

我迟到了,但发布代码的实际问题是使用pd.concat([chunk for chunk in x])有效地取消了分块的好处,因为它将所有这些块再次连接成一个大的DataFrame。
这可能甚至需要临时两倍的内存。