用熊猫加载大的CSV文件

我想加载一个csv文件（大约250 MB）作为熊猫的数据框。在我的第一次尝试中，我使用了典型的read_csv命令，但我收到了错误内存。我曾尝试在Large, persistent DataFrame in pandas使用块中提到的方法：用熊猫加载大的CSV文件

x=pd.read_csv('myfile.csv', iterator=True, chunksize=1000) 
xx=pd.concat([chunk for chunk in x], ignore_index=True)

但是当我试图来连接，我收到以下错误：异常：“通过所有的对象都没有”。事实上，我不能访问我使用winpython 3.3.2.1大块

与大熊猫0.11.0

你解决了这个问题吗？你升级到熊猫0.12.0吗？ – smci

是的，我安装了最后一个winpython 64位版本，它与my文件一起工作。我仍然需要测试更大的文件 – user2082695

我建议你安装winpython的64位版本的32位。然后，您应该可以毫无问题地加载250 MB文件。

2013-07-30 16:13:10

我迟到了，但发布代码的实际问题是使用pd.concat([chunk for chunk in x])有效地取消了分块的好处，因为它将所有这些块再次连接成一个大的DataFrame。
这可能甚至需要临时两倍的内存。

2016-04-12 20:47:14 Norman

回答