2015-06-05 45 views
1

我将内置的csv阅读器与Pandas的read_csv进行了比较。前者显着较慢。但是,由于内存限制,我需要传输csv文件。什么流式csv阅读器与熊猫一样快或几乎一样快?什么是流式传输大型CSV文件的最快方式?

+2

为什么你不能使用熊猫? –

+0

熊猫不会流。它将数据加载到内存中。我不需要将DataFrame加载到内存中。我只需要逐行处理并转储到另一个文件。 – Fabian

+0

你确定csv的阅读是慢的部分吗? –

回答

1

在pandas.read_csv您可以使用“CHUNKSIZE”选项,如果你这样做,通过大熊猫返回的对象将是(类型TextFileReader)迭代器,当遍历会返回一个数据帧阅读过NUMBER_OF_ROWS < = CHUNKSIZE(直到我阅读源代码时,我才意识到这个选项存在...)。

+1

请把这个答案写出来,目前它不比只在SO上皱起眉头的链接回答更好,谢谢 – EdChum

+0

这是正确的答案。 – ianalis

相关问题