2012-09-06 26 views
2

我有20个大的CSV(每个100-150MB)文件,我想在R中加载,然后将它们放在一个大文件中并执行我的分析。读取每个CSV文件仅在一个内核上执行,大约需要7分钟。我在64位8核心Linux与16GB内存,所以资源不应该是一个问题。如何有效地读取和重新绑定大型CSV文件?

有什么办法可以更有效地执行这个过程吗?我也可以使用其他(开源的linux)软件(例如将CSV文件绑定到不同的程序中并加载到R中)或任何可以使此过程更快的任何软件。

非常感谢您

+5

看到这个答案:http://stackoverflow.com/a/1820610/602276 – Andrie

+0

出于好奇,你用什么功能,你等待7分钟? –

+1

Andrie的链接有助于读取.csv部分,而http://stackoverflow.com/a/12252047/403310应该帮助完成'rbind'部分。你可以在'data.frame'和'data.table'上使用'rbindlist'。 –

回答

1

也许你想要一个像paste的功能。这是一个合并文件行的bash函数。