我想将大小为50GB的大文本文件拆分为多个文件。中的文件数据 像这 - [X =任何0-9之间的整数]将大文本文件(大约50GB)拆分为多个文件
xxx.xxx.xxx.xxx
xxx.xxx.xxx.xxx
xxx.xxx.xxx.xxx
xxx.xxx.xxx.xxx
...............
...............
可能有文件中的行的几十亿,我想例如30/40每秒百万文件写入。 我猜的步骤将是─
- 我已经打开文件
- 然后使用的ReadLine()必须按行读取文件行,同时写入新文件
- 一旦它达到最大行数,它将创建另一个文件,并且 开始再次写入。
我在想,如何把所有这些步骤放在一个高效,快速的内存中。我已经看到了一些堆栈示例,但没有一个完全帮助我确切需要。如果有人能帮助我,我会很感激。
在Python中如何做是比仅使用split更好的解决方案? –
'readline()'不是你实际想要经常使用的函数 - Python文件本身就是懒惰的可迭代对象 - 只是用'for'循环遍历它。 –
是的,你还没有显示出它需要在Python中完成的任何理由。使用Unix命令,或者[Windows上的Cygwin'split'](http://stackoverflow.com/questions/4128442/shell-command-to-split-large-file-into-10-smaller-files)。 – smci