分裂大文件分成小文件

我有有数千个值的数量一样的文本文件。。。。 n分裂大文件分成小文件

我知道我们可以使用awk来分离这些值。但是有没有办法可以在不同的文本文件中获取第一个10,20,40,80,160 ....，n个值。

我使用Python这样做，但它需要大量的时间去这些files.Here分开是蟒蛇

import numpy as np 
from itertools import islice 
data = np.loadtxt('ABC.txt', 
       unpack=True, 
       delimiter=',', 
       skiprows=1) 
n = 10 
iterator = list(islice(data[0], n)) 
for item in range(n): 
np.savetxt('output1.txt',iterator,delimiter=',',fmt='%10.5f') 

iterator = list(islice(data[0], n*2)) 
for item in iterator: 
np.savetxt('output2.txt', iterator, delimiter=',',fmt='%10.5f') 

iterator = list(islice(data[0], n*4)) 
for item in iterator: 
np.savetxt('output3.txt', iterator, delimiter=',',fmt='%10.5f') 

iterator = list(islice(data[0], n*8)) 
for item in iterator: 
np.savetxt('output4.txt', iterator, delimiter=',',fmt='%10.5f')

等的示例代码。

是否有更好的方式在bash或python中做到这一点。先谢谢你！

来源

2017-06-05 Jinay Jani

'np.loadtxt'负载一切在一次到内存中。你需要一个迭代器。标准Python的'open'提供了一个迭代器接口。不过，你必须自己解析。 – ForceBru

期望的结果是什么？一堆文件，每个文件都有来自第一列和10,20，... n个第一行的数据？你的_n有多大？_ – 9000

@ 9000：是的，你是对的，这些文件有大约36000个条目 –

一个低效的，但快速实施apprach

s=5; for i in {1..10}; do ((s*=2)); head -$s file > sub$i; done

，因为这些文件是重叠的，会有更好的办法，但根据文件的大小和多少次它需要重复这可能是够好了。

来源

2017-06-05 20:13:16 karakfa

谢谢你对我的工作 –

你没有提供任何样品的输入和预期的输出和你的问题的文字有歧义所以这只是一个猜测，但是这可能是你在找什么：

$ seq 1000 | awk -v c=10 'NR==c{print; c=2*c}' 
10 
20 
40 
80 
160 
320 
640

如果没有，那么编辑你的问题澄清。

来源

2017-06-05 20:12:33

SED是你的朋友：

$ numlines=$(wc -l big_text_file.txt | cut -d' ' -f1) 

$ step=100 

$ echo $numlines 
861 

$ for ((ii=1; ii<=$numlines; ii+=$step)); do echo $ii,$((ii+step-1))w big_text_file.${ii}.txt; done > break.sed 

$ cat break.sed 
1,100w big_text_file.1.txt 
101,200w big_text_file.101.txt 
201,300w big_text_file.201.txt 
301,400w big_text_file.301.txt 
401,500w big_text_file.401.txt 
501,600w big_text_file.501.txt 
601,700w big_text_file.601.txt 
701,800w big_text_file.701.txt 
801,900w big_text_file.801.txt 

$ sed -n -f break.sed big_text_file.txt 

$ wc -l big_text_file*.txt 
    100 big_text_file.101.txt 
    100 big_text_file.1.txt 
    100 big_text_file.201.txt 
    100 big_text_file.301.txt 
    100 big_text_file.401.txt 
    100 big_text_file.501.txt 
    100 big_text_file.601.txt 
    100 big_text_file.701.txt 
    61 big_text_file.801.txt 
    861 big_text_file.txt 
    1722 total

来源

2017-06-05 20:23:40 Jack

这可以简单地用'split -l 100 ...' – karakfa

那么，只是没有乐趣！：P – Jack

现在你可以声称你实现了'split'命令。 – karakfa

分裂大文件分成小文件

回答

相关问题