2016-06-09 20 views
0

的Unix计数线我有一个文本语料库和已经排序它通过频率:开始与相同数量的

tr ' ' '\n' < corpus.txt | sort | uniq -c | sort -nr 

现在我想计数具有相同数字开头的所有行。

例如:

100 the 
50 in 
50 and 
10 cat 
10 dog 

应该返回:

100 1 
50 2 
10 2 

有没有办法做到这一点?

谢谢!

回答

1

易与awk

$ awk '{count[$1]++} END {for (i in count) print i, count[i]}' file 
100 1 
10 2 
50 2 
0

只需调整你已经写了命令: -

cut -d' ' -f1 corpus.txt| sort -rn | uniq -c 

需要的输出是: -

1 100 
2 50 
2 10 
相关问题