0
的Unix计数线我有一个文本语料库和已经排序它通过频率:开始与相同数量的
tr ' ' '\n' < corpus.txt | sort | uniq -c | sort -nr
现在我想计数具有相同数字开头的所有行。
例如:
100 the
50 in
50 and
10 cat
10 dog
应该返回:
100 1
50 2
10 2
有没有办法做到这一点?
谢谢!