- 以前的其他问题没有回答我的问题!
我有一系列的大文件(200克)每每个文件进行排序并包含重复它看起来就像这样:从排序非常大的文件(每个200G)列表中删除重复项的最佳方法?
50.21.180.100|a.ac
50.21.180.100|a.ac
50.21.180.100|a.ac
50.21.180.100|a.ac
50.21.180.100|a.ac
50.21.180.100| b.ac
50.21.180.100| b.ac
50.21.180.100|b.ac
50.21.180.100|b.ac
50.21.180.100|b.ac
50.21.180.100| c.ac
50.21.180.100| c.ac
50.21.180.100|c.ac
50.21.180.100|c.ac
50.21.180.100|c.ac
50.21.180.100|c.ac
50.21.180.100| d.ac
预期输出:
50.21.180.100|a.ac
50.21.180.100|b.ac
50.21.180.100|c.ac
50.21.180.100|d.ac
是否有身体有任何建议去除这些重复的最佳方法(时间和记忆方面)?是否使用Linux bash或Python或其他语言?
有没有这样的事情 “* *最优化”。它可能是最优的,或者不是。另外,你是什么意思的最佳?最快的代码?最少的努力? – 2014-12-08 09:24:15
提供预期产出。 – 2014-12-08 09:26:22
@KolyolyHorvath我编辑了问题 – UserYmY 2014-12-08 09:26:32