我有很多相对较小的文件,大约有350.000行文字。 例如:如何合并多个文本文件,删除重复的行并将其余行分割为几个具有特定长度的文件?
文件1:
asdf
wetwert
ddghr
vbnd
...
sdfre
文件2:
erye
yren
asdf
jkdt
...
uory
正如你可以看到文件2的第3行是第1行的文件1. 重复我想一个程序/ Notepad ++插件,可以检查并删除多个文件中的这些重复项。
我遇到的下一个问题是,我希望所有列表都要合并成大的1.000.000行文件。 因此,举例来说,我有这些文件:
- 648563线
- 375924线
- 487036线
我希望他们能够得到这些文件:
- 1.000.000行
- 511.523行
而最后2个文件必须只包含唯一的行。 我该如何做到这一点?我可以为此使用一些程序吗?或者多个Notepad ++插件的组合? 我知道GSplit可以将1.536.243文件分割为1.000.000和536.243行的文件,但这还不够,并且不会删除重复项。
如果需要,我确实想创建自己的Notepad ++插件或程序,但我不知道如何以及从何处开始。
在此先感谢。
行号实际上是文件的一部分吗?如果是,他们需要被忽略重复检查,对吧?他们需要保存在输出中吗?必须保留这些行的顺序吗? – Pharaoh
@Pharaoh不是行号不是文件的一部分,行的顺序并不重要。 –
你想删除所有重复或保留其中之一? – Toto