我想修改一个脚本,以便它将从文本文件中删除重复的行,只使用该行的标题部分。删除重复的行只有标题
为了澄清文本文件中的行是这个样子:
Title|Image Url|Description|Page Url
在脚本执行删除重复的那一刻,但它通过阅读整条生产线,而不仅仅是第一部分这样做。文件中的所有行不会完全相同,但有一些会非常相似。
我想要删除包含相同“标题”的所有行,而不管该行的其余部分包含哪些行。
这是我一起工作的脚本:
import sys
from collections import OrderedDict
infile = "testfile.txt"
outfile = "outfile.txt"
inf = open(infile,"r")
lines = inf.readlines()
inf.close()
newset = list(OrderedDict.fromkeys(lines))
outf = open(outfile,"w")
lstline = len(newset)
for i in range(0,lstline):
ln = newset[i]
outf.write(ln)
outf.close()
到目前为止,我已经用.split()
分裂列表行尝试。我也尝试过.readline(lines[0:25])
,希望能够使用字符数限制来达到预期的结果,但目前为止还没有运气。我似乎也无法找到关于我确切问题的任何文档,所以我被卡住了。
我正在使用Windows 8和Python 2.7.9这个项目,如果有帮助。
谢谢!这正是我需要的。 – lostintranslation