我有一个巨大的文件,看起来像这样:Python 2.7。如果在2行以上发现的字符串,只保留第一行
CAV-1 ATCTACTTCTATCG
CAV-2 GCGCGTAGCTAGCT
CAV-2 AAGCGCTCGTAAAA
CAV-3 AAATATATATATCC
使用Python,我想删除其重复串线,在这种情况下, “CAV-2”。具有该字符串的第一行将保留。我会得到这样的:
CAV-1 ATCTACTTCTATCG
CAV-2 GCGCGTAGCTAGCT
CAV-3 AAATATATATATCC
我知道如何使用正则表达式,并通过线来分析,但我不能够做到这一点的具体任务。
我知道如何使用
是您的文件总是排序? – RomanPerekhrest
分割线,把第一部分作为关键字,并检查每一行,如果第一部分已经是一个字典键。 –
嗨@Psidom,我不想删除重复行,我想删除包含重复正则表达式的行。这是我熟悉的功能,但欢迎其他选择。 – Lucas