我有一个大的文本文件,谁的线路在此格式组成:如何从文本文件行中提取唯一字符串?
Query: 1586 cccaagatgagctgcagccccccagagagagctctgcacgtcaccaagtaaccaggcccc 1645
Sbjct: 27455708 cccaagatgagctgcagccccccagagagagctctgcacgtcaccaagtaaccaggcccc 27455649
Query: 1646 agcctccaggcccccaactccgcccagcctctccccgctctggatcctgcactctaacac 1705
Sbjct: 27455648 agcctccaggcccccaactccgcccagcctctccccgctctggatcctgcactctaacac 27455589
Query: 1706 tcgactctgctgctcatgggaagaacagaattgctcctgcatgcaactaattcaataaaa 1765
Sbjct: 27455588 tcgactctgctgctcatgggaagaacagaattgctcctgcatgcaactaattcaataaaa 27455529
对于每一行,我希望能够只同时去除其他字符(查询,sbjct提取AGTC的不同序列不同数量),从而使最终的字符串应该是这样
line1 = cccaagatgagctgcagccccccagagagagctctgcacgtcaccaagtaaccaggcccc
line2 = cccaagatgagctgcagccccccagagagagctctgcacgtcaccaagtaaccaggcccc
etc...
我一直工作在这一段时间,不能让它的工作。我试过重新模块和.translate
,但没有结果。我在python 3.4编程。谢谢!
有可能找到两个字符串之间的区别:http://stackoverflow.com/questions/17904097/python-difference-between-two-strings – 2014-10-12 04:24:07
正则表达式将工作,但要与'split()'相比非常慢' – 2014-10-12 04:32:06
你试过的代码在哪里?你的代码有什么问题? – jww 2014-10-12 05:20:13