我在此标记了python和perl,这是因为这是我迄今使用过的。如果有人知道更好的方式去做这件事,我当然愿意尝试一下。不管怎么说,我的问题:从文件中提取特定数据并将其写入另一个文件
我需要创建遵循以下格式的基因预测程序的输入文件:
seq1 5 15
seq1 20 34
seq2 50 48
seq2 45 36
seq3 17 20
其中SEQ#是geneID和编号,右边是的位置在开放阅读框内的外显子。现在我有了一个.gff3文件中的这个信息,它有很多其他的信息。我可以用excel打开它,并轻松删除不相关数据的列。下面是它的现在安排:
PITG_00002 . gene 2 397 . + . ID=g.1;Name=ORF%
PITG_00002 . mRNA 2 397 . + . ID=m.1;
**PITG_00002** . exon **2 397** . + . ID=m.1.exon1;
PITG_00002 . CDS 2 397 . + . ID=cds.m.1;
PITG_00004 . gene 1 1275 . + . ID=g.3;Name=ORF%20g
PITG_00004 . mRNA 1 1275 . + . ID=m.3;
**PITG_00004** . exon **1 1275** . + . ID=m.3.exon1;P
PITG_00004 . CDS 1 1275 . + . ID=cds.m.3;P
PITG_00004 . gene 1397 1969 . + . ID=g.4;Name=
PITG_00004 . mRNA 1397 1969 . + . ID=m.4;
**PITG_00004** . exon **1397 1969** . + . ID=m.4.exon1;
PITG_00004 . CDS 1397 1969 . + . ID=cds.m.4;
所以我只需要那就是大胆的数据。例如,
PITG_0002 2 397
PITG_00004 1 1275
PITG_00004 1397 1969
任何帮助你可以给予将不胜感激,谢谢!
编辑:好吧,我搞砸了格式。任何介于**之间的东西都是我需要的。
谢谢大家对你的答案。这一个特别成功。我想知道,是否有办法在不同基因的外显子之间放置一个空间?这样PITG_00004将被组合在一起而没有多余的线,但是那么例如在PITG_00002和PITG_00004之间会有一个额外的线? – user1784467