1
有一个ecoli.ffn
文件与表示测序的基因的名称的行:如上所示提取每个测序数据作为单个文件
$head ecoli.ffn
>ecoli16:g027092:GCF_000460315:gi|545267691|ref|NZ_KE701669.1|:551259-572036
ATGAGCCTGATTATTGATGTTATTTCGCGT
AAAACATCCGTCAAACAAACGCTGATTAAT
>ecoli16:g000011:55989:gi|218693476|ref|NC_011748.1|:1128430-1131042
GTGTACGCTATGGCGGGTAATTTTGCCGAT
>ecoli16:g000012:55989:gi|218693476|ref|NC_011748.1|:1128430-1131042
GTGTACGCTATGGCGGGTAATTTTGCCGAT
CTGACAGCTGTTCTTACACTGGATTCAACC
CTGACAGCTGTTCTTACACTGGATTCAACC
,基因名称是第一和第二结肠之间:
g027092
g000011
g000012
我想用ecoli.ffn
生成三个文件:g027092.txt
,g000011.txt
,g000012.txt
,包含每个测序数据。
例如,g027092.txt
将包含原始数据,但不头:
$cat g027092.txt
ATGAGCCTGATTATTGATGTTATTTCGCGT
AAAACATCCGTCAAACAAACGCTGATTAAT
如何制作的?
嗨@karakfa,你能解释一下吗? –
完成。 awk是如此强大以及正则表达式。 – Ming
干杯@karafka !!! –