我正在做一个生物学学位,感觉我已经在Python的深处抛出了,因为我从来没有编码过,而'教学'几乎不存在。无论如何,他们已经给了基因序列的这个文件,它几乎看起来像:如何使用Python上的字典更改文件中的值
En123, ATGCCGAATA
En124, ATGCCAGTAT
但更多的方式基因更长的时间。他们希望它转换成蛋白质序列。 到目前为止,我有...
with open('DNA_sequences.csv', 'r') as f:
for line in f:
columns = line.rstrip("\n").split(",") #remove end of line charcters and split at commas to produce a list
ensemblID = columns[0] #ensemblID is first element in our list
gene_sequence = columns [1] #gene_name is second element in list
不知道,如果我需要的列或不。
我也制作了蛋白质序列的字典,其中含有氨基酸和相应的密码子。
protein_sequence= {'TTT': 'F', 'CTT': 'L', 'GAT':'D'} etc.
所以我不知道如何我在文件到密码子分裂的基因序列,然后使其通过字典,所以我得到的氨基酸名称序列。
i.e. gene_sequence= TTTCTTTGAT to protein_sequence= FLD
(对不起,这么无能!)
是否总是3个字符的氨基酸? – RichSmith
你会用什么阅读框?转发1? –
您是否需要将起始密码子作为TAC,对应于甲硫氨酸? –