我写了这个代码重复在多个元素的函数
import sys
file = open(sys.argv[1], 'r')
string = ''
for line in file:
if line.startswith(">"):
pass
else:
string = string + line.strip()
#print (list(string))
w = input("Please enter window size:")
test = [string[i:i+w] for i in range (0,len(string),w)]
seq = input("Please enter the number of sequences you wish to read:")
#print (test[0:seq])
它会产生看起来像这 -
['TAAAACACCC', 'TCAATTCAAG', 'GGTTTTTGAG', 'CGAGCTTTTT', 'ACTCAAAGAA', 'TCCAAGATAG', 'CGTTTAAAAA', 'TTTAGGGGTG', 'TTAGGCTCAG', 'CATAGAGTTT']
现在,下一步就是读取一个列表的列表在列表的每个元素中出现GC
(或可以是CG
)的字母。有通过列表以这样的方式,输出文件看起来像一个地遍历:
Segment 1- The %GC is <the calculated number>
Segment 2- The %GC is <the calculated number>
Segment 3- The %GC is <the calculated number>
由于文件是wayy到大,段的数量i(列表等'TAAGATATA'
的每个单独的元件)将越来越巨大我不知道如何获得输出文件中的段的数字(1,2,3 ...)。另外,因为我是python(和编程)的新手,我不太擅长使用函数。
向我们展示您迄今为止编写的代码,兄弟 –
我不明白这个问题 - 您能给出一个更明确的例子,在这种情况下什么是Segments? –
@ TheodrosZelleke-它的一个生物程序。将花费很多时间来解释,而且是不必要的。我想要的是循环遍历文件,以便我可以得到段(list = segemnt的每个元素)编号及其相应的GC%(我可以小心) –