我有2个文件,查找ID坐标
1) A B 2) A,chr1,startA,endA
C D B,chr1,startB,endB
B A C,chr1,startC,endC
D,chr1,startD,endD
我的期望输出,
A chr1 startA endA B chr1 startB endB
C chr1 startC endC D chr1 startD endD
B chr1 startB endB A chr1 startA endA
我尝试让我的CHR,开始和结束的第一个ID,但我不知道如何关联并附加第二个ID。
f1=open('input1','r')
f2=open('input2','r')
output = open('out.txt','w')
dictA= dict()
for line1 in f1:
listA = line1.strip('\n').split('\t')
dictA[listA[0]] = listA
for line1 in f2:
new_list=line1.rstrip('\r\n').split(',')
query=new_list[0]
chrom=new_list[1]
start=new_list[2]
end=new_list[3]
if query in dictA:
listA = dictA[query]
output.write(str(listA[0])+'\t'+str(listA[1])+'\t'+chrom+'\t'+start+'\t'+end+'\n')
output.close()
这看起来有点像床形式;除了什么是'A','B'等? –
基因ID's..我只是为了简单而写了AB – user3224522
那么不要在染色体数量前添加基因ID,他们应该以姓名的形式出现,参见官方扩展的BED格式说明:https://genome.ucsc.edu/ FAQ/FAQformat#format1 –