fasta

    0热度

    1回答

    我不得不浏览我的字典以获取我的所有基因的分类群,并且每次遇到分类群时,我都打开.fasta文件,并使用相同的名称,并且在此fasta文件中必须查找我在分类学研究中遇到的geneID。这是可能的,因为在我制作词典的文件中有“taxon1 | geneID1,taxon1 | geneID2,taxon2 | geneID1,...”。所以,当我在特定的fasta文件中遇到特定的geneID时,我必须

    2热度

    1回答

    我试图子集的一个FASTA文件(包含多个序列)转换成基于ID的几个较小的余存储在数据帧(和 的列表 我有一个名为fastafile这样FASTA: fastafile <- dput(fastafile) structure(list(r1 = "acatattggaggccgaaacaatgaggcgtgatcaactcagtatatcac", r2 = "ctaacctctccca

    0热度

    2回答

    我有一个FASTA文件(FAS2),其具有约1000 FASTA序列,这里是FASTA序列的夫妇例如: >gi|108863165-BAdV-2 ATGGCTACTCCTTCGATGATGCCGCAGTGGTCTTACATGCACATCGCCGGGCAGGATGCCTCCGA >gi|108863163-BAdV-1 ATGGCGACGCCGTCGATGATGCCCCAGTGGTCGTACA

    -3热度

    2回答

    读我有一个FASTA文件,它看起来像这样: 我想这一点: sequence1: ATGCACCGT sequence2: GACCTAGCA 结果。 我该怎么办? 编辑: 我会试着重新制定它, 所以我有一个(FASTA)文件,具有多个行。 某些行具有特殊字符(>)作为第一个字符。我不需要这些行,但是这些行显示了第一个序列结束的位置,以及另一个开始的位置。 我想它读入两个单独字符串 第一个字符

    1热度

    1回答

    我有一个fasta文件,序列很少,我想执行窗口大小为5的滑动窗口,并在序列扫过时提取序列。 例如(test1.fasta): > human1 ATCGCGTC > human2 ATTTTCGCGA 预期输出(test1_out.txt): > human1 ATCGC > human1 TCGCG > human1 CGCGT > human1 GCGTC > human2 ATTTT > h

    1热度

    3回答

    我知道这应该很简单,但我无法让它工作。我的文件看起来像这样 >c12345|random info goes here that I want to delete AAAAATTTTTTTTCCCC >c45678| more | random info| here GGGGGGGGGGG 我想要做的只是让这个简单得多,所以可能看起来像这样 >seq1 [organism=human]

    0热度

    4回答

    比如我有以下 序列的FASTA文件: >human1 AGGGCGSTGC >human2 GCTTGCGCTAG >human3 TTCGCTAG 如何使用Python来阅读以下的内容来提取 序列的文本文件? 1代表真,0代表假。将仅提取具有值1 的序列。 示例文本文件: 0 1 1 预期输出: >human2 GCTTGCGCTAG >human3 TTCGCTAG

    4热度

    1回答

    我似乎一直在努力编写DCG来解析输入文件。但它似乎应该很简单?是否有任何提示或技巧来思考这个问题? 对于一个具体的例子,可以说我想解析一个fasta文件。 (https://en.wikipedia.org/wiki/FASTA_format)。我想阅读每个描述和每个序列的后面跟踪。 :- use_module(library(pio)). :- use_module(library(dcg/b

    0热度

    1回答

    所以我有一个问题,从一个较大的(> GB)文本文件中提取文本。该文件的结构如下: >header1 hereComesTextWithNewlineAtPosition_80 hereComesTextWithNewlineAtPosition_80 hereComesTextWithNewlineAtPosition_80 andEnds >header2 hereComesText

    2热度

    1回答

    我是python编程的新手,尝试解析fasta文件并计算属于文件中每个ID的读取次数(这里使用玩具示例但,计划用于宏基因组seq文件,每个主题读取1-100,000条记录)。我想获得的输出将是什么样的文本文件: Total reads: 8 Mean read length: 232.5 Median: 234.5 Mode: 250 Max: 250 Min: 209 Sample