bioinformatics

    1热度

    1回答

    我尝试这样做: proteins <- read.pdb("exampleFile.pdb") 然后我试图蛋白质转换成数据帧: as.data.frame(proteins) 但R的说,它不能强迫类 “C(” PDB “” SSE “)”到数据框。我正在使用bio3d软件包。

    -1热度

    2回答

    是否有用于检测和从16S,WGS除去嵌合序列的任何工具,WTS以外USearch序列。另一种方法应该是开源的,这样它可以被用于商业用途。

    1热度

    1回答

    对于GEO研究从GEO检索数据表标头,我想获得数据表头的描述,在研究的所有样品特别是“值”列。 如果go here,然后向下滚动,然后点击其中一个样品:我们选择“GSM2644971”。然后,向下滚动,你应该看到“数据表头说明”及以下,你应该看到“值进行标准化(提供的归一化法)平均贝塔”。这些信息是我想要的。 我尝试使用Biobase包中的assayData(),但我不知道该方法是以样本,样本矩阵

    -1热度

    1回答

    我有两个文件f1.fasta和f2.fasta。我想比较f1和f2中的序列,但也可以得到核苷酸不同的位置,以便我可以替换它们。例 f1 FASTA :例 f2 FASTA >VFG0127 ATGCCTGGAAATATA... >VFG0007 TTAGGCATATTTCAT... : >VFG0127 ATGCCTGGXXXTATA... >VFG0007 TTAJG

    1热度

    1回答

    我一直在尝试使用Bio.Align.Applications中的Mafft对齐工具。目前,我已经成功地将序列信息写入临时文本文件,然后由MafftCommandline()读取。但是,我希望尽可能避免多余的步骤,所以我一直试图使用io.StringIO()写入内存文件。这是我遇到问题的地方。我无法让MafftCommandline()读取由io.StringIO()创建的内部文件。我已经确认内部文

    1热度

    1回答

    这是一个非常简单的生物信息学实现的自我对齐矩阵与它使用滑动窗口运算符​​两次在字符串序列上循环两次,并比较相同序列的每个fra2。 下面的代码非常慢,不知道如何使用标准R语法加速它。在python中这将会超快,但是在R中需要1分钟。通过同时分配i,j和j,i,我已经将计算减少了一半。 任何加快思路? sequence = 'MNLDIHCEQLSDARWTELLPLLQQYEVVRLDDCGLTE

    2热度

    2回答

    我有一个xyz.txt文件,其格式如下。 AATGCC AAGAAA AAGGAA AAGGTA AAGCAG AAGCGA 所有我想做的事就是上传中,我做了这个命令R环境: library(Biostrings) string <- read.table("/home/Folder/MY_FOLD/MYZ/mp.txt") 现在因为我想通过这个命令来获得四种核苷酸序列的频率: st

    2热度

    1回答

    给定一个(比方说4)MicroRNA和关系列表(pictar,rna22,...)的列表, 返回所有关系中所有MicroRNA共有的目标TargetGenes列表。 我想通过这样做,但它不工作... MATCH (n:microRNA)-[r]->(n:Target) WHERE r.name='RNA22v2' OR r.name='PicTar' RETURN n 但它并没有给我任何

    1热度

    2回答

    我试图计算斯皮尔曼的等级相关性,其中每个实验的数据(tsv与名称和等级)存储在目录中的单独文件中。 以下是输入文件的格式: #header not present #geneName value ENSMUSG00000026179.14 14.5648627685587 ENSMUSG00000026179.14 0.652158034413075 ENSMUSG00000026179.

    0热度

    1回答

    标题可能有点不清楚,但为了给出一个简单的解释,我正在将一些生物网络如蛋白质网络应用于编程。我想使用广度优先搜索来计算一些值。下面是我当前使用的网络的一个例子: 在一个侧面说明,仅仅因为一个节点未命名并不意味着它不是一个节点。只是意味着它的名字对于网络来说并不重要。 简单的例子: 我在这里的问题是,我需要表示该网络有数据结构,这是我需要使用来计算每个节点的2个值: 节点的信号路径数量(从输入到输出有