我进行了小RNA测序并尝试分析结果fastq文件。来自vcountPattern的正确命中的提取序列R
首先,我使用ShortRead包导入的文件的fastq成R,并转换为DNAstringSet
reads <- readFastq("test.fq")
seq <- sread(reads)
要查找读取包含序列的特定字符串中,我使用vcountPattern从Biostrings库。为了我的分析目的,我必须允许突变和插入。
hit <-vcountPattern("TCTGCATTTAAGGCAAGTT", seq, max.mismatch=5, with.indels=TRUE)
我可以在这里做的是数数的读取包含 “TCTGCATTTAAGGCAAGTT”
sum (hit)
返回
[1] 11500
因此,有11500序列读取包含“TCTGCATTTAAGGCAAGTT”
但在此之上,w我想要的帽子是从fastq文件中提取对应于11500次读取的实际序列。
我该如何做到这一点?
hit
如果我只是这样做,它会给出一堆'0',少量'1',很少'2'。所以我相信这基本上是一个对应于每次阅读中点击次数的向量。
我试图使用这些信息提取序列信息,但无法实现。
任何帮助被赞赏!
供参考:用户正在使用Bioconducter软件包“ShortRead”https://darrenjw.wordpress.com/2010/11/29/a-quick-introduction-to-the-bioconductor-shortread-package-for-the-分析-的-NGS-数据/。除非你能给我们一个玩具fq文件,否则不容易复制这些代码。序列分析知识在这里很有用。 – Sean
亲爱的霍姆斯,我准备了一个玩具fastq文件,您可以从这里下载[link](https://drive.google.com/file/d/0ByEbUQPY_T_oci1fbDFHSHQ4WUk/view?usp=sharing)。当我使用这个fastq文件尝试我的脚本时,有3个正面点击。基本上我只想从fastq文件中提取正面的点击。我的原始fastq文件的大小比这大200倍。 – gdy
不要介意福尔摩斯,我看着你提供的链接,我已经从中得到了答案。 (读[hit])解决了问题 – gdy