2017-02-21 26 views
2

我很努力地用R以Variant Call Format(VCF)格式阅读我的表格。 每个文件都有一些以“##”开头的注释行,然后标题,以“#”开头。阅读R表中以“##”开头的评论行

## contig=<ID=OTU1431,length=253> 
## contig=<ID=OTU915,length=253> 
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT /home/sega/data/bwa/reads/0015.2142.fastq.q10sorted.bam 
Eubacterium_ruminantium_AB008552 56 . C T 228 . DP=212;AD=0,212;VDB=0;SGB=-0.693147;MQ0F=0;AC=2;AN=2;DP4=0,0,0,212;MQ=59 GT:PL 1/1:255,255,0 

我该如何读取这样的表格而不会丢失标题? 函数read.table使用()与comment.char =“##”返回一个错误:“无效的‘comment.char’参数”

回答

3

如果你想读的VCF,你也可以只尝试使用readVcf来自生物软件中的VariantAnnotation。 https://bioconductor.org/packages/release/bioc/html/VariantAnnotation.html

否则,我可以强烈建议fread函数在data.table中。 它允许您使用跳过参数来允许它在找到子字符串时开始导入。

例如

fread("test.vcf", skip = "CHROM") 

应该工作。

+2

** fread **功能与_skip_ argumernt真的很有帮助。谢谢。 –