我已经下载了1000个基因组.vcf文件大得多(60X):文件解压缩时使用比从1000genomes网站。广州
wget ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502//*.gz
我试图使用gzip解压缩这些文件,但它们解压缩到一个比原件大得多。例如,第一个文件(对于染色体1)是1.1gb的压缩文件,但扩展到了65.78gb。
认为这可能是gzip的问题,我尝试了其他两种方法。一种是直接在.gz文件上运行注释工具snpEff,另一种是使用zcat来解压文件。但是,在这两种情况下,文件大小都相当巨大。
我认为这不可能是正确的,但不知道为什么是这种情况。有没有人遇到类似的东西?
嗯......我认为我们必须明白,一个'compressed'文件比原来的'uncompressed'文件的尺寸更小......我不认为这是一个异常,实际上,它是很正常,至少在这个领域...... – Hackerman
你从哪里得到原始文件大小? FTP站点似乎只提供压缩版本。检查文件的开始和结束;它看起来正确吗? –
我知道一个压缩文件会更小,但是可能会减少大小吗?文件的开始和结尾看起来应该如此。 – spiral01