当我遇到术语'可拆分'时,我正在学习各种压缩编解码器。现在这个术语在我看到的任何互联网资源和书籍中都没有得到很好的解释,所以我想我可能会在这里错过一些微不足道的东西。我的第一个猜测是,某些编解码器将元数据作为标题/尾部添加到压缩文件中,这意味着如果一个压缩文件被分割为多个HDFS块进行存储,除非其所有分割都是分割的合并在一起。如果是这种情况,那么不可拆分文件的拆分(块)如何发送给映射器以便输入到MR应用程序?在Hadoop环境中,压缩编解码器的可拆分性是什么意思?
我知道一个事实,即Hadoop的不支持gzip(非裂开的编解码器),但我完全不明白怎么样。
有人能给出一个解释精细到什么是编解码器或非分割性的影响分享一些链接,这样做?从“Hadoop的权威指南”由汤姆·怀特,在Hadoop我的一章
很好的解释!谢谢。只有一个问题..是否使用文件扩展名确定压缩编解码器?如果我删除gzip文件的扩展名并将其提供给我的应用程序(它可能会失败,但我有兴趣了解相同的较低级别的详细信息) –
似乎几乎所有这些都是直接从书中引用。请看看:[如何引用其他人撰写的资料](http://stackoverflow.com/help/referencing)。除了为其他人的工作获得荣誉之外,这也是抢夺读者获得更多细节的机会。 –
感谢@JonEricson添加图书参考,错过了它。 –