2015-05-05 135 views
1

我正在使用Spark流处理放置在HDFS中的文件。具体使用JavaStreamingContext类的textFileStream方法。apache spark Streaming textFileStream - 读取gzip文件

由于方法名称包含'文本',我认为这只会读取文本文件,但令我惊讶的是它也读取gzip文本文件。

任何人都可以请澄清,如果这是预期的行为,它可以读取所有格式?

回答

1

是的,Spark使用Hadoop的File I/O API,它透明地处理压缩格式。即使对于输出,您也可以配置应通过属性设置使用的压缩,API将处理它。