1
我正在使用Spark流处理放置在HDFS中的文件。具体使用JavaStreamingContext
类的textFileStream
方法。apache spark Streaming textFileStream - 读取gzip文件
由于方法名称包含'文本',我认为这只会读取文本文件,但令我惊讶的是它也读取gzip文本文件。
任何人都可以请澄清,如果这是预期的行为,它可以读取所有格式?
我正在使用Spark流处理放置在HDFS中的文件。具体使用JavaStreamingContext
类的textFileStream
方法。apache spark Streaming textFileStream - 读取gzip文件
由于方法名称包含'文本',我认为这只会读取文本文件,但令我惊讶的是它也读取gzip文本文件。
任何人都可以请澄清,如果这是预期的行为,它可以读取所有格式?
是的,Spark使用Hadoop的File I/O API,它透明地处理压缩格式。即使对于输出,您也可以配置应通过属性设置使用的压缩,API将处理它。