如何通过火花流处理多个.gz文件？

我一直试图通过火花流从hadoop文件系统读取多个.gz文件。有没有可能做到这一点？如果是的话，你能否提供给我一个解决方案如何通过火花流处理多个.gz文件？

2016-12-26 Abu Tahir

-1

基于时间戳的Spark Streaming进程文件，即只有那些在火花流开始之后被添加到特定路径的文件被处理。 Spark流不处理在流上下文开始之前放置的文件。

简单地说，流式处理不在旧数据上的实时数据。

2016-12-26 12:28:30

回答