0
我一直试图通过火花流从hadoop文件系统读取多个.gz
文件。有没有可能做到这一点?如果是的话,你能否提供给我一个解决方案如何通过火花流处理多个.gz文件?
我一直试图通过火花流从hadoop文件系统读取多个.gz
文件。有没有可能做到这一点?如果是的话,你能否提供给我一个解决方案如何通过火花流处理多个.gz文件?
基于时间戳的Spark Streaming进程文件,即只有那些在火花流开始之后被添加到特定路径的文件被处理。 Spark流不处理在流上下文开始之前放置的文件。
简单地说,流式处理不在旧数据上的实时数据。