对于使用spark streaming
的日志处理,我已经使用了socketStream
和textFileStream
API。通过socketStream,在特定的端口上使用nc -lk
,我们可以读取附加的日志文件,并且通过textFileStream,可以读取目录中添加的任何新文件并进行累计处理。Spark对单个日志文件进行累积处理
我所寻找的是一个单日志文件,随着时间的增长,我怎么能读取相同的日志文件转换为说:DSTREAM或任何Spark RDD
手柄,然后再处理它cummulatively。我不打算使用nc -lk
,因为它可能不是一般的方法。 Spark中是否有任何方法或API,我们可以在这里监听日志文件,并且可以将其添加到RDD
格式中进行读取和处理?
您可能想要考虑Kafka。 – Reactormonk