我有处理日志文件数据的要求。这是相对微不足道的。我有4台服务器,每台服务器上运行2个Web应用程序,共计8个日志文件。这些会定期轮换。我写在下面的格式数据转换成这些日志文件处理日志文件:Apache Storm或Spark
来源时间戳:9340398; 39048039; 930483; 3940830
当数字是在数据存储的标识符。我想设置一个读取这些日志的进程,并且对于每个id,它将根据其id已经被记录的次数来更新计数。它可以是实时的或批量的。我对数据存储的界面语言是Java。该流程在生产中运行,因此需要具有强大的功能,但也需要具有相对简单的体系结构以便维护。我们也运行zookeeper。
我最初的想法是每当在每个服务器上运行Apache Spark的日志文件旋转时都要这样做。然而,我后来看到了像Apache Flume,Kafka和Storm这样的日志加速器,但是这看起来好像过火了。
鉴于众多的选择,任何人都有什么好的建议,根据经验使用哪些工具来处理这个问题?
也许像[logstash](https://www.elastic.co/products/logstash)这样的解决方案可以被使用吗?一般来说,这些问题都是关于SO的话题。 –
嗨,我看了Logstash,它似乎更倾向于过滤类型的操作。我同意这个问题不适合SO章程。 –