2016-07-25 122 views
1

我不会“大数​​据” :)ELK卡夫卡和Hadoop

我的情况是一对夫妇的EC2实例比生产日志专家。

这些日志基本上是Syslog和应用程序事件(自定义日志)。

我想使用ELK堆栈来捕获日志,应用过滤器和显示数据。

在某些情况下,我想将自定义事件发送到专用队列系统(rabbitMQ)以处理数据(推荐引擎)。

我的问题是,为什么我应该使用像Kafka和Hadoop这样的工具,如果基本上,我想用24h保留解析日志,并使用Debian中的日志旋转功能移动它们?

非常感谢您的帮助!和对不起我的英语不好^^

+0

它听起来并不像你需要Kafka或Hadoop来获取数据到ELK部分。有Logstash的插件可以将系统日志中的数据导入ES。 –

+0

对不起,可能这个问题似乎很愚蠢,但在所有教程中,我已经看到他们在ELK堆栈前使用Hadoop或Kafka。 – Dario

+0

您不需要Kafka进行点对点集成,但大多数人会使用它来提供多个下游接收器,并同时用它替换RabbitMQ以提供推荐引擎。 –

回答

0

如果有人有兴趣我已经解决了这种方式:

1 - 而是用旋转我选择使用云Watch服务中默认的日志,基本上它从EC2获取日志并将其存储在云中。

2 - 将数据推送到Logstash我使用了Lambda服务,基本上它是一个可以执行Java,Javascript(Nodejs)或Python代码的环境。它从CloudWatch获取流式数据流,我选择通过小型Nodejs脚本将日志存储在S3上。

3 - Logstash实例直接从S3使用日志,因此有一个用于该目的的插件输入。