3

我正在建立一个分布式实时集群系统来监督和分析一个网络。我做互联网上的一些研究,我想出了一些技术:logstah vs火花流和风暴

  • 实时处理:logstash,风暴和Apache流
  • 存储:elasticsearch
  • 分析:Apache的星火在Hadoop的(我将使用ES-的Hadoop与Elasticsearch连接)
  • 用于数据可视化:kibana,D3js,c3js

然而,logstash没有经常提到火花流和风暴。我在网上找到了下面的图片呈现以下结构:

enter image description here

我有两个问题:

  1. 我不明白为什么logstash不经常提到作为一个真正的添处理系统如火花流和风暴。主要原因是什么?我一直在使用它,它是非常强大的..

  2. 关于分析部分,我可以在该配置中使用机器学习库?

+1

也许我的问题并不清楚,但我所问的是什么可能是不选择logstash关于火花流和风暴的主要原因?对于这个问题我很难回答,因为我在互联网上找不到任何比较。 再次感谢您。 –

回答

2
  1. Logstash不是集群流处理系统。它只是一个基于JVM的过程。最新版本支持磁盘缓冲区,但没有与Spark或Storm几乎相同的交付担保。看看http://storm.apache.org/releases/1.0.3/Guaranteeing-message-processing.html
  2. 是的但不确定为什么首先使用Elastic存储数据。为什么不HDFS-> SparkML->弹性?这里主要想到的是管理模型,培训和测试。