2016-08-25 36 views
-1

任何人都可以推荐我可以探索哪种技术,如果我在Cassandra表(3节点群集)中有一个大型数据集,而且我需要对每天收到的记录执行总和操作。如此计算的计数需要在MySQL表中更新。Spark Storm或Flink - 大数据分析

目前我使用普通的Java执行使用SQL和CQL查询,但它很慢,并且在未来的数据会呈指数级增长,这些任务。

任何人都可以提出可以探索的技术,以最快的方式和最低的开发时间完成这项任务。

+0

问题要求我们推荐或找到一本书,工具,软件库,教程或其他非本地资源是堆栈溢出的话题,因为它们倾向于吸引自以为是的答案和垃圾邮件。相反,[描述问题](http://meta.stackoverflow.com/questions/254393/what-exactly-is-a-recommendation-question)以及到目前为止已经做了什么来解决它。 – eliasah

回答

0

没有多少推荐,它只取决于你的任务和你自己的偏好。

Apache Storm是一个流媒体引擎,如果你想处理条目流而不是像你的情况那样的一批数据,那就太好了。

Apache Spark和Apache Flink都将允许您每天执行一次批处理作业,或者创建一个可计算一天结果的流式应用程序。

我更喜欢Apache Spark,因为它具有批量和流式作业的统一API(因此您可以轻松地将批量代码更改为流式处理)和强大的社区支持。 Apache Flink支持实时流式传输,但在您的情况下不需要。

但是,你应该自己看看这两个框架,并选择这个框架,这对你来说更好。在我看来,他们两个都会好的