2012-05-02 61 views
2

上下文:分布式计算/缩小

我们正在考虑兼容AMQP溶液作为一种方法来计算数据的恒定直播流,每天总计为90 GB。我们希望实现的是或多或少的实时统计,基于我们正在观察的所有或部分指标的组合。所考虑的策略是在队列上发送数据,并具有数据的工作进程增量,将数据作为原始数据的聚合发送回队列。

观察:

对我来说,这看起来像类似Hadoop的工作,但关注(和盾牌)中提出,主要是关于速度。我没有时间对两者进行基准测试,但我们期望通过队列(在10〜100 mb/s附近的任何地方)抽取大量数据。我仍然认为它看起来像分布式计算系统的工作,我也觉得队列解决方案比分布式计算解决方案的规模更小。

问题:

简单地说,我说得对吗?我在Hadoop + HDFS上读过一些内容,我正在考虑使用另一个FS,比如Lustre或其他东西来绕过NodeName SPOF,并且使用某种解决方案来对某种节点整个集群。

+0

它看起来像你的问题是:我应该使用现有的map-reduce框架或写我自己的。答案是:取决于你的目标。如果你需要一些可以工作的东西(即使涉及一些学习),也可以使用现有的东西。如果你想创造新的东西 - 写你自己的。 – kofemann

+0

是的,我不介意制作一个或使用一个,我真的在寻找最好的方式来实时扼杀几十GB的数据,从数据中提取实时统计数据。我们目前正在寻找一个消息队列来解决这个问题,但我认为使用Map/Reduce进行分布式计算可能会让我更适合这样做。 –

+0

那么,Hadoop对你来说是最合适的工具。当然,您需要将数据复制到HDFS(但每天90GB不多)。 – kofemann

回答

2

当你需要失败,平衡,等等,你真的很难编写你自己的“分布式环境”解决方案。如果你需要接近实时地图/减少你应该检查storm这是Twitter用于他们的巨大数据需要。它不那么复杂,然后hadoop,更好地消费队列类型输入(在我看来)。

另外,如果你决定分析你的数据在hadoop上不要太担心名字节点的SPOF,有some ways来避免它。

+0

真正有趣的阅读/谈话!对于Hadoop hdfs spof,我正在考虑使用分布式文件系统(有些显然与hadoop兼容)。这是可行的吗? –

+1

hadoop主要用于批量操作,因此您的“实时”要求将无法满足。我使用hadoop在每周/每日/每小时的相对较大数据(〜500GB)上进行复杂操作。对于近乎实时的操作,我更喜欢storm + kafka。 – frail