分布式计算/缩小

我们正在考虑兼容AMQP溶液作为一种方法来计算数据的恒定直播流，每天总计为90 GB。我们希望实现的是或多或少的实时统计，基于我们正在观察的所有或部分指标的组合。所考虑的策略是在队列上发送数据，并具有数据的工作进程增量，将数据作为原始数据的聚合发送回队列。

观察：

对我来说，这看起来像类似Hadoop的工作，但关注（和盾牌）中提出，主要是关于速度。我没有时间对两者进行基准测试，但我们期望通过队列（在10〜100 mb/s附近的任何地方）抽取大量数据。我仍然认为它看起来像分布式计算系统的工作，我也觉得队列解决方案比分布式计算解决方案的规模更小。

问题：

简单地说，我说得对吗？我在Hadoop + HDFS上读过一些内容，我正在考虑使用另一个FS，比如Lustre或其他东西来绕过NodeName SPOF，并且使用某种解决方案来对某种节点整个集群。

它看起来像你的问题是：我应该使用现有的map-reduce框架或写我自己的。答案是：取决于你的目标。如果你需要一些可以工作的东西（即使涉及一些学习），也可以使用现有的东西。如果你想创造新的东西 - 写你自己的。 – kofemann

是的，我不介意制作一个或使用一个，我真的在寻找最好的方式来实时扼杀几十GB的数据，从数据中提取实时统计数据。我们目前正在寻找一个消息队列来解决这个问题，但我认为使用Map/Reduce进行分布式计算可能会让我更适合这样做。 –

那么，Hadoop对你来说是最合适的工具。当然，您需要将数据复制到HDFS（但每天90GB不多）。 – kofemann

当你需要失败，平衡，等等，你真的很难编写你自己的“分布式环境”解决方案。如果你需要接近实时地图/减少你应该检查storm这是Twitter用于他们的巨大数据需要。它不那么复杂，然后hadoop，更好地消费队列类型输入（在我看来）。

另外，如果你决定分析你的数据在hadoop上不要太担心名字节点的SPOF，有some ways来避免它。

2012-05-02 15:11:28 frail

真正有趣的阅读/谈话！对于Hadoop hdfs spof，我正在考虑使用分布式文件系统（有些显然与hadoop兼容）。这是可行的吗？ –

hadoop主要用于批量操作，因此您的“实时”要求将无法满足。我使用hadoop在每周/每日/每小时的相对较大数据（〜500GB）上进行复杂操作。对于近乎实时的操作，我更喜欢storm + kafka。 – frail

回答