上下文:分布式计算/缩小
我们正在考虑兼容AMQP溶液作为一种方法来计算数据的恒定直播流,每天总计为90 GB。我们希望实现的是或多或少的实时统计,基于我们正在观察的所有或部分指标的组合。所考虑的策略是在队列上发送数据,并具有数据的工作进程增量,将数据作为原始数据的聚合发送回队列。
观察:
对我来说,这看起来像类似Hadoop的工作,但关注(和盾牌)中提出,主要是关于速度。我没有时间对两者进行基准测试,但我们期望通过队列(在10〜100 mb/s附近的任何地方)抽取大量数据。我仍然认为它看起来像分布式计算系统的工作,我也觉得队列解决方案比分布式计算解决方案的规模更小。
问题:
简单地说,我说得对吗?我在Hadoop + HDFS上读过一些内容,我正在考虑使用另一个FS,比如Lustre或其他东西来绕过NodeName SPOF,并且使用某种解决方案来对某种节点整个集群。
它看起来像你的问题是:我应该使用现有的map-reduce框架或写我自己的。答案是:取决于你的目标。如果你需要一些可以工作的东西(即使涉及一些学习),也可以使用现有的东西。如果你想创造新的东西 - 写你自己的。 – kofemann
是的,我不介意制作一个或使用一个,我真的在寻找最好的方式来实时扼杀几十GB的数据,从数据中提取实时统计数据。我们目前正在寻找一个消息队列来解决这个问题,但我认为使用Map/Reduce进行分布式计算可能会让我更适合这样做。 –
那么,Hadoop对你来说是最合适的工具。当然,您需要将数据复制到HDFS(但每天90GB不多)。 – kofemann