对不起,我没有深刻了解的HBase和Hadoop MapReduce的,但我想你能不能帮我找到使用它们的方式,或者你可以建议我需要框架。分布式多重映射
第一部分
还有就是,我要存储的地方记录1流。它们应该可以通过取决于它们的一些键来访问。几个记录可以具有相同的密钥。有相当多的人。我必须通过超时删除旧记录。
也有记录的第2流,这是非常密集了。对于每一个记录(参数记录)我需要:得到这样的说法,记录的键1中sTREM所有记录,查找第一个相应的记录,从第1流存储删除它,返回结果合并这些的(RES1)两个记录。
第二部分
记录第三流就像是第一次。记录应该可以通过密钥访问(与第一部分的不同)。像往常一样的几个记录将具有相同的密钥。在第一流中没有像他们那么多。我必须通过超时删除旧记录。
对于每个RES1(参数记录)我要:从第3的sTREM的所有记录与该记录的另一个关键,地图为这些记录RES1作为参数,减少成结果。第三个流记录应保持未修改的存储状态。
使用相同的密钥的记录者优先被存储在同一个节点,并宁愿被节点,其中上运行基于给定的参数记录的是获得通过的关键记录,并提出一些操作的过程那个记录是。
HBase和Hadoop MapReduce适用于我的情况吗?以及这样的应用程序应该如何(基本思路)?如果答案是否定的,是否有框架来buld这样的应用程序?
请提问,如果你不能得到我想要的东西。
我想澄清一下:什么意思是“他们应该可以通过某些键取决于他们”?这是否意味着有一些常见的密钥集,每个记录都有一些密钥> – 2012-03-28 18:53:56
这意味着有一些函数可以计算记录密钥,就像散列函数一样。 – 2012-03-29 07:15:10
我是否理解你有几条记录,它们之间是一对多的关系,你想要“动态地”加入它们? – 2012-03-29 09:03:19