2010-02-04 20 views
0

我有一个巨大的静态数据集,我有一个函数可以应用到它。 f是形式reduce(map(f,dataset)),所以我会使用MapReduce骨架。但是,我不想在每次请求时分散数据(理想情况下,我想利用索引来加速f)。有一个MapReduce实现来解决这个一般情况?当处理查询流到同一个数据集时的高效MapReduce

我已经采取了看看IterativeMapReduce,也许它的工作,但似乎为解决一个稍微不同的情况下,代码还不可用。

回答

0

的Hadoop的MapReduce(和所有其他的映射简化骨架由谷歌的启发)不会飞散的数据所有的时间。

相关问题