当处理查询流到同一个数据集时的高效MapReduce

我有一个巨大的静态数据集，我有一个函数可以应用到它。 f是形式reduce（map（f，dataset）），所以我会使用MapReduce骨架。但是，我不想在每次请求时分散数据（理想情况下，我想利用索引来加速f）。有一个MapReduce实现来解决这个一般情况？当处理查询流到同一个数据集时的高效MapReduce

我已经采取了看看IterativeMapReduce，也许它的工作，但似乎为解决一个稍微不同的情况下，代码还不可用。

来源

2010-02-04 akappa

的Hadoop的MapReduce（和所有其他的映射简化骨架由谷歌的启发）不会飞散的数据所有的时间。

来源

2010-02-07 05:40:07 akappa

当处理查询流到同一个数据集时的高效MapReduce

回答

相关问题