0
我有一个巨大的静态数据集,我有一个函数可以应用到它。 f是形式reduce(map(f,dataset)),所以我会使用MapReduce骨架。但是,我不想在每次请求时分散数据(理想情况下,我想利用索引来加速f)。有一个MapReduce实现来解决这个一般情况?当处理查询流到同一个数据集时的高效MapReduce
我已经采取了看看IterativeMapReduce,也许它的工作,但似乎为解决一个稍微不同的情况下,代码还不可用。