2015-09-01 44 views
-1

我正在播放一个大地图(〜6-10 GB)。我正在使用sc.broadcast(prod_rdd)来做到这一点。但是,我不确定广播是否仅适用于小数据/文件,而不适用于我拥有的大型对象。如果是前者,那么推荐的做法是什么?一种选择是使用NoSQL数据库,然后使用它进行查找。与此相关的一个问题是我可能不得不放弃性能,因为我将经历一个单一节点(区域服务器或任何等价的)。如果任何人有任何洞察这些设计选择的性能影响,那将不胜感激。星火广播变量:大地图

+0

什么在地图上?你可以在处理过程中分割它吗,还是每个分片都需要整个地图? – Reactormonk

+0

不幸的是,每个分片都需要完整的地图。它在时间维度上具有用户与其历史活动之间的映射。 – user3803714

回答

0

我想知道你是否可以使用mapPartitions并为每个分区读取一次地图而不是广播它?