2011-12-05 49 views
0

我有一个map reduce作业,其中每个mapper需要多次随机访问另一个HBase表。我想知道对于那些大量的随机访问(同时由于映射器同时运行)到HBase表的效率如何。mapreduce作业内的随机访问hbase表

非常感谢!

回答

1

HBase在随机访问方面效率很高 - 但是,取决于地图中表格的大小/缩小以及您执行的I/O次数,您可能需要考虑替代选项 如果随机/访问表足够小 - 将其加载到每个映射器的内存中(覆盖设置即可)。如果随机访问表很大,考虑运行一个额外的map/reduce来为其他map-reduce做准备(这样你就可以查看两个表/统一表)