我有一个Hadoop MapReduce作业,其输出是一个行标识符,并且对该行标识符进行了Put/Delete操作。由于问题的性质,产量相当高。我们已经尝试了几种方法来获取这些数据返回到HBase的,他们都失败了......将高容量reducer输出写入HBase
表减速
这是方式要慢,因为它似乎必须做的每一个完整的往返行。由于按键对我们的reducer步骤进行排序,row-id不可能与reducer在同一节点上。
completebulkload
这似乎需要很长的时间(从来没有完成),而且为什么没有真正的迹象。 IO和CPU都显示非常低的使用率。
我错过了一些明显的东西吗?
在我看来,弄清楚为什么completebulkload不起作用是正确的做。它应该工作!也许,你可能会有更多的减速器。 –