2013-10-09 103 views
2

我们已经在HBase中创建了表,并且这些表使用HBase存储处理程序映射到Hive。如果表中有超过100亿的巨大记录,并且如果我们需要根据某个列来连接这两个表,并且这些列不是行密钥ID列,那么性能如何,有没有什么方法可以提高性能在表中连接映射到HBase的Hive表。连接到Hive表映射到HBase

Regards, GHK。

回答

1

您使用Hive JOIN性能的哪个底层存储无关紧要。所以HBase rowkey并不能帮助你与Hive。

你可以使用的一个技巧是mapjoin,如果你加入了一个巨大的小桌子,它的工作效果非常好。

你可以阅读更多关于蜂巢此链接https://www.facebook.com/notes/facebook-engineering/join-optimization-in-apache-hive/470667928919

+0

我得到了它的连接性能,但在蜂巢我们有分区这也帮助我们限制了连接操作的记录数,如果我们有一个蜂巢映射表HBase,那么有没有办法在表连接中实现更快的响应 – GHK

+0

我认为目前HBase存储处理程序不可能实现。看看这个关于这个https://issues.apache.org/jira/browse/HIVE-1223的JIRA –