2013-04-03 37 views
0

我的mapreduce作业程序是由python写的,我想从HBase获取数据作为输入。有没有办法以MapReduce的方式扫描HBase表中的数据,比如本地Java实现中的TableMapper/Reducer。我了解到HappyBase可以提供一种与HBase交互的简单方法,但它仅适用于客户端。如何在MapReduce Job中通过python扫描HBase?

回答

1

您可以编写一个脚本猪从HBase的获取数据,然后通过两种整合streaming蟒蛇或者,如果你使用的Jython,通过UDFs

+0

谢谢。我现在想到另一种方式:在java MapReduce中调用python程序。在处理过程中哪种方式更高效? – homegis

+0

如果你写一个完全调优的map-reduce比Java更好,但是在大多数情况下,一个猪脚本(或者其他像级联,Hive等框架)会更有效率 –