2013-05-14 24 views

回答

-1

如果你看看source code for the pig HBase loader你可以看到它可以过滤关键范围和时间戳,它可以通过前缀获取列,但不能按列值过滤。

您可以编写自己的加载程序(甚至基于该代码)并添加所需的功能。请注意,对列值进行过滤的性能不会太好,并且在映射器中对该值进行过滤的速度比在HBase过滤器中进行过滤的速度要慢,这种情况不会有所不同(您基本上可以将区域服务器的进程间通信到pig mapper)

+0

它取决于您使用的猪/ hbase的版本是否使用时间戳过滤。这是在猪0.10.0中引入的。但是,如果你使用的是cloudera,很难说出它是什么发布的,但它肯定是在0.10.0-cdh4.1.3之后的(不幸的是,对我来说,因为这是我的公司坚持的版本)。告诉你可以过滤哪些标志的最好方法是获取你的猪版本的源代码并查看HBaseStorage类。 – barclay