因此,让我们看看我能否简单解释我的问题。HBase扫描 - RowKey过滤器
假设我们得到了有迪斯科每次访问的信息的HBase的表: 每迪斯科注册其名,访问者的名称,的天他参观了它。 (是的这是一个愚蠢的例子,我知道 ..)。
因此,举例来说,这些将是表中的一些值:
..
ministryOfSoundJamesOliver01022017
ministryOfSoundJamesOliver02022017
ministryOfSoundJamesOliver03022017
ministryOfSoundOliviaNewton04042017
ministryOfSoundOliviaNewton06042017
...
pachaibizaJohnMcKiness06042017
pachaibizaJohnMcKiness04042017
pachaibizaWilliamForrester04042017
..
的RowKey具有以下结构:
discoName
PERSONNAME
dayOfTheYear
(表中有一些其他列/限定符,但我不介意这个问题)。
的问题是:想象一个男孩,单纯喜欢去省声。他只是喜欢它,他花他所有的钱在迪斯科和药物(,但这不是点)。
我的目标是要输出每个人都出席Ministry Of Sound。在我的扫描中,这个家伙不断出现在结果中,所以我必须放弃搜索下一位访问者的许多条目。 F.E:
..
ministryOfSoundJohnnyYonkie01022017
ministryOfSoundJohnnyYonkie02022017
ministryOfSoundJohnnyYonkie03022017
ministryOfSoundJohnnyYonkie04022017
ministryOfSoundJohnnyYonkie05022017
ministryOfSoundAnotherDude02022017
...
为了注册AnotherDude,我必须从约翰尼放弃4项。
最后,问题是:
有没有办法告诉HBase的,从字节重复条目(X),以字节(X + Y)X是字节从数discoName
和y的字节数从personName
]必须是自动丢弃?
非常感谢!第一
什么是数据访问模式?你使用Hadoop和MapReduce,还是只使用HBase客户端API扫描表?您是否想跳过HBase服务器端或客户端上的条目,因此数据处理功能将只接受独特的迪斯科用户条目?我没有完全理解这种情况。 – AdamSkywalker
嗨@AdamSkywalker!我们通过客户端API(使用thrift和C#)连接到Hbase,我们的目标是跳过服务器端的条目。 谢谢! –
您是否考虑用给定的startKey创建新的扫描以跳过条目?例如,当您找到JohnnyYonkie时,使用开始键'ministryOfSoundJohnnyYonkie99999'创建新的扫描。 – AdamSkywalker