2015-05-14 24 views
0

我一直在努力寻找一个爬行器。网址列表正在存储在hbase表中,并带有一个用于引用计数的计数器。基于柜台的数十亿行排序hbase表

我必须对表进行排序,在任何时候获得最高1000的URL保持专注于高价值的网址履带。

一个选项是使用猪脚本与过滤器和扫描hbase。 其他选项是维护另一个表,引用计数作为关键字,尽管如此管理和存储头顶增加。

请提出一个更好的方法来做到这一点。

回答

0

正确的解决方案是一个启动的周期性地图降低在桌子上,以在数据库中的前N个网址的服务。

因此,或者定期查询该服务或将其更新表与当前的热门网址。