2013-08-29 39 views
0

我正在使用HBase存储webtable内容,比如google如何使用bigtable。
供参考google bigtable
我的问题是在RowKey,我们应该如何形成它。
谷歌正在做的是以相反的顺序保存URL,你可以在PDF文档“com.cnn.www”中看到,这样所有与cnn.com相关的链接将在GFS的同一个块中管理,很容易扫描。
如谷歌使用我可以使用相同的事情,但不会这将是冷静,如果我使用某种算法来压缩URLHbase RowKey设计模式

对于如。这样做背后

RewKey        | Google Bigtable      | Algorithm output 
www.cnn.com/index.php    | com.cnn.www/index.php    | 12as/435 
www.cnn.com/news/business/index.html | com.cnn.www/news/business/index.html | 12as/2as/dcx/asd 
www.cnn.com/news/sports/index.html | com.cnn.www/news/sports/index.html | 12as/2as/eds/scf 

原因是rowkey会随着每Hbase design schema较短(在主题中提到6.3.2.3。Rowkey长度)。

那么什么我需要你们是知道我是正确的在这里....
另外,如果我是正确的,我应该用什么算法。我使用Python作为一种编程语言,所以代码将会压倒我...

回答

1

当你缩短URI时,为主机和路径单独进行并连接,以便你的密钥可以像hostHash一样! pathHash一方面将它保持简短,并将来自同一网站的所有URI集中在一起

+0

+1谢谢你的回答...所以你的意思是说我在想什么是正确的轨道... 。还有如何缩短URI的算法... – Wazzzy

+1

看到这个q http://stackoverflow.com/questions/742013/how-to-code-a-url-shortener –

+0

看看这个.... http ://www.hashids.org/ – Wazzzy