2016-08-22 58 views
1

我有30亿字符串存储在postgresql数据库中。我想制作一张频率图,这样我就可以丢弃少于100次或超过10万次的字符串。我应该使用什么样的数据结构?我在想一些布隆过滤器。数十亿字符串的计数频率

回答

0

您可以使用HyperLogLog,它使您可以估计具有较小内存占用量的多重集的基数。

这是一个example,它使用java-hll,一种HyperLogLog的Java实现。如果java不适合你,你可以使用其他语言实现的搜索github。可以使用standalone implementation