bloom-filter

0热度

1回答

我在4个不同的列上创建了一个包含布隆过滤器的配置单元表，并稍后决定使用alter命令添加更多。但我不知道如何刷新/重新生成Hive上的布隆过滤器。插入数据期间是否创建了布隆过滤器？当我们收集统计数据时是否创建？列或表级别？还是我完全不了解我对bloom滤波器的理解，它是在飞行中创建的？我已阅读文档，并没有找到关于此的更多信息。尝试通过代码没有运气，并找到方法触发的地方。

1热度

1回答

Bloom Filter False Positives

我正在实现一个BloomFilter，并且必须通过添加[0，N]元素并检查过滤器是否包含（n，oo）元素来计算误报数。我正在计算正确的误报数量。在我的循环中，每次可能包含（）都会告诉我，我的过滤器包含（n，oo）中的一个元素，我将其添加到误报中。但例如当我有16元的过滤器，我得到10个假阳性和假阳性的为0 率任何帮助，将不胜感激 for (int numNotInFilter =size+1;

3热度

1回答

具有数十亿记录BloomFilter的Spark导致Kryo序列化失败：缓冲区溢出。

我在Apache spark中使用了布鲁姆过滤器的Breeze实现。我的布隆过滤器预计2亿keys.But我面临的例外如下： User class threw exception: org.apache.spark.SparkException: Job aborted due to stage failure: Task 1 in stage 5.0 failed 4 times, most r

0热度

1回答

使用大型数据集在Spark上训练BloomFilter

我试图为数据框中的大量字符串创建布隆过滤器 - 大约1.2亿。平均每个字符串20-25个字符，总数据量超过我们的默认spark.driver.maxResultSize 1GB。我不想更改maxResultSize，因为将来输入数据的大小会增加时，我将不得不再次更改它。 Spark中有什么方法可以将数据从小数据块中流出来，并通过调用BloomFilter.putString()来训练BloomFi

0热度

1回答

布隆过滤器散列返回太多的碰撞

我一直在试图实现我自己的（简单）布隆过滤器，但我坚持哈希，我理解多次散列项目和填充位数组与索引的概念。我使用1种散列算法（我尝试过FNV，murmurhash，现在farmhash）和各种子（基于当前的纳秒）。但是，我发现在我的散列中有大量的冲突。我必须做一些错误的，我通过以下的information here和设置种子等量计算k功能。任何帮助将是伟大的，谢谢。 const farmhash

2热度

1回答

使用BloomFilter进行查找时，一个简单的重复块查找算法效果会更差

我已将两个ISO文件连接成一个文件。两个单独的ISO文件都是同一供应商的Linux发行版，但版本不同。在我编写的程序中（如下所示），计算块中512字节块和MD5sum块中的连接文件。 MD5sum存储在Hashet<String>中。如果使用HashSet查找找到具有相同签名的块，则会将其记录下来。在实际查找HashSet之前，使用BloomFilter也完成了完全相同的算法。由于BloomFi

0热度

1回答

无法打开包含文件：“SYS/mman.h”：没有这样的文件或目录

我收到的时候我尝试安装pybloomfiltermmap窗户此错误： src/mmapbitarray.c(4) : fatal error C1083: Cannot open include file: 'sys/mman.h': No such file or directory error: command 'C:\Users\Administrator\AppData\Local\Pro

1热度

1回答

布谷鸟过滤器：为什么究竟有7个？（如在“有限数量”的实体插入。）

过去几天我一直试图围绕杜鹃过滤器包裹头部。我知道他们在很多方面比bloom滤波器有优势，通常他们的使用是可取的（如果你可以使用它们）。虽然我需要为我正在寻找的应用程序计数。我无法找到任何有关杜鹃过滤器中“有限计数”的原因。（虽然我听说限制是7.）这是一个理论上的限制吗？

1热度

1回答

pybloomfiltermmap：STR（）采用最多1个参数（3给出）

enter image description here 我跟着这里https://github.com/axiak/pybloomfiltermmap安装pybloomfilter和第一，我得到了setuptools的错误。我安装了setuptools，可以从python导入。然后我在pybloomfilter的目录下完成了sudo python setup.py install，我得到了图片中

0热度

1回答

通过任何时间范围分析计算唯一身份访问者数量？

我们有一个用例，我们希望在任何时间范围（小时粒度）中报告我们应用中的唯一身份访问者。例如：假设在第0小时我们有下列访问者{A，B，C，D}，在第1小时我们有{C，D，E，F}，在第2小时我们有{E，F，A ，B}，在第3小时我们有{A，C}。我们需要回答在1小时和3小时之间有多少独立访客，同时应该能够在0小时到3小时之间回答独特访客的数量。当然，我们不能保存所有唯一的访客ID，但我们可以保存给定