bloom-filter

    0热度

    1回答

    我在4个不同的列上创建了一个包含布隆过滤器的配置单元表,并稍后决定使用alter命令添加更多。 但我不知道如何刷新/重新生成Hive上的布隆过滤器。 插入数据期间是否创建了布隆过滤器? 当我们收集统计数据时是否创建?列或表级别? 还是我完全不了解我对bloom滤波器的理解,它是在飞行中创建的? 我已阅读文档,并没有找到关于此的更多信息。尝试通过代码没有运气,并找到方法触发的地方。

    1热度

    1回答

    我正在实现一个BloomFilter,并且必须通过添加[0,N]元素并检查过滤器是否包含(n,oo)元素来计算误报数。我正在计算正确的误报数量。在我的循环中,每次可能包含()都会告诉我,我的过滤器包含(n,oo)中的一个元素,我将其添加到误报中。 但例如当我有16元的过滤器,我得到10个假阳性和假阳性的为0 率任何帮助,将不胜感激 for (int numNotInFilter =size+1;

    3热度

    1回答

    我在Apache spark中使用了布鲁姆过滤器的Breeze实现。我的布隆过滤器预计2亿keys.But我面临的例外如下: User class threw exception: org.apache.spark.SparkException: Job aborted due to stage failure: Task 1 in stage 5.0 failed 4 times, most r

    0热度

    1回答

    我试图为数据框中的大量字符串创建布隆过滤器 - 大约1.2亿。平均每个字符串20-25个字符,总数据量超过我们的默认spark.driver.maxResultSize 1GB。我不想更改maxResultSize,因为将来输入数据的大小会增加时,我将不得不再次更改它。 Spark中有什么方法可以将数据从小数据块中流出来,并通过调用BloomFilter.putString()来训练BloomFi

    0热度

    1回答

    我一直在试图实现我自己的(简单)布隆过滤器,但我坚持哈希,我理解多次散列项目和填充位数组与索引的概念。我使用1种散列算法(我尝试过FNV,murmurhash,现在farmhash)和各种子(基于当前的纳秒)。但是,我发现在我的散列中有大量的冲突。 我必须做一些错误的,我通过以下的information here和设置种子等量计算k功能。 任何帮助将是伟大的,谢谢。 const farmhash

    2热度

    1回答

    我已将两个ISO文件连接成一个文件。两个单独的ISO文件都是同一供应商的Linux发行版,但版本不同。在我编写的程序中(如下所示),计算块中512字节块和MD5sum块中的连接文件。 MD5sum存储在Hashet<String>中。如果使用HashSet查找找到具有相同签名的块,则会将其记录下来。 在实际查找HashSet之前,使用BloomFilter也完成了完全相同的算法。由于BloomFi

    0热度

    1回答

    我收到的时候我尝试安装pybloomfiltermmap窗户此错误: src/mmapbitarray.c(4) : fatal error C1083: Cannot open include file: 'sys/mman.h': No such file or directory error: command 'C:\Users\Administrator\AppData\Local\Pro

    1热度

    1回答

    过去几天我一直试图围绕杜鹃过滤器包裹头部。我知道他们在很多方面比bloom滤波器有优势,通常他们的使用是可取的(如果你可以使用它们)。 虽然我需要为我正在寻找的应用程序计数。我无法找到任何有关杜鹃过滤器中“有限计数”的原因。 (虽然我听说限制是7.) 这是一个理论上的限制吗?

    1热度

    1回答

    enter image description here 我跟着这里https://github.com/axiak/pybloomfiltermmap安装pybloomfilter和第一,我得到了setuptools的错误。我安装了setuptools,可以从python导入。然后我在pybloomfilter的目录下完成了sudo python setup.py install,我得到了图片中

    0热度

    1回答

    我们有一个用例,我们希望在任何时间范围(小时粒度)中报告我们应用中的唯一身份访问者。例如:假设在第0小时我们有下列访问者{A,B,C,D},在第1小时我们有{C,D,E,F},在第2小时我们有{E,F,A ,B},在第3小时我们有{A,C}。我们需要回答在1小时和3小时之间有多少独立访客,同时应该能够在0小时到3小时之间回答独特访客的数量。 当然,我们不能保存所有唯一的访客ID,但我们可以保存给定