minhash

    1热度

    2回答

    结果是固定数量的数组,我们假设列表(全部长度相同)在python中。 人们也可以将它看作一个矩阵,所以在c我会使用一个数组,每个单元格将指向另一个数组。如何在Python中做到这一点? 列表中的每个项目是列表还是其他内容? 我想到了一本字典,但键很平凡,1,2,...,M,所以我不确定这是否是pythonic的方式去这里。 我对实施不感兴趣,我对我应该遵循哪种方法感兴趣,我应该选择哪种方式!

    1热度

    1回答

    我在Octave/Matlab中创建MinHash和LSH。但我试图从一个给定的文档中得到一个k个大小的集合(单元数组或数组),我不知道该怎么做。 我现在所拥有的就是这个简单的代码: doc = fopen(document); i = 1; while (! feof(doc)) txt{i} = strread(fgetl(doc), '%s'); i++; endw

    1热度

    2回答

    我有一个叫FindSimilar类使用最小哈希找到2套(及这一目标,它的伟大工程)之间的相似性。我的问题是我需要比较2组以上,更具体地说,我需要比较给定的set1与未知数量的其他组。这里是类: import java.util.HashSet; import java.util.Map; import java.util.Random; import java.util.Set; pub

    0热度

    1回答

    如果我有2个Series对象,像这样:[0,0,1] [1,0,0] 如何得到两个交点和联合? 它们只包含布尔值,这意味着它们是非唯一值。 我有一个大的布尔矩阵。我对它进行了细化,现在我试图找到误报和否定,我认为这意味着我必须让每个原始对的Jaccard相似。

    0热度

    1回答

    我试图匹配基于视觉单词的图像(标记为图像内的关键点)。当将模拟结果与我的理论结果进行比较时,我会得到明显的偏差,因此我猜想我的理论概率计算中必定存在一个错误。 你能想象两幅图像集的视觉字(视觉词的名字范围从A到Z): S1=SetImage1={A, B, C, D, E, F, G, H, I, J, L, M, N, O, Y, Z} S2=SetImage2={A, L, M, O, T,

    2热度

    1回答

    假设我有五组我想集群。据我所知,这里所描述的SimHashing技术: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ 可能产生三个集群({A},{B,C,D}和{E}),举例来说,如果其结果是: A -> h01 B -> h02 C -> h02 D -> h02 E -> h03

    1热度

    2回答

    我正在使用simhash,但也看到minhash更有效。 但我不明白。 请为我解释:什么比simhash更有利的minhash?

    0热度

    1回答

    正如我刚才所知,simhash和minhash可用于此任务。但是所有这些算法都必须遍历整个文本数据库,这将非常可靠。 有没有可以加速任务的优化或其他算法? 我所想到的就是将文本数据库分成几个部分,并将两两相似性并行。我的文本数据库有大约10亿条记录。

    0热度

    1回答

    我目前正在使用MinHashing技术进行文档聚类。但是,由于MinHash是Jaccard similarity的粗略估计,因此我没有得到期望的结果,并且它不适合我的要求。 这是我的情景: 我有一个巨大的一套书,如果一个页面是作为一个查询,我需要找到从自获得该页面对应的书籍。限制是,我拥有整本书的功能,并且不可能获得书籍的逐页功能。在这种情况下,如果书太大,Jaccard的相似性会导致较差的结果

    0热度

    1回答

    我有以下两个文本: text0 =“AAAAAAAAAAAA”; text1 =“AAAAABAAAAAA”; 我使用4-ingle。因此,text0 = {AAAA},text1 = {AAAA,AAAB,AABA,ABAA,BAAA}。 然后,Jaccard相似度是sim = 1/5 = 0.2。 我不想要这个结果。因为这两个文本似乎有很高的相似性。 我想用袋子相似如下: text0 = {A