我有以下两个文本:如何通过MinHash计算两个文本与两个包的Jaccard相似度的相似度?
text0 =“AAAAAAAAAAAA”;
text1 =“AAAAABAAAAAA”;
我使用4-ingle。因此,text0 = {AAAA},text1 = {AAAA,AAAB,AABA,ABAA,BAAA}。
然后,Jaccard相似度是sim = 1/5 = 0.2。
我不想要这个结果。因为这两个文本似乎有很高的相似性。
我想用袋子相似如下:
text0 = {AAAA,AAAA,AAAA,AAAA,AAAA,AAAA,AAAA,AAAA,AAAA},
的text1 = {AAAA,AAAA, AAAB,AABA,ABAA,BAAA,AAAA,AAAA,AAAA}。
如果使用这两个包,它的类似是sim = 5/9。这远高于0.2。
MinHash能做到这一点吗?
非常感谢。我会看看这两篇论文。 –
通过编号使项目独一无二是一个好主意。这意味着在“ABCDEFGHIJKLMNOPQRSTUVWXYZ”和“B”之间没有检测到相似性。 –
对于您的示例,我们可能有 text0 = {ABCD1,BCDE1,CDEF1,...} text1 = {BCDE1,CDEF1,DEFG1,...} 显然具有共同元素。 – otmar