在大数据集中检测文本重复的高效算法

我正在检测大约500万个地址的列表中的重复项，并且想知道是否针对这种目的的高效算法达成了共识。我查看了Gitbub上的Dedupe库（https://github.com/datamade/dedupe），但基于文档，我不清楚这会很好地扩展到大型应用程序。另外，我只是想根据文本相似性来定义重复项 - 已经对地址进行了大量清理。我一直在使用Levenshtein距离的粗糙方法，但想知道对于大型数据集是否有更有效的方法。在大数据集中检测文本重复的高效算法

感谢，

来源

2016-07-04 Ryan

如果排序不成问题，只需按字典顺序快速排序数据。删除重复然后变得微不足道。 –

重复数据删除应罚款为大小的数据。

Michael Wick和Beka Steorts已经有一些出色的工作，比重复数据删除具有更好的复杂性。

来源

2016-07-04 18:50:19 fgregg

感谢您的有用链接！ – Ryan

在大数据集中检测文本重复的高效算法

回答

相关问题