2016-07-04 27 views
1

我正在检测大约500万个地址的列表中的重复项,并且想知道是否针对这种目的的高效算法达成了共识。我查看了Gitbub上的Dedupe库(https://github.com/datamade/dedupe),但基于文档,我不清楚这会很好地扩展到大型应用程序。另外,我只是想根据文本相似性来定义重复项 - 已经对地址进行了大量清理。我一直在使用Levenshtein距离的粗糙方法,但想知道对于大型数据集是否有更有效的方法。在大数据集中检测文本重复的高效算法

感谢,

+1

如果排序不成问题,只需按字典顺序快速排序数据。删除重复然后变得微不足道。 –

回答

1

重复数据删除应罚款为大小的数据。

Michael WickBeka Steorts已经有一些出色的工作,比重复数据删除具有更好的复杂性。

+0

感谢您的有用链接! – Ryan