我正在检测大约500万个地址的列表中的重复项,并且想知道是否针对这种目的的高效算法达成了共识。我查看了Gitbub上的Dedupe库(https://github.com/datamade/dedupe),但基于文档,我不清楚这会很好地扩展到大型应用程序。另外,我只是想根据文本相似性来定义重复项 - 已经对地址进行了大量清理。我一直在使用Levenshtein距离的粗糙方法,但想知道对于大型数据集是否有更有效的方法。在大数据集中检测文本重复的高效算法
感谢,
我正在检测大约500万个地址的列表中的重复项,并且想知道是否针对这种目的的高效算法达成了共识。我查看了Gitbub上的Dedupe库(https://github.com/datamade/dedupe),但基于文档,我不清楚这会很好地扩展到大型应用程序。另外,我只是想根据文本相似性来定义重复项 - 已经对地址进行了大量清理。我一直在使用Levenshtein距离的粗糙方法,但想知道对于大型数据集是否有更有效的方法。在大数据集中检测文本重复的高效算法
感谢,
如果排序不成问题,只需按字典顺序快速排序数据。删除重复然后变得微不足道。 –