2009-01-29 73 views
26

什么是最好的模糊匹配算法(模糊逻辑,N-Gram,Levenstein,Soundex ....)在更短的时间内处理超过100000条记录?最佳模糊匹配算法?

+0

我想象@米奇小麦*意味着*要说的是,对这个问题给出明确的答案是非常困难的,因为最好的解决方案将会严重依赖于您的输入和系统架构的特点。正如Tim在他的回答中提到的那样,你应该阅读这些算法的长处和弱点,然后测试那些看起来适合自己的算法。 – DougW 2012-01-17 22:43:10

回答

21

我建议您阅读文章由纳瓦罗在维基百科的文章,题为 Approximate string matching的Refences部分中提到。 根据实际研究做出决定总是比随机 陌生人的建议更好。尤其是,如果在已知记录集上的表现对您很重要。

3

它大量依赖于您的数据。某些记录可以比其他记录匹配得更好。例如,邮编是一种定义的格式,因此可以以不同的方式与普通字符串进行比较。人们可以在缩写和DOB或其他组合上匹配。