2011-07-04 67 views

回答

7

Soundex是一个非常古老而简单的英文单词哈希。它旨在匹配拼写错误的单词;例如“他们”,“他们”和“有”具有相同的Soundex代码。

Soundex的问题包括它严重偏向于英语,并丢弃太多的数据,因此有很多误报。一个更好的英文单词算法是Metaphone

如果您正在寻找与西班牙拼写错误匹配的内容,则可以使用可以接受声音表格(例如“asta”和“hasta”)的Double-Metaphone算法。您必须创建您自己的表格,并且我听说双倍音频比单个音频慢了几个数量级。

另一种方法是更改​​Metaphone算法以使用西班牙音素而不是英语。有人已经done this in PHP

+0

如果你有什么建议西班牙语,那就太好了。 – matsko

+0

同意:Metaphone远远优于soundex – Bohemian

+0

Soundex设计用于20世纪初在索引中流行的英国姓氏; Metaphone是为英文单词设计的。 Soundex专利在线提供。 http://patimg2.uspto.gov/.piw?docid=01261167&SectionNum=3&IDKey=FFEDD47BEC0B&HomeUrl=http://pimg-piw.uspto.gov/ –