2016-02-03 43 views
0

我在寻找一个“好的”/简单的度量标准来识别类似的地点/用户输入到避免重复的复制什么是地点的最佳距离度量标准

编辑距离做工不错错别字像

面包店

bekerry

(编辑距离:2)

但 “失败” 为交换的话

圣厄休拉学校

学校圣厄休拉

(编辑距离:17)

和补充

企业严重

企业严重股份有限公司

+0

让我想起你正在努力弄清楚地名的含义。可能你需要一个简单的解析器来读取名称。在现实生活中,经常出现“小街道,SE1”和“小街道E1”的混乱。我不希望自动化过程是完美的 – Vorsprung

回答

0

我认为使用原始距离度量标准会很困难。您可能想要使用一些NLP方法(nltk)来完成(命名实体识别),然后使用该结果进行比较。

相关问题