2009-09-20 39 views
1

解析存储在数据库中的大型文本(5000字以上),搜索名称的最佳方法是什么?文本将是多语言的。在大型文本中查找名称

我的第一个想法是一个相当天真的方法,将所有以大写字母开头的单词与数据库进行比较。但是这只会在包含小写字母的文本中失败。

编辑 的文本是不是静态的,而是动态的(如网站)

最佳

Mac电脑

回答

0

您可以使用Aho-Corasick algorithm,构建字典,你要匹配的姓名。它在文本中的令牌数量加上匹配的名称数量是线性的。

0

您将需要一个名称字典。

或者你可以尝试http://www.opencalais.com/知道相当大的名称集合。

+0

哇,谢谢那个。这是其他答案下的选项:) – 2009-09-20 15:24:43