解析存储在数据库中的大型文本(5000字以上),搜索名称的最佳方法是什么?文本将是多语言的。在大型文本中查找名称
我的第一个想法是一个相当天真的方法,将所有以大写字母开头的单词与数据库进行比较。但是这只会在包含小写字母的文本中失败。
编辑 的文本是不是静态的,而是动态的(如网站)
最佳
Mac电脑
解析存储在数据库中的大型文本(5000字以上),搜索名称的最佳方法是什么?文本将是多语言的。在大型文本中查找名称
我的第一个想法是一个相当天真的方法,将所有以大写字母开头的单词与数据库进行比较。但是这只会在包含小写字母的文本中失败。
编辑 的文本是不是静态的,而是动态的(如网站)
最佳
Mac电脑
您可以使用Aho-Corasick algorithm,构建字典,你要匹配的姓名。它在文本中的令牌数量加上匹配的名称数量是线性的。
您将需要一个名称字典。
或者你可以尝试http://www.opencalais.com/知道相当大的名称集合。
我做了一个方法来替换一个大文本中的多个字符串:A better way to replace many strings - obfuscation in C#。也许你可以使用相同的原则。
哇,谢谢那个。这是其他答案下的选项:) – 2009-09-20 15:24:43