2011-07-14 71 views
1

如何解析自由格式文本字符串以根据位置和名称字典检测位置和名称等内容?在我的特定应用程序中,如果我的字典中没有更多的条目,那么将会有数万个条目,所以我很确定只是通过它们来完成所有的事情都是不可能的。此外,是否有任何方法添加“模糊”匹配,以便您还可以检测字典单词的编辑中的子字符串?如果我没有弄错,它属于自然语言处理领域,更具体地说是命名实体识别(NER);然而,我试图找到关于NER背后的算法和流程的信息已经空了。我宁愿使用Python,因为我最熟悉的是,尽管我愿意考虑其他解决方案。从字典中查找文本字符串中的单词

回答

1

你可以尝试下载斯坦福命名实体识别器: http://nlp.stanford.edu/software/CRF-NER.shtml

如果你不想用别人的代码,你想自己做,我建议采取看看算法他们的相关论文,因为他们使用的条件随机场模型已经成为NER的一种相当常见的方法。

我不确定如何回答你的问题的第二部分关于寻找没有更多细节的子字符串。您可以修改斯坦福大学的课程,或者您可以使用词性标注器在文本中标记专有名词。这不会将位置与名称区分开来,但它会使找到与每个专有名词相隔x个字的单词变得非常简单。

相关问题