提取字符串中的相邻单词以帮助提高命名实体识别器的准确性

我正致力于在斯坦福大学的NER上构建，以提高其准确性。这个想法是识别POS标签，然后从句子中收集所有NNP，然后遍历每个NNP并查看句子中的相邻单词。如果在“CEO”或“xyz说”这样的单词周围存在句法线索，那么我们知道第一个NNP很可能是一个组织的名称，而第二个是一个人。我试图在解析器之上建立规则来标识那些不由NER标记器的标签。提取字符串中的相邻单词以帮助提高命名实体识别器的准确性

到目前为止，我已经能够提取NNPs，但提取相邻单词是我有困难的东西。有没有太多的信息在Java或斯坦福NER做这个。有一些东西，与Leucen一起使用，像NGramExtractor

如何在文本中执行此窗口？谢谢你的帮助。伪代码或指令也可以。

来源

2016-12-21 serendipity

我应该给出关于使用这些规则来猜测统计模型的必要警告，即这种事情往往会反弹。当前的CRF模型具有应该捕获这些模式的特征，如果它没有捕获它们，那么（1）模式不经常出现，或者（2）模式有反例你没有想到。

也就是说，你很容易创建一个TokensRegex提取器来标记这些模式。这实际上是如何实现SUTime - CoreNLP的时态分析器的。

来源

2016-12-22 06:28:37

提取字符串中的相邻单词以帮助提高命名实体识别器的准确性

回答

相关问题