2016-12-21 13 views
1

我正致力于在斯坦福大学的NER上构建,以提高其准确性。这个想法是识别POS标签,然后从句子中收集所有NNP,然后遍历每个NNP并查看句子中的相邻单词。如果在“CEO”或“xyz说”这样的单词周围存在句法线索,那么我们知道第一个NNP很可能是一个组织的名称,而第二个是一个人。我试图在解析器之上建立规则来标识那些不由NER标记器的标签。提取字符串中的相邻单词以帮助提高命名实体识别器的准确性

到目前为止,我已经能够提取NNPs,但提取相邻单词是我有困难的东西。有没有太多的信息在Java或斯坦福NER做这个。有一些东西,与Leucen一起使用,像NGramExtractor

如何在文本中执行此窗口?谢谢你的帮助。伪代码或指令也可以。

回答

0

我应该给出关于使用这些规则来猜测统计模型的必要警告,即这种事情往往会反弹。当前的CRF模型具有应该捕获这些模式的特征,如果它没有捕获它们,那么(1)模式不经常出现,或者(2)模式有反例你没有想到。

也就是说,你很容易创建一个TokensRegex提取器来标记这些模式。这实际上是如何实现SUTime - CoreNLP的时态分析器的。

相关问题