1
我正致力于在斯坦福大学的NER上构建,以提高其准确性。这个想法是识别POS标签,然后从句子中收集所有NNP,然后遍历每个NNP并查看句子中的相邻单词。如果在“CEO”或“xyz说”这样的单词周围存在句法线索,那么我们知道第一个NNP很可能是一个组织的名称,而第二个是一个人。我试图在解析器之上建立规则来标识那些不由NER标记器的标签。提取字符串中的相邻单词以帮助提高命名实体识别器的准确性
到目前为止,我已经能够提取NNPs,但提取相邻单词是我有困难的东西。有没有太多的信息在Java或斯坦福NER做这个。有一些东西,与Leucen一起使用,像NGramExtractor
如何在文本中执行此窗口?谢谢你的帮助。伪代码或指令也可以。