1
我正在使用Apache OpenNLP词性标记器来对文本集合中的词类进行识别。 我想评估它的性能,并且我想知道它可能已经被训练了哪些数据? 英文版模型的名称不会提示所用的培训数据。Apache OpenNLP语音标记部分:训练了哪些数据集?
Apache OpenNLP文档提到了一些可能可能用于培训POS-Tagger的语料库。 http://opennlp.apache.org/documentation/manual/opennlp.html#tools.corpora
有没有人知道如何找出哪些培训数据英语POS模型已经被培训?
是的,对于大多数他们提到的taggers。我应该提到我在谈论英语模式。他们只是说“算法+资源”,但必须有一个他们使用的未提及的注释的黄金数据集。 – toobee