2015-05-02 53 views
1

我正在使用Apache OpenNLP词性标记器来对文本集合中的词类进行识别。 我想评估它的性能,并且我想知道它可能已经被训练了哪些数据? 英文版模型的名称不会提示所用的培训数据。Apache OpenNLP语音标记部分:训练了哪些数据集?

Apache OpenNLP文档提到了一些可能可能用于培训POS-Tagger的语料库。 http://opennlp.apache.org/documentation/manual/opennlp.html#tools.corpora

有没有人知道如何找出哪些培训数据英语POS模型已经被培训?

回答

0

是的,你说的对,在Opennlp中有几个语料库。
但是,如果您看到OpenNLP Model页面,则会提及使用哪个数据集来训练模型,如下所示。

enter image description here

+0

是的,对于大多数他们提到的taggers。我应该提到我在谈论英语模式。他们只是说“算法+资源”,但必须有一个他们使用的未提及的注释的黄金数据集。 – toobee