Q

Apache OpenNLP语音标记部分：训练了哪些数据集？

2015-05-02 53 views 1 likes

1

我正在使用Apache OpenNLP词性标记器来对文本集合中的词类进行识别。我想评估它的性能，并且我想知道它可能已经被训练了哪些数据？英文版模型的名称不会提示所用的培训数据。Apache OpenNLP语音标记部分：训练了哪些数据集？

Apache OpenNLP文档提到了一些可能可能用于培训POS-Tagger的语料库。 http://opennlp.apache.org/documentation/manual/opennlp.html#tools.corpora

有没有人知道如何找出哪些培训数据英语POS模型已经被培训？

2015-05-02 toobee

A

回答

0

是的，你说的对，在Opennlp中有几个语料库。
但是，如果您看到OpenNLP Model页面，则会提及使用哪个数据集来训练模型，如下所示。

enter image description here

2015-05-05 06:33:43

+0

是的，对于大多数他们提到的taggers。我应该提到我在谈论英语模式。他们只是说“算法+资源”，但必须有一个他们使用的未提及的注释的黄金数据集。 – toobee

相关问题