stanford tagger - 标记速度

关于stanford标记器，我提供了自己的标记语料库来训练stanford标记器的模型。但是，我意识到我的模型标记器的标记速度比默认的wsjleft3标记器模型慢得多。什么可能对此有所贡献？我该如何提高模型的速度？（除了Penn树库标记集之外，我还添加了3个或4个自定义标记）stanford tagger - 标记速度

来源

2010-07-14 goh

虽然添加更多特性（在arch中）会使其速度稍慢（因为特征提取是主要运行时成本之一），但是，速度的两个大的决定因素有：

在特征使用背景标签的数量：left3words使用先前和第二先前标签（2），所以是相当快的，双向使用4（两个在每个方），所以是非常缓慢。仅使用1 或0上下文标记的标记器再次快得多。
通常设置标签的大小，特别是可应用于未知单词的一组开放类标签的大小。（但是添加3或4应该几乎没有区别 - 当您将标签设置为数百个标签时，这是有问题的。）

来源

2010-07-14 18:11:05

stanford tagger - 标记速度

回答

相关问题