2010-07-14 36 views
2

关于stanford标记器,我提供了自己的标记语料库来训练stanford标记器的模型。但是,我意识到我的模型标记器的标记速度比默认的wsjleft3标记器模型慢得多。什么可能对此有所贡献?我该如何提高模型的速度? (除了Penn树库标记集之外,我还添加了3个或4个自定义标记)stanford tagger - 标记速度

回答

4

虽然添加更多特性(在arch中)会使其速度稍慢(因为特征提取是主要运行时成本之一),但是,速度的两个大的决定因素有:

  • 在 特征使用背景标签的数量:left3words使用 先前和第二先前标签(2) ,所以是相当快的,双向 使用4(两个在每个方),所以是 非常缓慢。仅使用1 或0上下文标记的标记器再次快得多 。
  • 通常设置标签的大小,特别是可应用于未知单词的一组开放类标签的大小。 (但是添加3或4应该几乎没有区别 - 当您将标签设置为数百个标签时,这是有问题的。)
相关问题