0

我一直在尝试使用NLTK的NER特性。我想从文章中提取这些实体。我知道这样做不可能是完美的,但我不知道是否有人工介入手动标记NE,它会改善吗?NLTK NER:持续学习

如果是,NLTK中的现有模型有可能继续训练模型。 (Semi-Supervised Training)

+0

简短的回答,不是真的。 =) – alvas

+0

你知道其他支持持续培训的工具吗? – mousecoder

+0

对不起,我不知道任何,但肯定在'NLTK',它不支持手动注释,直到有人自愿为'NLTK'编写'brat' GUI包装器。 NLP中的人机交互总是很难编写代码,因为它通常需要某种GUI。 – alvas

回答

1

在nltk中提供的普通香草NER chunker内部使用在ACE语料库上训练的最大熵chunker。因此,除非您用自己的分类器和数据进行训练(这是一项非常细致的工作),否则无法确定日期或时间。

你可以参考这个link进行相同的操作。

另外,在nltk_contrib中有一个名为timex的模块,它可以帮助您满足您的需求。

如果您有兴趣在Java中执行相同的操作,请更好地查看Stanford SUTime,它是Stanford CoreNLP的一部分。