0
我一直在尝试使用NLTK的NER特性。我想从文章中提取这些实体。我知道这样做不可能是完美的,但我不知道是否有人工介入手动标记NE,它会改善吗?NLTK NER:持续学习
如果是,NLTK中的现有模型有可能继续训练模型。 (Semi-Supervised Training)
我一直在尝试使用NLTK的NER特性。我想从文章中提取这些实体。我知道这样做不可能是完美的,但我不知道是否有人工介入手动标记NE,它会改善吗?NLTK NER:持续学习
如果是,NLTK中的现有模型有可能继续训练模型。 (Semi-Supervised Training)
在nltk中提供的普通香草NER chunker内部使用在ACE语料库上训练的最大熵chunker。因此,除非您用自己的分类器和数据进行训练(这是一项非常细致的工作),否则无法确定日期或时间。
你可以参考这个link进行相同的操作。
另外,在nltk_contrib中有一个名为timex的模块,它可以帮助您满足您的需求。
如果您有兴趣在Java中执行相同的操作,请更好地查看Stanford SUTime,它是Stanford CoreNLP的一部分。
简短的回答,不是真的。 =) – alvas
你知道其他支持持续培训的工具吗? – mousecoder
对不起,我不知道任何,但肯定在'NLTK',它不支持手动注释,直到有人自愿为'NLTK'编写'brat' GUI包装器。 NLP中的人机交互总是很难编写代码,因为它通常需要某种GUI。 – alvas