2017-09-13 49 views
1

我对NER和提取和编程一般都是新手。我正在设法找出一种方法,可以提取某些文档的截止日期和开始日期。有没有办法做到这一点?我可以开始的地方?我一直在看,但我遇到的问题是一样的。可以提取日期,但不能确定日期是到期还是过帐。如果它只有一个日期,它是过帐还是到期。像这样的东西。任何帮助,将不胜感激。命名实体提取日期

例子:

“在中世纪亚洲征文9月3日,是由于”。

“你在4月6日给出的最后一项任务应该在10天内提交。”

“投标截止日期不得迟于发布日期(今天)的一个月。”

回答

1

以自由文本表达日期的可能性是巨大的。有几个解决方案:

  • 你可以带一组正则表达式并尝试自己解析它们。

  • 另一种方法是训练CRF等受监督的序列分类器,如果你有一个带日期注释的文档。

  • 第三个选项可以快速得到结果,就是使用Facebook研究中的这个框架https://github.com/facebookincubator/duckling,它将识别表达式是日期或时间表达式,甚至可以将它们标准化为一个唯一的日期。

+1

非常感谢@David Batista。鸭子是一个巨大的帮助! –

+0

不客气:) –