2010-11-30 91 views
2

我是NLP的新手,我正在寻找一些起点,包括一些教程,文档或示例代码。 我被告知研究处理自然文本的可能性,从中提取一些结构化数据。 例如,我想从下面的语句中提取(注释)身高和体重。 “他身高6英尺,体重200磅”或 “他的身高是6英尺,体重是200”等 我已经看过UIMA,但它看起来像一个自己创建的没有训练能力的REGEX词典。 所以简而言之,我可以使用什么Java框架来创建一个可以训练的注释引擎! 对此的任何帮助(指针)将非常感激。 谢谢NLP新手,关于注释的问题

+0

BTW。要了解信息提取技术的最初技术,我建议阅读Sunita Sarawagi最近的一项调查 - http://osm.cs.byu.edu/CS652s09/papers/Sarawagi.ieSurvey.pdf – Skarab 2010-12-01 17:49:43

回答

2

如果你真的想用机器学习来训练你的注释器,那么GATE可能是你最好的选择。请看他们的指南中有关machine learning的章节。

3

由于您询问了指针:LingPipe(已在上面提到过),OpenNLPStanford NLP distributions

注意:如果Python是一个选项,您可以使用Natural Language Toolkit

+1

+1,最好的开始是使用NLP编程框架,因为 - 在这个阶段 - 初学者不需要浪费时间来进入解决方案的体系结构细节,比如GATE或apache UIMA。 – Skarab 2010-12-01 11:56:00

+0

@Skarab我不同意,@NLP声明他希望创建一个用于提取事实的注释引擎,而这正是GATE和UIMA所设计的。上面提到的图书馆将进行词汇和语法分析,但是之后还有很多工作要做。 – Stompchicken 2010-12-01 15:33:35