2009-10-31 50 views
6

我期待从文本例子很短的突发中提取人名和地名我应该使用LingPipe还是NLTK来提取姓名和地点?

 
"cardinals vs jays in toronto" 
" Daniel Nestor and Nenad Zimonjic play Jonas Bjorkman w/ Kevin Ullyett, paris time to be announced" 
"jenson button - pole position, brawn-mercedes - monaco". 

目前这个数据是在MySQL数据库中,和我(非常)有一个单独的记录每一个运动员,虽然名字有时拼写错误等。

我想提取运动员和位置。 我通常使用PHP工作,但一直未能找到实体提取库(我可能想在将来更深入一些NLPML)。

从我所发现的,LingPipeNLTK似乎是最推荐的,但我不明白是否要么真的适合我的目的,要么别的什么会更好。

我还没有用Java或Python进行编程,所以在我开始学习新语言之前,我希望得到一些关于我应该遵循什么路线或其他建议的建议。

+0

“......每个运动员都有一张单独的桌子......”或许你的意思是每个运动员都有一个_record_? (这将是一个可怕的很多表,否则...) – mjv 2009-10-31 23:10:51

+0

是啊!如果我为每个运动员分配一张桌子,语言/模块将成为我的问题中最小的问题!感谢您指出了这一点。 – pedalpete 2009-10-31 23:32:25

回答

4

你所描述的是named entity recognition。所以如果你还没有看过这个话题,我建议查看其他questionsThis看起来对我来说是最有用的答案。

我不能评论NLTK或LingPipe是否最适合这项任务,但从查看答案看起来好像还有其他一些以Java编写的资源。

与NLTK一起工作的一个好处是Python作为一种语言非常易于使用。另一个好处是NLTK book(免费提供)同时提供了对Python和NLTK的介绍,这对你很有用。

相关问题