2014-03-29 198 views
0

提取国家,城市和地点我需要从场地 * 国家 *,城市从谷歌的搜索结果中提取。例如,我搜索“图像处理计算智能EEE专题讨论会”。我正在使用Google自定义搜索API。从谷歌搜索

我得到这样一个片段,

"snippet": "The Computer Security Foundations Symposium is an annual conference for 
researchers in ... It was created in 1988 as a workshop of the IEEE Computer 
Society Technical Committee on Security and ... CSF-26 was held at Tulane 
University, New Orleans, LA, June 26-28, 2013. ... CSFW-19 program and 5- 
minute talks.", 

我如何提取“杜兰大学,新奥尔良从响应....介意你有多个结果,但让我们假设我只拿1号一个包含这个..

回答

1

这很难,因为你正在处理自然语言。有几种可能性。这真的取决于输入。

  1. 你可以尝试使用模板/正则表达式找到这些。如果您知道场地是通过“举行”或“组织”等方式介绍的,则可以使用该信息提取场馆/场所。

  2. 您可以使用POS/NE Tagger来标记单词。使用斯坦福CoreNLP管道产量(缩短,只使用相关的句子和信息):

    CSF-26 NNØ 是VBDØ 在邻举行VBNØ 杜兰NNP组织 大学NNP组织 新NNP LOCATION 新奥尔良NNP位置 LA NNP位置 月NNP DATE 26-28 CD DATE 2013 CD DATE

    字后面是POS标签,其次是NE实体标记。 O代表“其他”,其余应该是自我解释。然后,您可以查找LOCATION和周围的LOCATION或ORGANIZATION。

  3. 您可以使用地名数据库查找COUNTRY/CITY,然后查看x周围的单词。如果您还可以提供常用“场地”名称的列表,则可以包含该列表以进一步改进结果。此步骤也可以集成到其他任何方法中。


这个名单并不详尽。它很大程度上取决于输入的方差。