2011-02-02 54 views
0

我正在研究一个应用程序,该程序需要我解析非结构化的 文本。我需要解析它的名称,地址 - 区域,城市,国家和邮政编码 。地址将是印度。解析非结构化文本的名称和地址

样品输入: “我是ABC在XYZ公司工作 我擅长网页设计具有3年经验 我住在kothrud,浦那-411038,马哈拉施特拉邦。”

输出: 名称:ABC AREA:KOTHRUD 城市:PUNE STATE:MAHARASHTRA 邮编:411038

我打算使用Apache ConceptMapper解析各市州 为此我将不得不建立自己的字典集,但我想 可以完成。对于邮政编码,我可以使用正则表达式。我被卡在如何 解析名称和区域。正则表达式可以用来获取名称和区域与 小黑客和很多模式,但我想知道是否有任何 更好的解决方案。

有没有我可以查询到的任何数据库,这将返回地址?我 没有看过谷歌地图/地方,但你可以实现地址 与他们轻松解析?

任何输入将不胜感激。

谢谢。

+0

你需要处理什么环境?意思是,限制在美国地址或印度地址的地址?能够限制于此将会非常有帮助。 – Jeffrey 2013-05-13 17:54:59

回答

0

Google Geocoding API可以帮助解决这个问题。如果未找到匹配项,它将返回给定地址的地图坐标或适当的状态码。