0
我正在研究一个应用程序,该程序需要我解析非结构化的 文本。我需要解析它的名称,地址 - 区域,城市,国家和邮政编码 。地址将是印度。解析非结构化文本的名称和地址
样品输入: “我是ABC在XYZ公司工作 我擅长网页设计具有3年经验 我住在kothrud,浦那-411038,马哈拉施特拉邦。”
输出: 名称:ABC AREA:KOTHRUD 城市:PUNE STATE:MAHARASHTRA 邮编:411038
我打算使用Apache ConceptMapper解析各市州 为此我将不得不建立自己的字典集,但我想 可以完成。对于邮政编码,我可以使用正则表达式。我被卡在如何 解析名称和区域。正则表达式可以用来获取名称和区域与 小黑客和很多模式,但我想知道是否有任何 更好的解决方案。
有没有我可以查询到的任何数据库,这将返回地址?我 没有看过谷歌地图/地方,但你可以实现地址 与他们轻松解析?
任何输入将不胜感激。
谢谢。
你需要处理什么环境?意思是,限制在美国地址或印度地址的地址?能够限制于此将会非常有帮助。 – Jeffrey 2013-05-13 17:54:59