2013-02-23 66 views
0

说我有一个字符串看起来像<a href="/wiki/Greater_Boston" title="Greater Boston">Boston–Cambridge–Quincy, MA–NH MSA</a>使用Python重新摆脱链接

如何使用re摆脱链接并只获得Boston–Cambridge–Quincy, MA–NH MSA一部分?

我试过类似match = re.search(r'<.+>(\w+)<.+>', name_tmp)但不工作。

回答

3
re.sub('<a[^>]+>(.*?)</a>', '\\1', text) 

请注意,解析HTML通常是rather dangerous。但是,您似乎在解析MediaWiki生成的链接,并认为链接总是相似的格式,因此您应该对该正则表达式应该没问题。