说我有一个字符串看起来像<a href="/wiki/Greater_Boston" title="Greater Boston">Boston–Cambridge–Quincy, MA–NH MSA</a>
使用Python重新摆脱链接
如何使用re
摆脱链接并只获得Boston–Cambridge–Quincy, MA–NH MSA
一部分?
我试过类似match = re.search(r'<.+>(\w+)<.+>', name_tmp)
但不工作。
说我有一个字符串看起来像<a href="/wiki/Greater_Boston" title="Greater Boston">Boston–Cambridge–Quincy, MA–NH MSA</a>
使用Python重新摆脱链接
如何使用re
摆脱链接并只获得Boston–Cambridge–Quincy, MA–NH MSA
一部分?
我试过类似match = re.search(r'<.+>(\w+)<.+>', name_tmp)
但不工作。
re.sub('<a[^>]+>(.*?)</a>', '\\1', text)
请注意,解析HTML通常是rather dangerous。但是,您似乎在解析MediaWiki生成的链接,并认为链接总是相似的格式,因此您应该对该正则表达式应该没问题。
您还可以使用bleach
模块https://pypi.python.org/pypi/bleach,它包装HTML消毒工具,让你快速去除HTML