Q

使用Python重新摆脱链接

python
regex

2013-02-23 66 views 0 likes

0

说我有一个字符串看起来像<a href="/wiki/Greater_Boston" title="Greater Boston">Boston–Cambridge–Quincy, MA–NH MSA</a>使用Python重新摆脱链接

如何使用re摆脱链接并只获得Boston–Cambridge–Quincy, MA–NH MSA一部分？

我试过类似match = re.search(r'<.+>(\w+)<.+>', name_tmp)但不工作。

2013-02-23 clwen

A

回答

3

re.sub('<a[^>]+>(.*?)</a>', '\\1', text)

请注意，解析HTML通常是rather dangerous。但是，您似乎在解析MediaWiki生成的链接，并认为链接总是相似的格式，因此您应该对该正则表达式应该没问题。

2013-02-23 23:43:38 poke

3

您还可以使用bleach模块https://pypi.python.org/pypi/bleach，它包装HTML消毒工具，让你快速去除HTML

的文本

2013-02-24 00:21:20

相关问题

1. PHP摆脱链接
2. 摆脱下划线（链接）
3. 如何摆脱使用python
4. 如何摆脱使用python
5. 正则表达式的PHP：“摆脱[链接1]摆脱[链接2] ...摆脱” - 问题'摆脱'当有没有[链接]
6. 如何摆脱mfc链接错误？
7. 摆脱链接中的正斜杠
8. 无法摆脱链接下划线
9. 在XCode中摆脱链接器警告
10. 摆脱博客图片链接

11. 如何摆脱XCode Architecture链接错误？
12. 摆脱wchar_t大小链接器警告
13. 的Python：摆脱使用字符串XML
14. 如何摆脱WordPress的重复永久链接
15. 摆脱阅读更多新闻链接预告
16. Python/matplotlib：摆脱matplotlib.mpl警告
17. 不能摆脱Python循环
18. 如何摆脱[“”]在Python
19. 无法摆脱重复
20. 无法摆脱重复行
21. SAS摆脱“重复”变量
22. 摆脱301重定向
23. 摆脱重复阵列
24. 使用glutIdleFunc摆脱glutMainLoop？
25. 使用preg_match_all摆脱HTML
26. 使用mod_rewrite摆脱问号
27. 使用jsoup摆脱表
28. iFrame摆脱白色接壤
29. 摆脱地铁接口
30. 如何使用链接的图像时，摆脱连接的边界？