使用Python处理HTML文件

我想删除HTML文件中的所有标记。为此，我使用Python的重新模块。例如，考虑行<h1>Hello World!</h1>。我只想保留“Hello World！”。为了移除标签，我使用了re.sub('<.*>','',string)。由于显而易见的原因，我得到的结果是一个空字符串（正则表达式标识第一个和最后一个尖括号并删除其间的所有内容）。我怎么能解决这个问题？使用Python处理HTML文件

来源

2011-10-08 PaulDaviesC

您可以匹配非贪婪：'<.*?>'

您还需要小心，HTML是一个狡猾的野兽，并能阻止你的正则表达式。

来源

2011-10-08 03:38:55

使用BeautifulSoup解析HTML，然后仅检索文本。

来源

2011-10-08 03:36:08

BeatifulSoup在Python中的模块？或者它是什么？ – PaulDaviesC

http://www.crummy.com/software/BeautifulSoup/ – akonsu

使它非贪婪：http://docs.python.org/release/2.6/howto/regex.html#greedy-versus-non-greedy

题外话：使用正则表达式的方法很容易出错。当尖括号不代表标签时，它无法处理案例。我建议http://lxml.de/

来源

2011-10-08 03:39:55 akonsu

使用的解析器，无论是lxml或BeautifulSoup：

import lxml.html 
print lxml.html.fromstring(mystring).text_content()

使用Python处理HTML文件

回答

相关问题