2011-10-08 33 views
0

我想删除HTML文件中的所有标记。为此,我使用Python的重新模块。 例如,考虑行<h1>Hello World!</h1>。我只想保留“Hello World!”。为了移除标签,我使用了re.sub('<.*>','',string)。由于显而易见的原因,我得到的结果是一个空字符串(正则表达式标识第一个和最后一个尖括号并删除其间的所有内容)。我怎么能解决这个问题?使用Python处理HTML文件

回答

1

您可以匹配非贪婪:'<.*?>'

您还需要小心,HTML是一个狡猾的野兽,并能阻止你的正则表达式。

1

使用BeautifulSoup解析HTML,然后仅检索文本。

+0

BeatifulSoup在Python中的模块?或者它是什么? – PaulDaviesC

+0

http://www.crummy.com/software/BeautifulSoup/ – akonsu

0

Beautiful Soup是伟大的解析HTML!

你可能不需要它,但值得学习使用它。也会在未来帮助你。