1
我正在制作一个webscraper,并且我想完全删除几个div,因为它们不是我对数据的分析所必需的。 我用美丽的汤解析数据,但我不能弄清楚如何完全消除一个div删除Python中两个html标签之间的所有数据
我正在制作一个webscraper,并且我想完全删除几个div,因为它们不是我对数据的分析所必需的。 我用美丽的汤解析数据,但我不能弄清楚如何完全消除一个div删除Python中两个html标签之间的所有数据
您可以使用类似以下内容:
>>> import bs4
>>> blah = '<div id="test"><p>one</p></div><div id="okay"><p>something</p></div>'
>>> soup = bs4.BeautifulSoup(blah)
>>> soup('div', {'id': 'test'})[0].extract()
<div id="test"><p>one</p></div>
>>> soup
<html><body><div id="okay"><p>something</p></div></body></html>
这可能会帮助:http://stackoverflow.com/questions/2649751/python-remove-everything-between-div-class-comment-any-div – danseery
lxml.html: from lxml import html doc = html.fromstring(input) for el in doc.cssselect ('div.comment'): el.drop_tree() result = html.tostring(doc) – Chipmunk