2012-11-30 65 views
1

我正在制作一个webscraper,并且我想完全删除几个div,因为它们不是我对数据的分析所必需的。 我用美丽的汤解析数据,但我不能弄清楚如何完全消除一个div删除Python中两个html标签之间的所有数据

+0

这可能会帮助:http://stackoverflow.com/questions/2649751/python-remove-everything-between-div-class-comment-any-div – danseery

+0

lxml.html: from lxml import html doc = html.fromstring(input) for el in doc.cssselect ('div.comment'): el.drop_tree() result = html.tostring(doc) – Chipmunk

回答

1

您可以使用类似以下内容:

>>> import bs4 
>>> blah = '<div id="test"><p>one</p></div><div id="okay"><p>something</p></div>' 
>>> soup = bs4.BeautifulSoup(blah) 
>>> soup('div', {'id': 'test'})[0].extract() 
<div id="test"><p>one</p></div> 
>>> soup 
<html><body><div id="okay"><p>something</p></div></body></html> 
相关问题