我正在使用BeautifulSoup进行一些HTML清理。 Noob到Python & BeautifulSoup。我有标签被删除正确如下,基于一个答案,我发现其他地方#2:使用BeautifulSoup删除所有内联样式
[s.extract() for s in soup('script')]
但如何删除内嵌样式?例如以下:
<p class="author" id="author_id" name="author_name" style="color:red;">Text</p>
<img class="some_image" href="somewhere.com">
应该改为:
<p>Text</p>
<img href="somewhere.com">
如何删除内嵌类,ID,名称&样式的所有元素的属性?
我可以找到所有提到的使用CSS解析器来处理这个问题的解决方案,而不是BeautifulSoup的解决方案的答案,但由于该任务仅仅是删除而不是操作属性,并且是所有标签的总括规则,所以我希望找到一种在BeautifulSoup中完成这一切的方法。
我正在使用extract()以防万一我决定在任何时候生成已删除代码的列表,但decompose()也适用于完全删除和销毁标记和内容。感谢属性删除代码片段,就像一个魅力! – Ila
有道理。我将留下关于'decompose()'的注释给其他可能会偶然发现的人。 – jmk