我使用BeautifulSoup解析页面的HTML。由于HTML损坏,标记不一致。我有以下的html:在html中检测图片标签
<div id='VideoID'>
<a href=#><img src='file.png'></a>
</div>
而其他页面上它的分解为:
<div id='VideoID'>
<a href=#></a> [Image Tag not enclosed here]
<img src='file.png'>
</div>
以下行按预期工作的第一个片段:
imageURL = imageElement.contents[1].contents[0]['src'].strip()
但不是第二个其中之一很明显。
无论如何,我在id'VideoID'的DIV中检测到IMAGE标记,无论它是否被封闭在锚标记中或不在其中。
有趣。选择器的工作! – Volatil3
是的,CSS选择器变得非常强大 - 遍历DOM树对它们非常直观。一步一步地循环和做事情,而不是一条清晰的线路解决问题。 – ElmoVanKielmo