2009-08-03 66 views

回答

0

Beautiful Soup应该是你要搜索的东西。它是一个html/xml解析器,可以处理无效页面并允许遍历特定标签。

+0

lxml比BS更好地处理无效页面。使用lxml.html中的css选择器遍历标签更容易。 – aehlke 2009-08-03 20:35:53

8

其他人推荐BeautifulSoup,但使用lxml好多了。尽管它的名字,它也用于解析和刮取HTML。它比BeautifulSoup快得多,它甚至比BeautifulSoup(他们的声望)更好地处理“破碎的”HTML。如果您不想学习lxml API,它也具有用于BeautifulSoup的兼容性API。

Ian Blicking agrees

没有理由再使用BeautifulSoup,除非您使用的是Google App Engine或其他任何不是纯粹Python不允许的东西。

+0

我听说过lxml的好东西。人们应该尝试一下,然后做出选择。 – Geo 2009-08-03 18:48:36

相关问题