如何用高效的方式解析HTML或XHTML或XML？

我知道这是一个老问题，但我在搜索和阅读其他人的问题和答案时失去了我的想法。其中一些真的过时了。如下面的代码：

import lxml #wrong 
import xml #correct

所以，既然我是一个新手到Python，知道在大蟒蛇历史毫无关系，我想使事情变得更加清晰。比如，python中所谓的标准xml解析器模块是什么？当我需要使用xpath语法解析某些HTML时，我该怎么办？如果我有一个格式错误的HTML源代码，如何通过不使用BeautifulSoup或类似的东西来处理它。如果你能给我介绍一些东西，我会非常感激。

好的，总而言之，我刚刚得到了一个问题。我如何使用python2.7使用标准的python模块来解析错误的html代码？

来源

2012-05-15 castiel

你有什么理由不使用BeautifulSoup？这是真正解析Python中格式错误的HTML的典型答案。 –

好吧，我想我需要做更多的研究 – castiel

看起来像beautifulsoup不支持xpath？ – castiel

如果您需要坚持标准库，请阅读python library documentation。

如果你不这样做，一定要看lxml，它的功能更多。

来源

2012-05-15 06:33:33

python库文档，你知道，它不包含太多的例子，不像PHP手册 – castiel

'HTMLParser'包含两个完整的部分，其中的标题中包含“示例”一词！ –

如何用高效的方式解析HTML或XHTML或XML？

回答

相关问题