2012-05-15 30 views
0

我的蟒蛇env是2.7如何用高效的方式解析HTML或XHTML或XML?

我知道这是一个老问题,但我在搜索和阅读其他人的问题和答案时失去了我的想法。其中一些真的过时了。如下面的代码:

import lxml #wrong 
import xml #correct 

所以,既然我是一个新手到Python,知道在大蟒蛇历史毫无关系,我想使事情变得更加清晰。比如,python中所谓的标准xml解析器模块是什么?当我需要使用xpath语法解析某些HTML时,我该怎么办?如果我有一个格式错误的HTML源代码,如何通过不使用BeautifulSoup或类似的东西来处理它。如果你能给我介绍一些东西,我会非常感激。

好的,总而言之,我刚刚得到了一个问题。我如何使用python2.7使用标准的python模块来解析错误的html代码?

+0

你有什么理由不使用BeautifulSoup?这是真正解析Python中格式错误的HTML的典型答案。 –

+0

好吧,我想我需要做更多的研究 – castiel

+0

看起来像beautifulsoup不支持xpath? – castiel

回答

2

如果您需要坚持标准库,请阅读python library documentation

如果你不这样做,一定要看lxml,它的功能更多。

+0

python库文档,你知道,它不包含太多的例子,不像PHP手册 – castiel

+0

'HTMLParser'包含两个完整的部分,其中的标题中包含“示例”一词! –