我的蟒蛇env是2.7如何用高效的方式解析HTML或XHTML或XML?
我知道这是一个老问题,但我在搜索和阅读其他人的问题和答案时失去了我的想法。其中一些真的过时了。如下面的代码:
import lxml #wrong
import xml #correct
所以,既然我是一个新手到Python,知道在大蟒蛇历史毫无关系,我想使事情变得更加清晰。比如,python中所谓的标准xml解析器模块是什么?当我需要使用xpath语法解析某些HTML时,我该怎么办?如果我有一个格式错误的HTML源代码,如何通过不使用BeautifulSoup或类似的东西来处理它。如果你能给我介绍一些东西,我会非常感激。
好的,总而言之,我刚刚得到了一个问题。我如何使用python2.7使用标准的python模块来解析错误的html代码?
你有什么理由不使用BeautifulSoup?这是真正解析Python中格式错误的HTML的典型答案。 –
好吧,我想我需要做更多的研究 – castiel
看起来像beautifulsoup不支持xpath? – castiel