2010-02-25 53 views
1

xml.etree.ElementTree.parse在我的xhtml文件上窒息。我看到了lxml可以处理html的地方。有人可以告诉我解析,然后改变XHTML的文件化的方式吗?我想随时添加一些javascript到xhtml。在Python 2.6中解析xhtml

+1

什么是'窒息'?文档不是格式良好的XML吗?它是否使用非DTD阅读解析器无法解决的特定于HTML的实体? – bobince 2010-02-26 00:56:49

+0

通过“窒息”我的意思是,当我试图分析我的XHTML文件是这样的: HTML = myElementTree.parse(myXHTMLFile) 的应用程序会引发以下异常: 未定义的实体 :行16,列164 我以前遇到过其他语言。正如你所建议的那样, 是html中的有效字符,但不是xml。 – Alex 2010-03-02 23:15:12

回答

3

您试过BeautifulSoup?它处理那些格式不正确的文档,我发现它很不错。

+0

还没有尝试过。你有解析xhtml吗? – Alex 2010-02-26 00:02:35

+0

是的 - 我在一个XHTML网站的数据提取器中使用,它似乎管理得很好。我不确定使用BeautifulSoup编辑文档是多么容易,因为我只对提取感兴趣,但它会处理提取部分。 – 2010-02-26 00:15:45