在Python 2.6中解析xhtml

python
xhtml

2010-02-25 53 views 1 likes

xml.etree.ElementTree.parse在我的xhtml文件上窒息。我看到了lxml可以处理html的地方。有人可以告诉我解析，然后改变XHTML的文件化的方式吗？我想随时添加一些javascript到xhtml。在Python 2.6中解析xhtml

来源

2010-02-25 Alex

什么是'窒息'？文档不是格式良好的XML吗？它是否使用非DTD阅读解析器无法解决的特定于HTML的实体？ – bobince 2010-02-26 00:56:49

通过“窒息”我的意思是，当我试图分析我的XHTML文件是这样的： HTML = myElementTree.parse（myXHTMLFile）的应用程序会引发以下异常：未定义的实体：行16，列164 我以前遇到过其他语言。正如你所建议的那样，是html中的有效字符，但不是xml。 – Alex 2010-03-02 23:15:12

回答

您试过BeautifulSoup？它处理那些格式不正确的文档，我发现它很不错。

来源

2010-02-26 00:01:18

还没有尝试过。你有解析xhtml吗？ – Alex 2010-02-26 00:02:35

是的 - 我在一个XHTML网站的数据提取器中使用，它似乎管理得很好。我不确定使用BeautifulSoup编辑文档是多么容易，因为我只对提取感兴趣，但它会处理提取部分。 – 2010-02-26 00:15:45

在Python 2.6中解析xhtml

回答

相关问题