Q

Python 3.2美丽的汤替代

2011-11-07 69 views 4 likes

4

我需要做一个网络爬虫从网页提取信息。我做了一个研究，发现Beautiful Soup非常出色，因为我可以解析所有文档并创建dom对象并迭代，提取属性等（对于JQuery来说也是如此）。Python 3.2美丽的汤替代

但我使用的是Python 3.2，并没有稳定的版本（我认为根本没有，只有3.1我在他们的主页看到）。

所以我需要一些不错的选择。

2011-11-07 Jirico

A

回答

0

从lxml主页：

最新版本与2.4所有CPython的版本3.2。

2011-11-07 23:44:03

+0

我刚刚阅读的美丽汤3.1系列与Python 3.0的工作，就是这样（没有提到3.2）。而3.x版本使用HTMLParser，因为SGMLParser（这好得多）被删除了：/。没有作者的支持。 – Jirico

+0

@Jirico：这就是为什么我建议使用lxml。 –

+0

lxml看起来不像美丽的汤那么热，但我会给它一看。谢谢！嗯，我认为我会得到Python 2.7我会有更多的第三方支持... – Jirico

3

在我看来，有一个版本的3.2.0美丽的汤的版本发布差不多一年前。还有的HTMLParser http://docs.python.org/library/htmlparser.html

2011-11-07 23:45:12 Dan

+0

我只是试过美丽的汤3.2.0。该设置给我的语句错误：print“单元测试失败！”。这是来自2.x的旧版印刷声明，如何告诉我3.2版可以吗？ – Jirico

+0

就像他们问的那样，向[BS支持组]（http://groups.google.com/group/beautifulsoup）报告错误（带回溯）。他们是非常有帮助的，给他们一个机会来解决它之前，你开始张贴在这里，它不起作用。（除非[this]（http://groups.google.com/group/beautifulsoup/browse_thread/thread/6c13e079839306ca/a3c2209e3d90f45d?lnk=gst&q=3.2+unittest#a3c2209e3d90f45d）已经在报告中） – smci

1

我认为，最新的版本是4.1.1，你可以在这里读到它BS4 Documentation

我已经在我的网站上使用BS4与PHP为此，有一段时间了，很大的成绩。由于PHP/Python不兼容问题，我不得不切换到BSv3，但这与BS4脚本本身的工作性能是分开的。

最初我使用内置的HTML分析引擎，但发现这很慢。在我的Web服务器上安装LMXL引擎后，速度大幅提升！在实际解析中没有明显的改进，但速度急剧增加。

我给它一个去 - 我推荐它，我尝试了很多不同的选择，然后我决定美丽的汤。

祝你好运！

2012-07-13 00:07:34 itsricky

相关问题

11. 与美丽的汤
12. 安装美丽的汤
13. 美丽的汤和uTidy
14. 美丽的汤4混乱
15. 美丽的汤不进口
16. Webscrape没有美丽的汤
17. 美丽的汤查询
18. 美丽的汤从标签
19. 美丽的汤安装
20. heroku上美丽的汤？
21. 美丽的汤＆Python，嵌套的元素
22. 基本的Python /美丽的汤解析
23. 的Python美丽的汤 - 功能
24. 美丽的汤的Python语法帮助
25. 蟒蛇美丽的汤JSON
26. Python - 美丽的汤OR条件在soup.find_all（....）
27. Python美丽的汤找不到表
28. Python美丽的汤不操作
29. Python - 美丽的汤选择只返回[]
30. Python - 美丽的汤 - 删除标签