2012-11-15 49 views
0

我是python的新手,需要您的建议。 我需要获取由php/java/ajax生成的论坛页面的内容。 该代码包含由php/java/ajax添加到页面的所有元素。 是否可以阅读完整的页面源代码? urlopen()只给出原始的源代码。如何使用python获取论坛页面的内容

+0

我想他是指一些JS/AJAX而不是底层的PHP代码之后的网站的HTML代码。 – Andreas

+0

是的,对,一些JS/AJAX后的HTML代码。 – user1826398

+0

你说得对。我删除了我的评论。它们无效...... –

回答

2

qt4库集包括webkit引擎。这意味着你可以使用它来首先渲染页面,然后解析生成的HTML。有一个项目,据我所知,这是Google Project Hosting

而这里是一个link另一个样品,只有qt4。一定要查看评论,他们谈论确保所有ajax内容已经加载。

+1

我喜欢这个解决方案。这对我们的夜间测试也是一个好主意。但当然qt不是一个轻量级的解决方案...我想只是做重要的AJAX调用应该更快。但是如果他需要整个HTML,那么这真的是一个很好的解决方案。 – Andreas

+0

我知道它不是轻量级的。但是你指出来很好。 :-) –

0

Selenium非常适合您的任务。 这是很酷的图书馆,可用于许多语言(原因including Python)浏览器自动化。

+0

非常感谢大家的评论和有用的链接! 现在我有大量的信息来学习! – user1826398