2010-06-03 27 views
0

是否可以阅读动态生成的HTML Web 2.0源代码? 带有其代理程序 - >响应的Perl LWP不会提取任何动态生成的HTML代码。使用Perl阅读Web 2.0 HTML源代码

今天很多网站都在生成动态html。如果我正在购买最优惠的价格,并且价格是动态提取和倾销的,那么我就会停业。

我们到了一个时代的终点?

回答

2

是的,我们已经到了不可靠的屏幕抓取时代的末期,以及定义良好的API时代的开始。

就我个人而言,我讨厌“Web 2.0”这个词,但至少Wikipedia列出了web APIs作为整个事情的重要组成部分。

2

如果通过“Web 2.0 HTML”和“动态生成”您的意思是“DOM从JavaScript生成”,那么您必须处理JavaScript。你可以手动做,并编写代码来从JS中抓取数据或使用JS所做的任何数据源,或者你可以使用JS感知解析器(我通常使用MozRepl这些天)。

请记住,许多网站的条款和条件禁止屏幕抓取。

最好的解决方案是使用稳定且不会改变的API。您希望从中获取数据的网站的文档可能会描述一个API,或者您可以联系开发人员,看看他们是否可以为您提供一个。