我使用PHP从网页上获取一些信息,但是,我发现我试图从网页上刮取的信息是通过AJAX/JavaScript的某种方式加载的。我想我记得Curl可以遍历JavaScript,但我发现事实并非如此。有没有一个库可以通过AJAX/javascript跋涉?
我似乎记得某种可以通过javascript和AJAX跟踪的后端“web浏览器”库/函数,以获得全功能浏览器将会到达的最终页面结果。
有没有可以做到这一点的库或函数?关于如何去做这件事的任何想法,除了必须自己手动跟踪脚本/重定向?它不一定非常漂亮 - 我只是想找到最终的文本。
实际上有一些非常有力的证据表明,Google的抓取工具现在基于Chrome,并且他们抓取的AJAX内容很好:http://www.webmasterworld.com/google/4159807.htm – duskwuff
@duskwuff是的,我之前看过那篇文章。但是,如果我的网站日志是通过的任何东西,那么谷歌不抓取Ajax。 –