也许这听起来很天真,但是有一些东西甚至远远接近基于ajax的网站的php爬虫?基于ajax的网站的php爬虫?
3
A
回答
2
问题是,香草PHP不明白如何解析JavaScript,生成JavaScript环境,并与一切互动。为了在理论上做到这一点,您必须通过C API扩展PHP并将其与JavaScript库进行连接。这个规模很大,取决于你有多少资源。
2
不是自动爬虫,因为他们需要了解JavaScript代码并需要知道发生了什么。
他们可以做的是使用与启用ajax的脚本相同的调用,因此您可以获取原始数据。
但是,这意味着您需要对网页及其调用的网址有非常好的理解,并且相当费力。
所以答案是:不,据我所知,它们不存在。
0
你可以使用phantomjs库来执行js。
https://github.com/ariya/phantomjs/blob/master/examples/waitfor.js
相关问题
- 1. c#基于web的爬虫
- 2. PHP网络爬虫
- 3. 提前PHP爬虫,网站与后端
- 4. php爬虫(抓取单个网站)
- 5. python网站爬虫(多个网站)
- 6. PHP与Python对于网络爬虫
- 7. 单页网页爬虫PHP
- 8. 使用Ajax/JavaScript的网页爬虫
- 9. 让PHP网络爬虫尊重任何网站的robots.txt文件
- 10. 。基于网络的网络爬虫示例
- 11. 网络爬虫
- 12. 网络爬虫抓取基于AJAX的链接没有浏览器
- 13. 错误PHP网站爬虫类使用简单的HTML Dom
- 14. 反向链接报告网站爬虫?
- 15. 保护爬虫网站内容
- 16. 运行一个网站爬虫
- 17. 爬虫/蜘蛛检测新网站
- 18. 基于Ajax的OpenGraph网站
- 19. 抓取基于链接的网页爬虫/蜘蛛链接
- 20. C++网络爬虫
- 21. Python网络爬虫
- 22. java网络爬虫
- 23. 网络爬虫类
- 24. 网络爬虫的功能
- 25. 网络爬虫的Java
- 26. 简单的网络爬虫
- 27. Python中的网络爬虫
- 28. php爬虫检测
- 29. 网络爬虫在哪里获取他们的网站列表进行爬网?
- 30. 网站爬虫的大网站抓取网站状态,标题和h1
这不是PHP的,所以我不提供它作为一个答案,但在的HtmlUnit Java是完全脚本模拟浏览器组件,完全与JS的支持 - 可作为一个履带式了。 – Piskvor 2011-05-20 11:02:26