抓取基于链接的网页爬虫/蜘蛛链接

我想创建一个网页抓取/蜘蛛来迭代获取网页中的所有链接，包括基于JavaScript的链接（ajax），编目页面上的所有对象，构建和维护站点层次结构。我的问题是：抓取基于链接的网页爬虫/蜘蛛链接

哪种语言/技术应该更好（以获取基于JavaScript的链接）？
那里有没有开源工具？

感谢

Brajesh

来源

2011-07-01 Brajesh

您可以自动浏览器。例如，看看http://watir.com/

来源

2011-07-01 10:00:26 troelskn

即使搜索巨头还没有完成获取ajax链接。这是因为，ajax链接是动态的，命令和响应根据用户的操作而变化很大。这可能就是为什么，SEF-AJAX（搜索引擎友好型AJAX）现在正在开发中。这是一种技术，可以使网站完全索引到搜索引擎，当浏览器访问网页时，它可以充当网络应用程序。作为参考，你可以检查这个链接：http://nixova.com

没有冒犯，但我没有看到任何跟踪ajax链接的方式。这就是我的知识结束的地方。 :)

来源

2011-07-01 10:42:48

你可以用php，simple_html_dom和java来做到这一点。让php crawler复制本地机器或web服务器上的页面，用java应用程序（jpane或其他）将其打开并将其标记为焦点并抓住它。将其发送到您的数据库或您想要存储它的位置。使用onclick或mouseover属性跟踪所有标签或标签。检查再次调用时会发生什么。如果源html（从服务器返回的文档）大小或md5哈希值不同，则您知道它是有效的链接并可以抓取它。我希望你能理解我的坏英文：D

来源

2014-11-29 21:39:47

抓取基于链接的网页爬虫/蜘蛛链接

回答

相关问题