2011-07-01 99 views
0

我想创建一个网页抓取/蜘蛛来迭代获取网页中的所有链接,包括基于JavaScript的链接(ajax),编目页面上的所有对象,构建和维护站点层次结构。我的问题是:抓取基于链接的网页爬虫/蜘蛛链接

  • 哪种语言/技术应该更好(以获取基于JavaScript的链接)?
  • 那里有没有开源工具?

感谢

Brajesh

回答

0

即使搜索巨头还没有完成获取ajax链接。这是因为,ajax链接是动态的,命令和响应根据用户的操作而变化很大。这可能就是为什么,SEF-AJAX(搜索引擎友好型AJAX)现在正在开发中。这是一种技术,可以使网站完全索引到搜索引擎,当浏览器访问网页时,它可以充当网络应用程序。作为参考,你可以检查这个链接:http://nixova.com

没有冒犯,但我没有看到任何跟踪ajax链接的方式。这就是我的知识结束的地方。 :)

0

你可以用php,simple_html_dom和java来做到这一点。让php crawler复制本地机器或web服务器上的页面,用java应用程序(jpane或其他)将其打开并将其标记为焦点并抓住它。将其发送到您的数据库或您想要存储它的位置。使用onclick或mouseover属性跟踪所有标签或标签。检查再次调用时会发生什么。如果源html(从服务器返回的文档)大小或md5哈希值不同,则您知道它是有效的链接并可以抓取它。我希望你能理解我的坏英文:D