2011-12-08 50 views
0

网络刮板或收割机是从网站获取数据的软件,如果有人可以推荐市场上可用的各种软件包,我将非常感激。
他们必须能够动态收集(如AJAX)构建的网站。网络刮板和收割机

回答

1

网页吸盘通常在页面上的硬链接(href s)上以获取下一页。与ajax这是完全不同的。内容仅在需求时才发送给客户端。由于我不知道任何网络刮板的真正有效的方式来指定参数,我会做我自己的工具。这基本上包括伪造我自己的请求者,并在服务器的web服务上使用它(插件)。 只要支持http get/post请求,你可以用不同的语言来做到这一点。

进行调查的方式伪造请求:

  1. 安装WebKit浏览器(我会建议使用Safari浏览器的一些安全政策原因)
  2. 走大众页面上与您感兴趣的Web服务通信
  3. 定期提出请求
  4. 使用Safari浏览器的Web inspector,查看当您执行请求时网络选项卡中发生了什么。
  5. 在标题中,您将知道请求URL(servicePath)以及所用的方法。如果它是一个GET,那很简单:你只需要改变url中的参数来伪造你的参数。如果它是一个POST,那么您就可以深入了解发送的数据,然后发送一些类似的数据。
  6. 你可以使用javascript在服务器上测试发布。这是我继续的方式:在网站jQuerify页面上允许java控制台调用jQuery方法。为此,您可以添加书签jQuerify
  7. 在Web检查控制台(类型ESC,使它看起来如果隐藏的)试试你的锻造后通过以下方式(这里是一个JSON后):

$.post("servicePath.php", {"your": "forgedRequest"},function(data){alert(data)})