2013-06-05 28 views
0

我想在网站中自动浏览以收集一些数据。用于收集数据的Chrome/Firefox网络浏览器自动化

有一个页面的表单。该表格由一个选择和一个提交按钮组成。选择一个选项并点击提交按钮会导致另一个页面出现一些包含相关数据的表格。

我需要为每个选项收集并保存文件中的这些数据。可能我需要回到第一页来重复每个选项的任务。细节是,我不知道以前的确切数量的选项。

我的想法是完成这项任务,最好是使用Firefox或Chrome。我认为唯一的方法就是通过编程。

有人可以指示我以一种简单快捷的方式完成这项任务。我对Java,Javascript和Python有一些了解。

回答

1

我找到了解决我的问题的方法。这就是所谓的HtmlUnit:

http://htmlunit.sourceforge.net/gettingStarted.html

是的HtmlUnit一个 “无图形界面的浏览器的Java程序。”

它允许使用Java的网页浏览和数据收集,它非常简单易用。

不完全是我问的,但它更好。至少对我来说。

2

你可能想谷歌“网络浏览器自动化”工具,如硒。虽然不完全适合这个目的,但我认为它可以用来实现您的要求。

+0

硒对这项任务有什么限制? – Natanael

1

由于任务比较很好的约束,我会避免硒(这是一个有点脆),而是试试这个方法:

  • 获得的从第一页选项的完整列表,记录在一文本文件
  • 使用网络监视工具(如Fiddler)捕获提交第一页时发送的流量。查看提交给服务器的确切内容 - 以及如何(POST与GET,参数编码等)。
  • 使用像curl这样的工具以您在步骤2中捕获的确切格式重播请求步骤。然后编写批处理脚本(使用bash或python)以遍历步骤1中文本文件中的所有值对下拉列表中的所有值进行卷曲处理。将卷曲输出保存到文件。