我经常发现自己需要为了内部目的而做一些简单的屏幕抓取(即,我仅使用通过HTML发布报告的第三方服务)。现在我至少有两三个例子。我可以使用Apache httpclient并创建所有必要的屏幕抓取代码,但需要一段时间。这是我平常的过程:超快速刮屏技巧?
- 在网站上打开Charles Proxy,看看发生了什么。
- 开始使用Apache HttpClient编写一些java代码,处理cookie,多个请求
- 使用Jericho HTML来处理HTML的解析。
我希望我能够快速记录我的会话,然后参数化每个会话之间不同的事情。设想一下,使用Charles抓取所有请求HTTP,然后参数化相关查询字符串或后参数。 Voila我有一个可重用的http脚本。
有什么可以做到这一点吗?我记得当我曾经在一家大公司工作时,曾经是我们使用的一个工具,我们称之为Mercury Interactive的Load Runner,它基本上有一个很好的方法来记录http会话并使其可重用(用于测试目的)。不幸的是,这个工具非常昂贵。
感谢您对所有的答案。我认为他们都很有价值,并会帮助其他面临同样困境的人。我决定尝试Twill,因为它看起来像一种非常简单的语言,因为它在Python中是跨平台的。建议的许多工具看起来都不错 - 虽然有些看起来像Windows特有的,其他人似乎有更陡峭的学习曲线。 – Ish 2009-04-22 23:07:53