我有一个任务,我需要autologin和刮一个particualr网站。自动记录和网页抓取
我见过人们主要使用Java来建议htmlUnit和HttpClient。 htmlUnit看起来像一个测试工具。我不知道该怎么做。有没有一个例子解释自动登录和网页抓取htmlUnit
或httpClient
?
我是一名Java开发人员。任何与它密切合作的人都可以分享任何想法吗?
我有一个任务,我需要autologin和刮一个particualr网站。自动记录和网页抓取
我见过人们主要使用Java来建议htmlUnit和HttpClient。 htmlUnit看起来像一个测试工具。我不知道该怎么做。有没有一个例子解释自动登录和网页抓取htmlUnit
或httpClient
?
我是一名Java开发人员。任何与它密切合作的人都可以分享任何想法吗?
你的问题可以分解为
所以,第一部分 - :
安装livehttp头的Firefox插件,比阅读所有由你的浏览器,而试图 登录发送和接收的HTTP 头。
尝试使用你的java代码发送这些头文件,基本上你有 来模拟HTTP POST
请求使用你的java代码。对于 google->make post request from java
在您登录到网站,超过报废使用您所选择的API数据。我个人使用htmlcleaner
HtmlCleaner。
要清除数据,您可以使用带有htmlcleaner的XPath expressions
。
您还可以使用JSoup
而不是htmlcleaner
。使用JSoup的优点是它可以同时处理login[POST Request] and Data scraping
。看看这里http://pastebin.com/E0WzpuhF
我知道这似乎很多工作,我已经为您的问题提供了两种替代解决方案,但将您的问题分成更小的块,并尝试解决它。
[第4章HTTP认证](http://hc.apache.org/httpcomponents-client-ga/tutorial/html/authentication.html) – 2012-01-05 20:43:53