2012-01-05 114 views
0

我有一个任务,我需要autologin和刮一个particualr网站。自动记录和网页抓取

我见过人们主要使用Java来建议htmlUnit和HttpClient。 htmlUnit看起来像一个测试工具。我不知道该怎么做。有没有一个例子解释自动登录和网页抓取htmlUnithttpClient

我是一名Java开发人员。任何与它密切合作的人都可以分享任何想法吗?

+0

[第4章HTTP认证](http://hc.apache.org/httpcomponents-client-ga/tutorial/html/authentication.html) – 2012-01-05 20:43:53

回答

2

你的问题可以分解为

  • 登录到网站
  • 刮从网站的数据。

所以,第一部分 - :

  1. 安装livehttp头的Firefox插件,比阅读所有由你的浏览器,而试图 登录发送和接收的HTTP 头。

  2. 尝试使用你的java代码发送这些头文件,基本上你有 来模拟HTTP POST请求使用你的java代码。对于 google->make post request from java

在您登录到网站,超过报废使用您所选择的API数据。我个人使用htmlcleanerHtmlCleaner

要清除数据,您可以使用带有htmlcleaner的XPath expressions

看看Xpath+htmlcleanerhere also

您还可以使用JSoup而不是htmlcleaner。使用JSoup的优点是它可以同时处理login[POST Request] and Data scraping。看看这里http://pastebin.com/E0WzpuhF

我知道这似乎很多工作,我已经为您的问题提供了两种替代解决方案,但将您的问题分成更小的块,并尝试解决它。