自动记录和网页抓取

我有一个任务，我需要autologin和刮一个particualr网站。自动记录和网页抓取

我见过人们主要使用Java来建议htmlUnit和HttpClient。 htmlUnit看起来像一个测试工具。我不知道该怎么做。有没有一个例子解释自动登录和网页抓取htmlUnit或httpClient？

我是一名Java开发人员。任何与它密切合作的人都可以分享任何想法吗？

2012-01-05 JNPW

[第4章HTTP认证]（http://hc.apache.org/httpcomponents-client-ga/tutorial/html/authentication.html） – 2012-01-05 20:43:53

你的问题可以分解为

所以，第一部分 - ：

安装livehttp头的Firefox插件，比阅读所有由你的浏览器，而试图登录发送和接收的HTTP 头。
尝试使用你的java代码发送这些头文件，基本上你有来模拟HTTP POST请求使用你的java代码。对于 google->make post request from java

在您登录到网站，超过报废使用您所选择的API数据。我个人使用htmlcleanerHtmlCleaner。

要清除数据，您可以使用带有htmlcleaner的XPath expressions。

您还可以使用JSoup而不是htmlcleaner。使用JSoup的优点是它可以同时处理login[POST Request] and Data scraping。看看这里http://pastebin.com/E0WzpuhF

我知道这似乎很多工作，我已经为您的问题提供了两种替代解决方案，但将您的问题分成更小的块，并尝试解决它。

2012-01-05 21:02:16 RanRag

回答