2011-03-09 54 views
3

我正在寻找一个很好的Java API来做网页抓取。我试过WEB-Harvest api http://web-harvest.sourceforge.net/usage.php但我觉得它有点笨重。 还有其他建议吗?用于网页抓取或网页挖掘的Java API

+4

“还有其他建议吗?”只有一个。请注意,搜索信息时。在这个话题上,这个词是'刮'(一个'p'),而不是'拆卸'(这是一个单独的词,意思是“打架”或“倾销”)。 – 2011-03-09 18:53:12

+1

[如何“扫描”一个网站(或网页)的信息,并将其带入我的程序?](http://stackoverflow.com/questions/2835505/how-to-scan-a-website-或页面换信息和 - 把 - 它 - 到 - 我的程序)。另请参见此[最近的问题](http://stackoverflow.com/questions/5240981/how-to-easily-parse-html-for-consumption-as-a-service-using-java)另一个示例。请注意,您基本上在问“什么是Java中最好的HTML解析器?”。 – BalusC 2011-03-09 18:58:18

+0

你可以按照[网络与Java刮] [1] [1]:http://stackoverflow.com/questions/3202305/web-scraping-with-java – 2014-09-15 13:22:10

回答

0

我已经使用httpunit在生产中完成这项任务。

0

我用这个:https://github.com/subes/invesdwin-webproxy

它支持的HttpClient和(支持JavaScript模拟浏览器)的HtmlUnit,如果需要在一个大池并行化,它的代理人。我也可以推荐JSoup进行静态html处理。