我正在寻找一个很好的Java API来做网页抓取。我试过WEB-Harvest api http://web-harvest.sourceforge.net/usage.php但我觉得它有点笨重。 还有其他建议吗?用于网页抓取或网页挖掘的Java API
3
A
回答
0
我已经使用httpunit在生产中完成这项任务。
0
http://hc.apache.org/httpcomponents-client-ga/
(Maven的依赖)
<dependency>
<groupId>commons-httpclient</groupId>
<artifactId>commons-httpclient</artifactId>
<version>3.1</version>
</dependency>
0
我用这个:https://github.com/subes/invesdwin-webproxy
它支持的HttpClient和(支持JavaScript模拟浏览器)的HtmlUnit,如果需要在一个大池并行化,它的代理人。我也可以推荐JSoup进行静态html处理。
相关问题
- 1. 用Java抓取网页
- 2. Reactor 3.x(Java):用于网页抓取
- 3. 网页抓取,初学java
- 4. 网页抓取/抓取基于GWT的网页
- 5. 用于网页抓取的Customazible管理页面(网页界面)
- 6. 使用JSoup网页抓取网页
- 7. Beautifulsoup网页抓取
- 8. BeautifulSoup网页抓取
- 9. PHP网页抓取
- 10. Spyder - 网页抓取
- 11. 使用Jsoup Java网页抓取
- 12. 使用Java进行网页抓取
- 13. 使用Java Swing进行网页抓取
- 14. 使用Java抓取网页数据
- 15. 使用vba抓取网页
- 16. 用bs4抓取网页
- 17. 用于网页抓取服务的Perl,mod_perl2或CGI?
- 18. API Json输出 - 抓取网页内容
- 19. 网页抓取/抓取的资源
- 20. Perl的网页抓取
- 21. 在R的网页抓取
- 22. Python的网页抓取 - UnicodeEncodeError
- 23. python3中的网页抓取
- 24. 的Python - 网页抓取 - BeautifulSoup
- 25. 先进的网页抓取
- 26. Python的SSL网页抓取
- 27. C#网页抓取的Javascript
- 28. 网站挖掘工具
- 29. 用于抓取网页或调用API(特别是iTunes)的最快服务?
- 30. 网页抓取/屏幕抓取
“还有其他建议吗?”只有一个。请注意,搜索信息时。在这个话题上,这个词是'刮'(一个'p'),而不是'拆卸'(这是一个单独的词,意思是“打架”或“倾销”)。 – 2011-03-09 18:53:12
[如何“扫描”一个网站(或网页)的信息,并将其带入我的程序?](http://stackoverflow.com/questions/2835505/how-to-scan-a-website-或页面换信息和 - 把 - 它 - 到 - 我的程序)。另请参见此[最近的问题](http://stackoverflow.com/questions/5240981/how-to-easily-parse-html-for-consumption-as-a-service-using-java)另一个示例。请注意,您基本上在问“什么是Java中最好的HTML解析器?”。 – BalusC 2011-03-09 18:58:18
你可以按照[网络与Java刮] [1] [1]:http://stackoverflow.com/questions/3202305/web-scraping-with-java – 2014-09-15 13:22:10