2010-10-19 43 views
2

我需要从我的Java应用程序镜像一些网站。我正在寻找一个开源的java库来完成这项工作,但没有找到合适的东西。在Java中镜像网站

有没有人知道一些Java友好的工具来检索整个网站,或者我必须坚持执行wget从我的程序?

非常感谢。

回答

0

我会推荐一个履带式/蜘蛛。 AspiderSperowider使用Apache HttpClient lib(我最喜欢的httplib)并通过链接爬过网站。由于它们是OSS,您应该可以将它集成到您​​的软件中。他们目前还没有维护,但如果你想在java中编写你自己的镜像工具,Apache HttpClient lib将是一个很好的开始。

1

我在这类库中遇到的最大问题是缺少对css解析的支持,因此在镜像网站时也会下载导入的样式表,背景图像等。 (至少在最近的版本中),虽然它不是一个从Java运行这个程序的非常干净的解决方案,但我首先会尝试一下,看看它是否适合您的需求。