2012-03-06 49 views
0

我正在开发一个Java项目,其中我有一个子模块,需要从网页提取内容[文本,图像,颜色]并将其与另一个网页进行比较。我打算使用WinHTTrack软件在本地下载网页,但问题是它不会将其保存为HTML。我如何使用WinHTTrack等软件下载带有HTML扩展名的网页[或者只需通过ctrl + s保存网页即可。]。此外,我计划在本地下载网页后,使用HTML解析器提取3种内容类型[文本,图像,颜色]。那么哪个解析器可以使用?从网页中提取内容并使用Java进行比较

回答

1

我可以使用Httrack,它也可以读取html文件。您可能将winhttrack项目文件作为唯一的输出文件,但是如果您在项目目录内检查了html文件(连同图像等)。我会建议使用 - http://htmlparser.sourceforge.net/。这是一个Java库,因为你的项目是一个Java项目,它应该相当容易使用它。您还可以使用org.htmlparser.parserapplications.SiteCapturer在本地保存整个网站(并指定是否也应捕获图像等资源)。希望能帮助到你。

+0

感谢您的信息。我会在HTTrack的目录中按照你所说的检查它。关于解析器,我也读过关于“HTMLParser”的好评。那么我会开始使用它,让你知道。为了比较,我的意思是比较一个网页的文字,图像,颜色与另一个网页的颜色。 – rakesh 2012-03-07 03:44:25

+0

很高兴我能帮到你。比较是另一种情况,因此您需要提出另一个问题 – aretai 2012-03-07 09:27:46

+0

好的,我会提出另一个问题。你能解释一下如何在我将页面下载到本地磁盘后使用HTMLParser来提取内容。 – rakesh 2012-03-08 14:53:33