从网页中提取内容并使用Java进行比较

我正在开发一个Java项目，其中我有一个子模块，需要从网页提取内容[文本，图像，颜色]并将其与另一个网页进行比较。我打算使用WinHTTrack软件在本地下载网页，但问题是它不会将其保存为HTML。我如何使用WinHTTrack等软件下载带有HTML扩展名的网页[或者只需通过ctrl + s保存网页即可。]。此外，我计划在本地下载网页后，使用HTML解析器提取3种内容类型[文本，图像，颜色]。那么哪个解析器可以使用？从网页中提取内容并使用Java进行比较

来源

2012-03-06 rakesh

我可以使用Httrack，它也可以读取html文件。您可能将winhttrack项目文件作为唯一的输出文件，但是如果您在项目目录内检查了html文件（连同图像等）。我会建议使用 - http://htmlparser.sourceforge.net/。这是一个Java库，因为你的项目是一个Java项目，它应该相当容易使用它。您还可以使用org.htmlparser.parserapplications.SiteCapturer在本地保存整个网站（并指定是否也应捕获图像等资源）。希望能帮助到你。

来源

2012-03-06 07:46:24 aretai

感谢您的信息。我会在HTTrack的目录中按照你所说的检查它。关于解析器，我也读过关于“HTMLParser”的好评。那么我会开始使用它，让你知道。为了比较，我的意思是比较一个网页的文字，图像，颜色与另一个网页的颜色。 – rakesh 2012-03-07 03:44:25

很高兴我能帮到你。比较是另一种情况，因此您需要提出另一个问题 – aretai 2012-03-07 09:27:46

好的，我会提出另一个问题。你能解释一下如何在我将页面下载到本地磁盘后使用HTMLParser来提取内容。 – rakesh 2012-03-08 14:53:33

从网页中提取内容并使用Java进行比较

回答

相关问题