Nutch 2从抓取中排除内容类型图像

问题是，可能存在不具有特定图像扩展名的图像。例如，Nutch2正在爬取以.ashx结尾的页面，但仍然是图片。Nutch 2从抓取中排除内容类型图像

有没有一种方法可以使用HTML标头过滤器排除图片：content-type: images/*或者其他等价物，但不基于url模式（regex-urlfilter.txt）？

2016-08-09 dimzak

您可以通过编写将扩展URLFilter接口的plugin来实现此目的。

在String filter(String urlString)方法中，您可以检查url是否有一些模糊的扩展名，然后通过从服务器获取其HTTP标头值进一步验证，并检查其内容类型是否为图像，然后返回null否则返回URL。但是我怀疑这不会是非常有效的方法，因为许多无用的HTTP调用将仅用于此验证目的。

另一件事就是让它成为和Nutch不会解析和/或索引图像。

来源

2016-08-09 11:42:15 MShoaib91

Nutch 2从抓取中排除内容类型图像

回答

相关问题