2016-08-09 98 views
0

问题是,可能存在不具有特定图像扩展名的图像。例如,Nutch2正在爬取以.ashx结尾的页面,但仍然是图片。Nutch 2从抓取中排除内容类型图像

有没有一种方法可以使用HTML标头过滤器排除图片:content-type: images/*或者其他等价物,但不基于url模式(regex-urlfilter.txt)?

回答

0

您可以通过编写将扩展URLFilter接口的plugin来实现此目的。

String filter(String urlString)方法中,您可以检查url是否有一些模糊的扩展名,然后通过从服务器获取其HTTP标头值进一步验证,并检查其内容类型是否为图像,然后返回null否则返回URL。但是我怀疑这不会是非常有效的方法,因为许多无用的HTTP调用将仅用于此验证目的。

另一件事就是让它成为和Nutch不会解析和/或索引图像。