0
问题是,可能存在不具有特定图像扩展名的图像。例如,Nutch2正在爬取以.ashx
结尾的页面,但仍然是图片。Nutch 2从抓取中排除内容类型图像
有没有一种方法可以使用HTML标头过滤器排除图片:content-type: images/*
或者其他等价物,但不基于url模式(regex-urlfilter.txt
)?
问题是,可能存在不具有特定图像扩展名的图像。例如,Nutch2正在爬取以.ashx
结尾的页面,但仍然是图片。Nutch 2从抓取中排除内容类型图像
有没有一种方法可以使用HTML标头过滤器排除图片:content-type: images/*
或者其他等价物,但不基于url模式(regex-urlfilter.txt
)?