2012-05-30 38 views
2

我正在寻找一种方法来配置Nutch抓取网络,但只索引某些类型的文件(XML是具体的)到Solr。我很确定一个自定义插件可以完成这项工作,可能是基于索引 - 更多的代码,但我宁愿不这样做,除非我必须这样做。我也确信我可以将所有东西都吸收到Solr中,然后用Solr的API删除不需要的内容,但这有点不方便。有没有办法将Nutch配置为只索引Solr中的某些文件类型?配置Nutch只索引索尔特定的文件类型

回答

0

在nutch中,您可以为url定义过滤器。那么用fileextension的名字过滤呢?

0

您可以根据扩展名过滤文件类型。
您可以指定要包含或排除的扩展名regex-urlfilter.txt

例如,排除( - ): -

#skip图像和其他后缀我们还不能解析29#的覆盖范围更加广泛使用urlfilter后缀插件 - (GIF | GIF | JPG | JPG |。 PNG | PNG | ICO | ICO | CSS | CSS |坐| SIT | EPS | EPS | WMF | WMF |拉链| ZIP | PPT | PPT |英里| MPG | XLS | XLS |广州|广州|转| RPM | TGZ | TGZ | mov | MOV | exe | EXE | jpeg | JPEG | bmp | BMP | js | JS)$

+您可以指定包含列表。

+0

我只想_index_ XML数据;我仍然想要抓取大部分内容。如果我使用regex-urlfilter排除了除XML以外的所有内容,Nutch将只抓取XML文档。 – Ian

+0

所以你想改变索引器的行为而不是履带。 – orezvani