2013-07-19 49 views
0

惊喜!我有另一个Apache Nutch v1.5问题。因此,在通过Nutch将我们的网站抓取并索引到Solr时,我们需要能够排除任何属于特定路径的内容。Nutch - 为什么我的网址排除不排除这些网址?

所以说,我们有我们的网站:http://oursite.com/,我们有我们不希望指数http://oursite.com/private/

的路径我在seed.txt文件http://oursite.com/+^http://www.oursite.com/([a-z0-9\-A-Z]*\/)*regex-urlfilter.txt文件

我想在regex-urlfilter.txt文件中放入:-.*/private/.*也会排除该路径及其下的任何内容,但抓取程序仍然在/private/路径下获取和索引内容。

是否有某种类型的重启我需要在服务器上完成,比如Solr?或者,我的正则表达式实际上不是正确的方法吗?

感谢

回答

1

我的猜测是,URL由第一正则表达式接受,第二个是不再进行检查。如果您想拒绝网址,请将其正则表达式首先放入列表中。