Nutch - 为什么我的网址排除不排除这些网址？

惊喜！我有另一个Apache Nutch v1.5问题。因此，在通过Nutch将我们的网站抓取并索引到Solr时，我们需要能够排除任何属于特定路径的内容。Nutch - 为什么我的网址排除不排除这些网址？

所以说，我们有我们的网站：http://oursite.com/，我们有我们不希望指数http://oursite.com/private/

的路径我在seed.txt文件http://oursite.com/和+^http://www.oursite.com/([a-z0-9\-A-Z]*\/)*在regex-urlfilter.txt文件

我想在regex-urlfilter.txt文件中放入：-.*/private/.*也会排除该路径及其下的任何内容，但抓取程序仍然在/private/路径下获取和索引内容。

是否有某种类型的重启我需要在服务器上完成，比如Solr？或者，我的正则表达式实际上不是正确的方法吗？

感谢

2013-07-19 roy

我的猜测是，URL由第一正则表达式接受，第二个是不再进行检查。如果您想拒绝网址，请将其正则表达式首先放入列表中。

2013-07-20 12:52:57

回答