0
惊喜!我有另一个Apache Nutch v1.5问题。因此,在通过Nutch将我们的网站抓取并索引到Solr时,我们需要能够排除任何属于特定路径的内容。Nutch - 为什么我的网址排除不排除这些网址?
所以说,我们有我们的网站:http://oursite.com/
,我们有我们不希望指数http://oursite.com/private/
的路径我在seed.txt
文件http://oursite.com/
和+^http://www.oursite.com/([a-z0-9\-A-Z]*\/)*
在regex-urlfilter.txt
文件
我想在regex-urlfilter.txt
文件中放入:-.*/private/.*
也会排除该路径及其下的任何内容,但抓取程序仍然在/private/
路径下获取和索引内容。
是否有某种类型的重启我需要在服务器上完成,比如Solr?或者,我的正则表达式实际上不是正确的方法吗?
感谢