2013-05-29 94 views
0

当我们运行爬虫时,我们会看到类似的静态文件夹;/cgi-bin,/ images,/ css等popup在搜索器作业中,我们希望将它们排除在爬行(而不是它们最终在索引器中),我们不希望它们在索引器中,但我们如何排除它们在爬虫,所以它没有被这些静态文件夹占用?任何帮助表示赞赏。它有助于提高性能,排除它们?就像现在我们看到它由于某种原因取回它们一样。 Nutch爬虫1.2,Lucene索引器。Apache Nutch crawler如何排除类似静态文件夹; cgi-bin,图像,css从nutch爬虫中排除?

回答

0

将拒绝规则添加到conf/regex-urlfilter.txt文件。

-cgi-bin 
-images 
-css 

请注意,这必须添加之前接受所有规则即。 +.在正则表达式文件中。

+0

感谢您的快速回答,非常感谢。 – user2430823

+0

@ user2430823如果您对答案感到满意,请注册并接受答案 –

+0

您好Tejas,对于我迟到的回复感到抱歉,答案是令人满意的,但不能upvote ..再次感谢您的帮助,感谢它。 – user2430823