0
当我们运行爬虫时,我们会看到类似的静态文件夹;/cgi-bin,/ images,/ css等popup在搜索器作业中,我们希望将它们排除在爬行(而不是它们最终在索引器中),我们不希望它们在索引器中,但我们如何排除它们在爬虫,所以它没有被这些静态文件夹占用?任何帮助表示赞赏。它有助于提高性能,排除它们?就像现在我们看到它由于某种原因取回它们一样。 Nutch爬虫1.2,Lucene索引器。Apache Nutch crawler如何排除类似静态文件夹; cgi-bin,图像,css从nutch爬虫中排除?
感谢您的快速回答,非常感谢。 – user2430823
@ user2430823如果您对答案感到满意,请注册并接受答案 –
您好Tejas,对于我迟到的回复感到抱歉,答案是令人满意的,但不能upvote ..再次感谢您的帮助,感谢它。 – user2430823