2013-08-27 31 views
0

比方说,我有一个Confluence实例,我想抓取它并将结果作为Intranet搜索引擎的一部分存储在Solr中。如何让Nutch通过* url抓取*而不存储它?

现在我们假设我只想在Confluence实例中存储一部分页面(匹配正则表达式)作为搜索引擎的一部分。

但是,我希望Nutch抓取所有其他页面,寻找与匹配页面的链接 - 我只是不希望Nutch存储它们(或者至少我不希望Solr返回它们在结果中)。

将Nutch-> Solr设置为像这样工作的正常或最痛苦的方法是什么?

回答