Q

如何让Nutch通过* url抓取*而不存储它？

2013-08-27 77 views 0 likes

0

比方说，我有一个Confluence实例，我想抓取它并将结果作为Intranet搜索引擎的一部分存储在Solr中。如何让Nutch通过* url抓取*而不存储它？

现在我们假设我只想在Confluence实例中存储一部分页面（匹配正则表达式）作为搜索引擎的一部分。

但是，我希望Nutch抓取所有其他页面，寻找与匹配页面的链接 - 我只是不希望Nutch存储它们（或者至少我不希望Solr返回它们在结果中）。

将Nutch-> Solr设置为像这样工作的正常或最痛苦的方法是什么？

2013-08-27 Jun-Dai Bates-Kobashigawa

A

回答

1

看起来像这样做的唯一方法是编写你自己的IndexFilter插件（或找人复制）。

[这里将添加我的样本插件代码时，它的正常工作]

参考文献：

2013-08-30 15:36:34

相关问题