Nutch的抓取命令

对于Nutch的2.2.1，我知道2个爬行命令 - 斌/ Nutch的（一步一步），斌/爬行（全部在一个）Nutch的抓取命令

我知道如何指定抓取ID bin/crawl命令。同样，如何指定bin/nutch命令的抓取标识？

我问的原因是，我运行了一个使用all-in-one crawl command "bin/crawl"指定爬网ID的大型爬网作业，它在Solr中进行第9次爬网迭代索引时崩溃了。现在，我只想运行一个步骤"bin/nutch solrindex"命令来完成中断第9次迭代以完成solr索引。我应该如何在“bin/nutch solrindex”命令中指定爬网ID？什么是语法？

我都存储在HBase的表抓取数据“webpage_test”

来源

2013-10-25 sunskin

您可以运行斌/ Nutch的solrindex并通过抓取和段文件夹中的参数。

Nutch将索引所有文档，但不会创建重复项，因为它将使用ID字段来确定它们是否已被插入。

来源

2013-10-25 16:13:24 nimeshjm

Nutch的抓取命令

回答

相关问题