2013-10-25 79 views
1

对于Nutch的2.2.1,我知道2个爬行命令 - 斌/ Nutch的(一步一步),斌/爬行(全部在一个)Nutch的抓取命令

我知道如何指定抓取ID bin/crawl命令。同样,如何指定bin/nutch命令的抓取标识?

我问的原因是,我运行了一个使用all-in-one crawl command "bin/crawl"指定爬网ID的大型爬网作业,它在Solr中进行第9次爬网迭代索引时崩溃了。现在,我只想运行一个步骤"bin/nutch solrindex"命令来完成中断第9次迭代以完成solr索引。我应该如何在“bin/nutch solrindex”命令中指定爬网ID?什么是语法?

我都存储在HBase的表抓取数据“webpage_test”

回答

1

您可以运行斌/ Nutch的solrindex并通过抓取和段文件夹中的参数。

Nutch将索引所有文档,但不会创建重复项,因为它将使用ID字段来确定它们是否已被插入。